表3 不同大语言模型在图像模态诊断中的性能比较 %

测试类型	模型	准确率 (Acc)	灵敏度 (Sen)	特异度 (Spe)
钼靶	ChatGPT4	58.3 (70/120)	63.3 (38/60)	51.7 (31/60)
	Llama 3	56.7 (68/120)	40.0 (24/60)	73.3 (44/60)
超声	ChatGPT4	63.3% (76/120)	78.3 (47/60)	46.7 (28/60)
	Llama 3	62.5 (75/120)	43.3 (26/60)	81.7(49/60)
联合	ChatGPT4	62.5 (75/120)	78.3 (47/60)	46.7 (28/60)
	Llama 3	61.7% (74/120)	25.0 (15/60)	98.3 (59/60)