表2 不同大语言模型在文本模态诊断中的性能比较 %

测试类型	模型	准确率 (Acc)	灵敏度 (Sen)	特异度 (Spe)
钼靶	ChatGPT4	69.2 (83/120)	76.7(46/60)	61.7 (37/60)
	Llama 3	85.0 (102/120)	88.3 (53/60)	81.7 (49/60)
超声	ChatGPT4	80.0 (96/120)	86.7 (52/60)	73.3 (44/60)
	Llama 3	88.3 (106/120)	88.3 (53/60)	88.3 (53/60)
联合	ChatGPT4	71.7 (86/120)	91.7(55/60)	48.3 (29/60)
	Llama 3	91.7(110/120)	93.3 (56/60)	90.0 (54/60)