表3   不同大语言模型在图像模态诊断中的性能比较      %

测试类型

模型

准确率 (Acc)

灵敏度 (Sen)

特异度 (Spe)

钼靶

ChatGPT4

58.3 (70/120)

63.3 (38/60)

51.7 (31/60)

 

Llama 3

56.7 (68/120)

40.0 (24/60)

73.3 (44/60)

超声

ChatGPT4

63.3% (76/120)

78.3 (47/60)

46.7 (28/60)

 

Llama 3

62.5 (75/120)

43.3 (26/60)

81.7(49/60)

联合

ChatGPT4

62.5 (75/120)

78.3 (47/60)

46.7 (28/60)

 

Llama 3

61.7% (74/120)

25.0 (15/60)

98.3 (59/60)