表2 不同大语言模型在文本模态诊断中的性能比较       %

测试类型

模型

准确率 (Acc)

灵敏度 (Sen)

特异度 (Spe)

  钼靶​

ChatGPT4

69.2 (83/120)

76.7(46/60)

61.7 (37/60)

 

Llama 3

85.0 (102/120)

88.3 (53/60)

81.7 (49/60)

  超声​​

ChatGPT4

80.0 (96/120)

86.7 (52/60)

73.3 (44/60)

 

Llama 3

88.3 (106/120)

88.3 (53/60)

88.3 (53/60)

  联合​

ChatGPT4

71.7 (86/120)

91.7(55/60)

48.3 (29/60)

 

Llama 3

91.7(110/120)

93.3 (56/60)

90.0 (54/60)