表2 不同大语言模型在文本模态诊断中的性能比较 %
测试类型 | 模型 | 准确率 (Acc) | 灵敏度 (Sen) | 特异度 (Spe) |
钼靶 | ChatGPT4 | 69.2 (83/120) | 76.7(46/60) | 61.7 (37/60) |
| Llama 3 | 85.0 (102/120) | 88.3 (53/60) | 81.7 (49/60) |
超声 | ChatGPT4 | 80.0 (96/120) | 86.7 (52/60) | 73.3 (44/60) |
| Llama 3 | 88.3 (106/120) | 88.3 (53/60) | 88.3 (53/60) |
联合 | ChatGPT4 | 71.7 (86/120) | 91.7(55/60) | 48.3 (29/60) |
| Llama 3 | 91.7(110/120) | 93.3 (56/60) | 90.0 (54/60) |