表3 不同大语言模型在图像模态诊断中的性能比较 %
测试类型 | 模型 | 准确率 (Acc) | 灵敏度 (Sen) | 特异度 (Spe) |
钼靶 | ChatGPT4 | 58.3 (70/120) | 63.3 (38/60) | 51.7 (31/60) |
| Llama 3 | 56.7 (68/120) | 40.0 (24/60) | 73.3 (44/60) |
超声 | ChatGPT4 | 63.3% (76/120) | 78.3 (47/60) | 46.7 (28/60) |
| Llama 3 | 62.5 (75/120) | 43.3 (26/60) | 81.7(49/60) |
联合 | ChatGPT4 | 62.5 (75/120) | 78.3 (47/60) | 46.7 (28/60) |
| Llama 3 | 61.7% (74/120) | 25.0 (15/60) | 98.3 (59/60) |