基于ChatGPT-4o与DeepSeek的虚拟标准化患者系统在医学问诊教学中的比较研究

来源期刊：广州医药 | 1346-1352 发布时间：2025-10-20 收稿时间：2025/12/1 10:58:38 阅读量：200

作者：: 李婕,

梁国强,

王飞,

林泽宇,

陈柏权,

刘雪萍,

孟洋阳,

关键词：: 虚拟标准化患者大语言模型 AI 医患沟通生成式人工智能; virtual standardized patients large language models artificial intelligence medical communication generative AI

DOI：: 10. 20223 / j. cnki. 1000-8535. 2025. 10. 004

收稿时间：: 2025-05-07
修订日期：
接收日期：
引用总数：: 0

背景虚拟标准化患者作为医学教育中的新型教学工具, 已广泛用于提升学生的临床问诊能力。随着生成式人工智能的快速发展, 基于大语言模型（LLMs）构建的VSP系统成为研究热点。然而, 目前尚缺乏对不同LLM在模拟患者角色方面表现的系统比较。目的比较ChatGPT-4o与DeepSeek两种主流LLM在VSP模拟中的适用性, 评估其在病史采集、语言自然度、线索引导能力及教学辅助效果等方面的表现差异。方法采用类实验研究,参与者为某医学院校临床医学专业本科四年级学生, 所有参与者均已修完《诊断学》课程, 具备基础问诊技能, 研究对象共60人, 按学号尾数单双分为两组, 分别与ChatGPT-4o或DeepSeek驱动的VSP系统进行交互。进行模拟急性阑尾炎问诊, 并在完成病史采集后提交诊断判断与体验问卷。结果 ChatGPT-4o在结构化信息整合、线索引导及技术稳定性方面更为优越, 而DeepSeek则在语言亲和力与情感回应方面表现更具人文关怀色彩。结论不同LLM在VSP中的优势方向不同, 可根据教学目标进行有针对性地系统选择与设计。未来研究可进一步拓展至不同病种、交互方式及评估维度,以全面评估LLM驱动VSP在医学教育场景下的适应性与教学成效。

Background Virtual standardized patients（VSPs）have emerged as a novel tool in medical education, widely adopted to enhance students’ clinical interview skills．With the rapid development of generative artificial intelligence, VSP systems powered by large language models（LLMs）have become a new focus of research．However, few studies have systematically compared the performance of different LLMs in simulating patient roles．Objective This study aims to compare the applicability of two mainstream LLMs, ChatGPT-4o and DeepSeek, in VSP-based medical interview simulations, focusing on their differences in history-taking performance,linguistic naturalness, clue guidance,and educational support．Methods A quasi-experimental study was conducted involving 60 fourth-year clinical medicine undergraduates from a medical school．All participants had completed a diagnostics course and possessed basic interviewing skills．Students were assigned to either the ChatGPT-4o or DeepSeek group based on the parity of their student ID numbers．Each participant conducted a text-based simulated interview with a VSP presenting with acute appendicitis, then submitted both a preliminary diagnosis and a structured satisfaction questionnaire．Results ChatGPT-4o demonstrated superior performance in structured information integration, clue-based prompting, and system stability．In contrast, DeepSeek showed more natural language affinity and emotional responsiveness,reflecting stronger humanistic communication traits．The two models displayed divergent strengths within the VSP framework, suggesting that system selection and integration should be tailored to specific teaching objectives．Conclusions Future research should expand the scope to include diverse disease scenarios, interaction modalities, and evaluation dimensions, to comprehensively assess the educational utility and adaptability of LLM-driven VSP systems in medical training．

虚拟标准化患者（virtual standardized patient，VSP）是通过数字技术模拟真实患者行为与病理特征的交互系统，旨在辅助医学教育中的病史采集、医患沟通与临床推理训练。相较于传统标准化患者，VSP凭借其可扩展性、病例复现一致性与多模态交互能力，显著降低了医学模拟教学的成本与时空限制，已成为全球医学教育数字化转型的核心方向之一^［1］。近年来，生成式人工智能（generative AI）技术的迅猛发展，推动了基于大型语言模型（large language models，LLMs）构建的VSP系统的研究兴起^［2］。诸如ChatGPT、DeepSeek等新一代模型，凭借其强大的自然语言理解与生成能力，为虚拟患者角色扮演提供了技术支撑^［3］。已有研究表明，基于ChatGPT等生成式AI驱动的VSP，在病史采集、开放式对话及情绪模拟方面，表现出超越传统脚本式系统的潜力^［4］。然而当前研究多聚焦于技术原型开发，缺乏基于教育理论的系统性评估体系^［5］，且跨模型性能对比研究近乎空白，导致教育者选型缺乏实证依据^［6］，特别是在中文语境下，国产LLM如DeepSeek等，其在医疗语义理解与人机交互中的表现尚缺乏系统验证。基于此背景，本研究以典型高鉴别性疾病——急性阑尾炎问诊场景为例，采用类实验研究设计，旨在比较 ChatGPT-4o 与 DeepSeek 两种主流大语言模型在模拟急性阑尾炎问诊场景中的表现，评估其在支持学员采集病史、形成诊断思路与提升交互体验等方面的差异。为医学教育中AI辅助教学系统的优化与选型提供理论参考和实证依据。

1 资料与方法

1.1 研究对象与调查方法

本研究采用类实验研究设计，参与者为某医学院校临床医学专业本科四年级学生，已完成《诊断学》课程且考试成绩差异无统计学意义，均无VSP使用经验；缺勤参与者、未完成问卷者、对AI敏感或技术使用困难者不纳入研究；参考相关教育研究建议样本规模不少于30人每组^［7］，结合资源情况最终确定为60人；所有学生在入组前统一接受10 min标准化培训，复习问诊结构及任务目标，确保基础问诊技能一致。研究对象共60人，按学号尾数单双分为两组，分别参与由ChatGPT-4o与DeepSeek语言模型驱动的VSP问诊模拟。本研究数据在采集过程中已完成脱敏处理，符合医学教育研究伦理规范（伦理批件号：2025ZSLYEC-352）。

研究围绕“急性阑尾炎”这个典型临床场景展开。为控制实验偏倚，依托Web端Chatbox搭建问诊界面，通过API分别连接ChatGPT-4o与DeepSeek模型。系统在后台自动调用模型生成回答，并在前端以相同风格界面呈现，避免界面提示或语言风格暴露模型来源。为排除提示差异造成的干扰效应，保证实验公平性，本研究采用统一的系统设定指令（Prompt），见表1，分别输入至ChatGPT-4o与DeepSeek的API接口，确保两种大语言模型在问诊开始阶段接收完全相同的情境背景信息。每位学生与各自分配的大模型进行文本交互式问诊，任务限时15 min。完成后学员需填写一份结构化评估问卷，同时需提交临床初步诊断。

表 1 设定指令

主题	内容
提示语	你将扮演一位有典型急性阑尾炎症状的患者，作为虚拟标准化患者（Virtual Standardized Patient, VSP），与医学生进行标准化病史采集互动。请遵循以下要求：
角色设定	28岁，已婚，性别女性，主诉为右下腹疼痛伴恶心1 d，体温38 ℃，无手术史或慢性病史，无药物过敏史
回答原则	仅根据医学生的提问提供信息，不主动透露未被询问的信息; 对每一个提问，都给予真实、自然、简洁的回答，符合普通患者表达特点; 如果提问模糊，可以合理推测意图后作答，但避免自作主张引导学生; 若学生提问不完整或不清晰时，适度请求澄清，但避免主动提示答案
信息控制要求	需在医学生主动提问时，方可暴露隐藏线索（如月经史正常、反跳痛阳性等）。回答中保持医学逻辑一致性，前后病史描述不可矛盾如涉及检查指标，仅回答“尚未进行相关检查”
语言风格要求	语言表达自然、贴近真实患者习惯，可适度加入轻微情绪反应（如焦虑、疼痛抱怨等）。避免使用专业术语或明显提示性表述
应对特殊情况	当学员问到与急性阑尾炎无关的问题（如外伤史、皮疹等）时，可简单否认。若学员总结病史或初步诊断，应以患者角度进行回应，不予评判或评论

所使用问卷为研究团队自设，设计参考Calgary-Cambridge模型^［8］与相关教学评估工具，包含五个维度：情境生动性、信息准确性、教学友好性、灵活适应性与技术体验性，共15个条目，采用Likert 5级评分（1=非常不同意，5=非常同意）。问卷经预试验后整体Cronbach’s α系数为0.87，具备较高内部一致性。

本研究在问卷末尾增设一项半结构化开放题，旨在进一步探究学员对基于大语言模型驱动的虚拟标准化患者系统的综合体验与未来改进期待。参与者可自由书写关键感受、关键词或短句，文本内容不限。

1.2 分析方法

对每一维度的评分进行描述性统计均值、标准差了解两个模型的整体表现趋势。数据分析采用SPSS 26.0软件进行。正态性检验使用Kolmogorov-Smirnov检验。正态分布资料以

表示，偏态数据以中位数（P₂₅，P₇₅）表示。符合正态分布且方差齐的变量采用独立样本t检验，不满足正态性假设的变量则使用Mann–Whitney U检验进行比较。差异检验的显著性水平设为P＜0.05，同时计算Cohen’s d效应量评估差异的实际意义。数据收集后，进行中文分词与停用词清理，提取高频词汇并生成词云进行可视化分析。

2 结果

2.1 学员基本信息

两组间的基础同质性差异无统计学意义（P＞0.05），具备可比性。见表2。

表 2 不同组别学员特征（`x±s，n=30）

特征	ChatGPT-4o组	DeepSeek组	统计量值	P
年龄/岁	21.4±0.6	21.3±0.7	t=0.36	0.72
性别（男/女）	12/18	11/19	χ²=0.07	0.79
平均绩点（过去1年）	3.58±0.21	3.62±0.18	t=0.59	0.56

2.2 临床初步诊断结果

ChatGPT-4o组与DeepSeek的诊断准确率均为90.0%（χ ² =0.00，P=1.000），无显著差异，均表现出较高且一致的水平，这表明在VSP模拟中，基于两种大语言模型进行病史采集与信息梳理，均能有效支持医学生做出准确的初步诊断决策。但在问诊所需时间方面，ChatGPT-4o组平均耗时（12.8±2.1） min，DeepSeek组为（14.5±2.6）min，差异有统计学意义，提示其在交互效率方面可能更具优势。见表3。

表 3 两种模型临床初步诊断结果（`x±s，n=30）

诊断结果	ChatGPT-4o组	DeepSeek组	统计检验结果
诊断准确率/%	90.0%	90.0%	χ²=0.00, P=1.00
平均用时/min	12.8±2.1	14.5±2.6	t=3.42, P=0.001

2.3 满意度问卷

2.3.1 各维度评分比较除灵活适应性维度外，其他各维度（情境生动性、信息准确性、教学友好性、技术体验性）组间比较差异均有统计学意义（P＜0.05）。见表4。

表 4 各维度统计检验结果 [（`x±s，M（P25, P75）, n=30）]

维度	ChatGPT-4o组	DeepSeek组	统计值	检验结果	效应量（Cohen's d）
1. 情境生动性	3.68±0.71	4.12±0.64	t = 2.98	P = 0.004	0.65
2. 信息准确性	3.82±0.63	3.45±0.72	t =2.31	P = 0.024	0.54
3. 教学友好性	3.83 [3.50, 4.17]	3.60 [3.20,3.90]	U = 325	P = 0.018	—
4. 灵活性和适应性	3.50±0.75	3.20±0.81	t = 1.99	P = 0.050	0.38
5. 技术体验性	3.75±0.68	3.35±0.73	t = 2.45	P = 0.017	0.57

2.3.2 子条目详细分析在情境生动性方面，DeepSeek在语言自然度和情感反馈自然度得分明显高于ChatGPT-4o，表明其在模拟患者情绪表达、自然叙述病史过程中更具沉浸感与真实感，能有效增强医学生的情境体验。见表5。

表 5 各条目统计检验结果（`x±s，n=30）

条目	ChatGPT-4o组	DeepSeek组	t	P	效应量Cohen's d
1.1 语言自然度	3.72±0.68	4.28±0.49	4.12	< 0.001	0.93
1.2 情感反馈自然度	3.45±0.71	4.35±0.52	5.13	< 0.001	1.42
1.3 叙事性	3.65±0.63	3.85±0.67	1.66	0.102	0.31
2.1 信息一致性	4.12±0.58	3.68±0.63	2.74	0.009	0.73
2.2 细节无矛盾	4.25±0.55	3.82±0.72	3.14	0.003	0.67
2.3 信息范围合理	3.95±0.62	3.80±0.65	1.25	0.214	0.24
3.1 提升诊断思路	4.05±0.62	3.55±0.69	3.05	0.004	0.77
3.2 遗漏意识	3.80±0.58	3.65±0.72	1.36	0.182	0.23
3.3 有效提升问诊技能	4.20±0.55	3.85±0.67	2.65	0.011	0.58
4.1 合理避免提示遗漏	3.85±0.67	4.15±0.73	2.14	0.038	0.43
4.2 合理地追问深入	4.05±0.62	3.45±0.72	3.61	0.001	0.91
4.3 应对非标准提高灵活性	3.50±0.75	3.65±0.81	0.99	0.327	0.19
5.1 系统稳定	4.20±0.55	3.05±0.82	6.48	< 0.001	1.63
5.2 界面友好	3.95±0.58	3.85±0.67	0.83	0.412	0.16
5.3 交互趣味性	3.15±0.73	3.85±0.67	2.62	0.012	0.98

在信息准确性维度，ChatGPT-4o组在“信息一致性”与“细节前后无矛盾性”上得分显著高于DeepSeek组，这提示ChatGPT-4o能够更好地维持病史内容前后一致，减少了冗余或冲突信息，避免了DeepSeek偶发的逻辑矛盾。但两者在提供信息范围合理方面差异不显著。

在教学友好性方面，ChatGPT-4o在“提升诊断思路”与有效“提升问诊技能”上表现更优。在遗漏意识方面两组无显著差异，DeepSeek通过情感暗示间接提示遗漏，可能更适合高阶学员。

在灵活适应性维度，ChatGPT-4o在合理追问与动态调整对话策略方面表现更敏锐，而DeepSeek则在应对模糊提问和提示遗漏方面稍具优势^［9-10］，可能与训练数据集中口语化对话样本更丰富相关。

在技术体验性方面，ChatGPT-4o在系统性与交互流畅性更佳，然而在交互趣味性维度上，DeepSeek得分显著高于ChatGPT-4o，说明DeepSeek在提升互动趣味性、减轻学员压力方面有潜在优势。

2.3.3 开放性问题共收集到58份有效开放式回答（2份填无），基于自然语言处理和人工编码相结合的方式，对内容进行主题归纳与高频分析，形成以下三个主要关注维度。见图1。

图 1 对 VSP 期待词云图

（1）交互真实感与情绪表达优化：“更自然的情绪反馈” “表情同步” “更像真实患者”等关键词出现频率较高，反映出学生普遍希望虚拟患者能模拟更具沉浸感的临床互动场景。尤其在表达焦虑、愤怒、迟疑等复杂情绪时，当前模型略显程式化，缺乏波动与细腻度。

（2）问诊引导个性化与灵活性提升：学员反馈集中提及“适应性追问” “个性化提示” “自由应答能力”等，反映出对模型交互策略灵活度的不满足。部分学生建议虚拟患者应具备识别学生提问风格、内容顺序的能力，从而给予更符合语境的动态回应。

（3）技术表现与多模态整合期待：关于技术层面，关键词如“表情识别” “多模态交互”稳定性得分远高于DeepSeek，提示其平台稳定性与交互流畅性更佳，然而在交互趣味性维度上，DeepSeek得分显著高于ChatGPT-4o，说明DeepSeek在提升互动趣味性、减轻学员压力方面有潜在优势。

“交互不卡顿”被多次提及。学生表达了希望系统能支持语音识别、表情识别、视频问诊等新型交互方式，并在稳定性与响应速度方面进一步优化，增强真实临床感受。

3 讨论

3.1 模型性能差异及技术归因

本研究发现，ChatGPT-4o与DeepSeek在VSP场景中展现出各自不同的性能优势。ChatGPT-4o在信息准确性、推理连贯性与系统稳定性方面表现更优^［11］，表明其在促进学生临床思维训练与技能提升方面具有更积极作用^［9］。而DeepSeek则在情境生动性与交互趣味性方面具有突出优势，体现出其在中文语境下更贴近本土化表达习惯。性能差异可归因于两者底层架构与训练策略的不同。ChatGPT-4o依托大规模权威医学文献资源（如PubMed、UpToDate）进行预训练，并采用检索增强生成技术^［12］，确保输出内容高度符合临床实践标准。同时，强化学习人类反馈优化了其逻辑严谨性，有效减少了冗余与冲突信息，提升了病史采集的一致性与细节连贯性^［13］。DeepSeek则在中文自然语言生成与情感表达建模方面投入更多资源，通过在Transformer结构中引入情感向量，并训练丰富的患者自述语料（如医疗论坛文本），DeepSeek能够生成更自然、富有情感色彩的语言回应^［14］。情感反馈自然度与交互趣味性得分的显著优势，体现了其在模拟患者情绪体验与沟通细腻度方面的技术优势，提升了整体交互流畅性与真实感。

3.2 在医学教育中的应用潜力

大语言模型驱动的VSP系统，已初步具备支持病史采集、临床推断和沟通技能训练的能力，可作为传统标准化患者教学的有益补充。两种模型的差异化优势决定了其在医学教育中的适用场景具有明显区分，应根据不同教学目标精准选型或模块化组合模型资源^［15］。

ChatGPT-4o凭借其高度的信息准确性、标准化问诊逻辑与系统稳定性，强调快速提取关键信息与缩短诊断决策时间^［16］，较为适合应用于急诊医学与鉴别诊断训练；结构化问诊教学，培养学员系统化采集病史、构建诊断思路的能力；早期医学教育阶段（如见习生训练），支持标准化病例问答与诊断推演。

而DeepSeek在情绪表达自然性与语言趣味性上的优势，使其更适用于医患沟通与共情能力培养^［17］，尤其在面对焦虑、悲伤等复杂情绪状态患者时，帮助学生练习共情回应；全科医学、慢性病管理与心理问诊模拟，促进问诊技能的内化，增强医学生的情境沉浸感和沟通技能^［18］；高年级或实习前阶段，通过模拟多样化患者情感反应，提高人文关怀能力。

在实际教学应用中，还可探索两模型优势互补的混合策略^［19］，例如在复杂情境训练中由ChatGPT-4o输出临床要点、DeepSeek生成情感化语言，从而兼顾诊断逻辑严谨性与沟通真实性，提升综合教育效果。

3.3 用户对VSP具有较高期待

从开放式反馈结果来看，当前基于LLM驱动的VSP系统在医学问诊教育中已初步建立起基础交互与信息传递功能^［20］，但学员对未来系统发展提出了更高期待，普遍希望能够引入情绪状态建模与动态情感调节算法，提高情境真实感^［21］。对个性化交互与适应性对话的期待也较为突出，学员希望VSP能根据不同问诊风格、提问习惯进行动态调整，而非固定脚本式应答^［22］，可通过引入基于用户画像的对话管理系统，提升模型灵活应答能力。对于技术体验多模态化也是较为集中的需求，如结合语音识别、表情识别等技术^［23］，使问诊更接近真实临床交流环境。

3.4 局限性和未来研究方向

本研究样本量有限，且仅来源于单一院校医学生，限制了结果的广泛性和外推性。未来研究应扩大样本规模，并涵盖不同背景与年级的参与者，以提高结果的普适性与代表性。同时，仅针对单一病例可能高估模型泛化能力，未来需扩展至多病种及复杂病情，验证结论的普适性。

评分主要依赖学员主观评价，存在一定的主观偏差。未来可引入客观量化指标，如问诊轮次数、关键信息提取率及教师标准评分体系，构建主客观结合的综合评估框架。尽管本研究初步验证了两种模型在VSP应用中的潜力，但仍需在更复杂、多病种、多模态的真实情境中进一步验证其泛化性能。

最后，本研究仅依赖文本交互，忽略了真实医患沟通中的多模态信息，如语音语调、面部表情等。目前已有教学系统可尝试引入语音识别、表情分析等，可提升教学沉浸感。随着新一代模型如ChatGPT-4.5、DeepSeek-R2的发布，现有结论可能随时间推移而变化。因此，有必要建立动态评估机制，持续跟踪不同版本模型在医学教育应用中的表现差异。在推广AI辅助教学时，需同步加强伦理规范建设，保障数据隐私，明确模型局限性^［24］，引导学生批判性使用虚拟患者系统，防止过度依赖AI产生认知偏差^［25］。

本研究结果证明大语言模型驱动的虚拟标准化患者系统，已初步具备支持病史采集、初步诊断推理及沟通技能训练的能力，可作为传统标准化患者教学的有效补充。通过降低成本、增加训练频次与个性化水平，VSP有望在医学教育中发挥更大作用，医学教育应根据教学目标有针对性地接入模型。例如，在急诊技能训练与结构化问诊教学中优先选用ChatGPT-4o，而在人文关怀、心理问诊及慢病管理模拟中，则更适合采用DeepSeek。开发者可基于模块化设计理念，将ChatGPT-4o在逻辑推理方面的技术优势与DeepSeek在情感交互方面的特长进行解耦与重组，开发出可根据教学需求灵活组合的虚拟患者系统^［26］。同时，应进一步探索语音识别、情感分析与视觉输入等多模态集成技术，构建集文本、语音与图像于一体的智能化VSP平台，提升系统的沉浸感与互动真实性。未来的VSP将从“静态交互模拟工具”转型为“智能、情感丰富、自适应、实时进化的虚拟学习伙伴”。随着人工智能、大数据与多模态交互技术的不断融合，基于大语言模型驱动的虚拟患者系统将在医学教育中发挥更加核心和多元的价值，为培养高素质、综合型医学人才提供全新路径。

1、EYSENBACH%E2%80%83G%EF%BC%8EThe%E2%80%83role%E2%80%83of%E2%80%83ChatGPT%EF%BC%8Cgenerative%E2%80%83%0Alanguage%E2%80%83models%EF%BC%8Cand%E2%80%83artificial%E2%80%83intelligence%E2%80%83in%E2%80%83medical%E2%80%83%0Aeducation%EF%BC%9AA%E2%80%83conversation%E2%80%83with%E2%80%83ChatGPT%E2%80%83and%E2%80%83a%E2%80%83call%E2%80%83for%E2%80%83%0Apapers%EF%BC%BBJ%EF%BC%BD%EF%BC%8EJMIR%E2%80%83Med%E2%80%83Educ%EF%BC%8C2023%EF%BC%889%EF%BC%89%EF%BC%9Ae46885%EF%BC%8E

2、CIVANER%E2%80%83M%E2%80%83M%EF%BC%8CUNCU%E2%80%83Y%EF%BC%8CBULUT%E2%80%83F%EF%BC%8Cet%E2%80%83al%EF%BC%8E%0AArtificial%E2%80%83intelligence%E2%80%83in%E2%80%83medical%E2%80%83education%EF%BC%9AA%E2%80%83cross%02sectional%E2%80%83needs%E2%80%83assessment%EF%BC%BBJ%EF%BC%BD%EF%BC%8EBMC%E2%80%83Med%E2%80%83Educ%EF%BC%8C%0A2022%EF%BC%8C22%EF%BC%881%EF%BC%89%EF%BC%9A772%EF%BC%8E

3、李克寒，余丽媛，邵企能，等．大语言模型在口腔住院医师规范化培训中的应用构想［J］．中国卫生产业，2024，21（7）：155-158．

4、TOPOL%E2%80%83E%E2%80%83J%EF%BC%8EHigh-performance%E2%80%83medicine%EF%BC%9AThe%20%20convergence%E2%80%83of%E2%80%83human%E2%80%83and%E2%80%83artificial%E2%80%83intelligence%EF%BC%BBJ%EF%BC%BD%EF%BC%8E%0ANat%E2%80%83Med%EF%BC%8C2019%EF%BC%8C25%EF%BC%881%EF%BC%89%EF%BC%9A44-56%EF%BC%8E

5、何剑虎，王德健，赵志锐，等．大语言模型在医疗领域的前沿研究与创新应用［J］．医学信息学杂志，2024，45（9）：10-18．

6、PREIKSAITIS%E2%80%83C%EF%BC%8CROSE%E2%80%83C%EF%BC%8EOpportunities%EF%BC%8C%0Achallenges%EF%BC%8Cand%E2%80%83future%E2%80%83directions%E2%80%83of%E2%80%83generative%E2%80%83artificial%E2%80%83%0Aintelligence%E2%80%83in%E2%80%83medical%E2%80%83education%EF%BC%9AScoping%E2%80%83review%0A%EF%BC%BBJ%EF%BC%BD%EF%BC%8EJMIR%E2%80%83Med%E2%80%83Educ%EF%BC%8C2023%EF%BC%889%EF%BC%89%EF%BC%9Ae48785%EF%BC%8E

7、COHEN%E2%80%83J%EF%BC%8EA%E2%80%83power%E2%80%83primer%EF%BC%BBJ%EF%BC%BD%EF%BC%8EPsychol%E2%80%83Bull%EF%BC%8C%0A1992%EF%BC%8C112%EF%BC%881%EF%BC%89%EF%BC%9A155-159%EF%BC%8E

8、SOMMER%E2%80%83J%EF%BC%8CLANIER%E2%80%83C%EF%BC%8CPERRON%E2%80%83N%E2%80%83J%EF%BC%8Cet%E2%80%83al%EF%BC%8EA%E2%80%83%0Ateaching%E2%80%83skills%E2%80%83assessment%E2%80%83tool%E2%80%83inspired%E2%80%83by%E2%80%83the%E2%80%83Calgary%02Cambridge%E2%80%83model%E2%80%83and%E2%80%83the%E2%80%83patient-centered%E2%80%83approach%0A%EF%BC%BBJ%EF%BC%BD%EF%BC%8EPatient%E2%80%83Educ%E2%80%83Couns%EF%BC%8C2016%EF%BC%8C99%EF%BC%884%EF%BC%89%EF%BC%9A600-%0A609%EF%BC%8E

9、王洪梅，王运武．AI时代教师角色变迁与职业认同：基于DeepSeek应用的深度分析［J］．中国医学教育技术，2025，39（3）：299-305．

10、李冠华，迟锐，孙思伟，等．大语言模型GPT-4在精神专科智慧医院建设中的应用探析［J］．中国现代医生，2024，62（33）：84-88．

11、PENG%E2%80%83S%EF%BC%8CWANG%E2%80%83D%EF%BC%8CLIANG%E2%80%83Y%EF%BC%8Cet%E2%80%83al%EF%BC%8EAI-ChatGPT%2F%0AGPT-4%EF%BC%9AAn%E2%80%83%20booster%E2%80%83for%E2%80%83the%E2%80%83%20development%E2%80%83of%E2%80%83%20physical%E2%80%83%0Amedicine%E2%80%83and%E2%80%83rehabilitation%E2%80%83in%E2%80%83the%E2%80%83new%E2%80%83era!%EF%BC%BBJ%EF%BC%BD%EF%BC%8EAnn%E2%80%83%0ABiomed%E2%80%83Eng%EF%BC%8C2024%EF%BC%8C52%EF%BC%883%EF%BC%89%EF%BC%9A462-466%EF%BC%8E

12、OPENAI%EF%BC%8CJOSH%E2%80%83ACHIAM%EF%BC%8CSTEVEN%E2%80%83ADLER%EF%BC%8Cet%E2%80%83al%EF%BC%8E%0AGPT-4%E2%80%83Technical%E2%80%83Report%EF%BC%BBR%2FOL%EF%BC%BD%EF%BC%8E%EF%BC%882024-03-04%EF%BC%89%0A%EF%BC%BB2025-05-07%EF%BC%BD%EF%BC%8Ehttps%EF%BC%9A%2F%2Farxiv%EF%BC%8Eorg%2Fabs%2F2303%EF%BC%8E%0A08774%EF%BC%8E

13、胡梦杰，任文，任菁菁．大语言模型在未分化疾病教学中的应用探讨及案例分析［J］．中国毕业后医学教育，2025，9（4）：277-282．

14、闫温馨，刘珏，梁万年．DeepSeek赋能全科医学：潜在应用与展望［J］．中国全科医学，2025，28（17）：2065-2069．

15、谢斌，尹巧丽，黄菲，等．基于“学习金字塔”理论的多循环教学模式在医学检验实践教学中的应用［J］．国际医药卫生导报，2025，31（2）：350-353．

16、陈娜平，唐陆禛，黄贤生，等．基于ChatGPT-4的虚拟标准化病人应用研究［J］．中华医学教育杂志，2025，45（1）：44-49．

17、闾海荣，江瑞，张学工，等．DeepSeek与医学大语言模型：技术创新与医疗服务模式重构［J］．医学信息学杂志，2025，46（2）：1-7，13．

18、叶梓杰，蔡凯骏，陈劲松，等．基于扎根理论探索标准化病人情景教学改革［J］．医学教育研究与实践，2025，33（3）：422-427，434．

19、丘福满，杨磊，吕嘉春．《流行病学》课程混合式教学模式改革的思考与实践［J］．广州医药，2024，55（12）：1515-1519．

20、王菁，陈炜，冯东．人工智能大模型对医疗健康行业的影响探析［J］．现代医院，2025，25（5）：759-763．

21、余梦雪，蔡昕昱，王刚，等．人工智能在医学研究生教学中的应用现状与分析［J］．中国继续医学教育，2025，17（5）：170-174．

22、汪洁．新医科背景下医学生对人工智能课程需求的调查研究［J］．科教文汇，2024（15）：90-94．

23、白洁，周进祝．ChatGPT生成式AI时代《医学统计学》教育的挑战与应对［J］．继续医学教育，2024，38（8）：136-139．

24、姜秀敏，张嘉印．DeepSeek介入人文社科学术体系催生的“智能增强学术范式”［J］．北京行政学院学报，2025（3）：31-42．