近日,数字医学领域全球顶级期刊《npj Digital Medicine》(Nature 旗下权威学术期刊,中科院医学大类 1 区 Top 期刊,2024 年影响因子 15.1)发布了一项来自中国科研团队的最新研究成果——全球首个用于评估医疗 AI 临床适用性的权威标准:「临床安全-有效性双轨基准」(CSEDB,Clinical Safety-Effectiveness Dual-Track Benchmark)。
这是中国团队首次在全球顶尖期刊发表「大语言模型+医疗」领域的相关标准研究。CSEDB 的创立,不仅填补了医疗 AI 临床能力评估的国际空白,也为医疗大模型的迭代优化指明了方向,更为医疗 AI 进入严肃诊疗场景奠定关键基础。同时,在基于这一标准对全球多个主流 AI 模型开展的系统性测评中,由中国未来医生团队打造的 MedGPT 各项评分均表现领先。

传统测评与临床脱节,医疗 AI 呼唤「实战级」评估标准
生命安全是医疗行业的核心底线。随着人工智能技术向诊断、治疗等严肃医疗场景渗透,每一项 AI 辅助决策都需经得起临床实践的严苛检验。
然而,当前全球医疗 AI 评估体系存在显著局限:主流测评多采用「XX 执业医师考试」等标准化考试形式,但此类考试多有固定答案和有限选项,而真实医疗实践则是高度个体化、动态演变的复杂系统。仅依赖考试成绩评估 AI 的临床适用性,与实际诊疗场景的需求存在巨大落差。
在医疗 AI 高速发展的当下,行业亟需一套扎根临床实践、贴合真实决策场景的科学评估标准,这也成为全球医疗 AI 领域的共同课题。
中国专家团队打造,首创「安全-有效」双轨评估新范式
此次经全球顶级期刊验证的 CSEDB 评估标准,由未来医生科研团队联合 32 位国内顶尖临床专家共同制定。这些专家均来自北京协和医院、中国医学科学院肿瘤医院、中国人民解放军总医院、复旦大学附属华山医院等顶尖医疗机构的 23 个核心专科。
这套新标准打破了过往以答题准确率评估医疗 AI 能力的模式,在全球范围内首次引入「安全性」与「有效性」双轨评价体系,全面贴合真实临床决策场景。

评估维度涵盖 30 项核心指标,其中 17 项聚焦安全性,包括危急重症状识别、致死性诊断失误、绝对禁忌用药等关键场景;13 项聚焦有效性,包括多病并存优先级、诊疗方案与指南一致等核心需求。同时,CSEDB 按临床风险等级对每项指标加权打分,分值从 1 分到 5 分不等,5 分对应「潜在致命后果」,如剂量与器官功能失配等高风险情境;1 分对应「可逆性伤害」,如病例与检查报告专业解读准确性等场景。
在测试方法上,CSEDB 也打破了以往「标准问-标准答」的静态模式。基于上述指标,整套评估体系共构建了 2069 个开放式问答条目,覆盖 26 个临床专科,全方位模拟临床诊疗的复杂场景。
MedGPT 实力领跑全球,未来医生引领医疗 AI 新征程
CSEDB 的建立,意味着 AI 时代首次诞生了一套能真实反映医疗 AI 临床诊疗能力的系统化评估标准。全球主流大模型悉数参与测试,包括 DeepSeek-R1、OpenAI o3、Gemini-2.5、Qwen3-235B、Claude-3.7 等。
在这场系统性测评中,未来医生自研的 AI 医疗认知系统 MedGPT 表现惊艳:总体得分(0.985)、安全性得分(0.912)、有效性得分(0.861)三项核心指标均位表现领先,且总体得分和安全性得分都领先第二名超 15%。

尤为值得关注的是,在大多数模型安全性表现偏弱的情况下,MedGPT 是唯一一款安全性评分高于有效性评分的模型。这意味着它在能力不断逼近医生专业水平的同时,更展现出医疗领域至关重要的「谨慎」特质。
MedGPT 的优异表现源自于未来医生的初心:从立项之初,就将临床专家奉为圭臬的安全性和有效性植入底层代码,致力于让医疗 AI「像医生一样思考」,而非仅仅「说得像医生」。其底层技术架构模拟的就是人脑的认知逻辑,而不是寄希望于海量数据浇灌下的「大模型智慧自然涌现」。
早在 2023 年,MedGPT 就在面向真实患者的临床试验中,展现出强大的临床适配能力——与三甲医院主治医师的诊断一致性达 96%。如今,这一能力仍在持续迭代:超过 1 万名医生通过未来医生平台与患者进行交互,每周沉淀 2 万条「真实诊疗反馈」,通过「反馈即迭代」的飞轮机制,MedGPT 的准确率每月能提升 1.2%-1.5%,不断推动医疗 AI 临床诊疗能力向更高水平迈进。
本平台所发布信息的内容和准确性由提供消息的原单位或组织独立承担完全责任。