科学网—大模型诊病还不“靠谱”

作者：冯维维来源：医学科学报发布时间：2026-4-10

选择字号：小中大

大模型诊病还不“靠谱”

图片来源：视觉中国

本报讯 一项研究发现，大语言模型（LLM）或许还不能协助公众做出更好的日常健康决策。相关研究近日发表于《自然-医学》。

全球医疗机构提议将LLM作为公众获取医疗信息的潜在工具，让个人在向医生求助前进行初步健康评估和疾病管理。但之前的研究显示，控制场景下在医师资格考试中得分很高的LLM并不能保证有效完成真实世界的交互。

英国牛津大学互联网研究所的Adam Mahdi、Adam Bean和同事测试了LLM是否能协助公众精准辨别医疗病症，如普通感冒、贫血或胆结石，并选择一种行动方案，如呼叫救护车或联系全科医生。研究人员给1298名英国研究参与者每人指派了10种不同的医疗情景，并让他们随机使用3个LLM（GPT-4o、Llama3或CommandR+）中的一个；同时让对照组使用他们的常用资源，如互联网搜索引擎。

研究表明，不用人类研究参与者进行测试时，LLM能准确完成这些情景，平均能在94.9%的情况下正确辨别疾病，在56.3%的情况下选择正确的行动方案。不过，当人类研究参与者使用相同的LLM时，相关病症的识别率低于34.5%，选择正确行动方案的情况低于44.2%——这一结果并未超过对照组。研究人员通过人工检查了其中30种情况的人类-LLM交互，发现研究参与者常向模型提供不完整或不准确的信息，并且LLM有时会生成误导性或错误的信息。

作者总结称，当前的LLM并不能很好地用于实际的患者医疗，因为将LLM与人类用户配对会产生现有基准测试和模拟交互无法预测的问题。

（冯维维）

相关论文信息：

https://doi.org/10.1038/s41591-02-04074-y

《医学科学报》 (2026-04-10 第11版国际)

编辑部推荐博文
科学网2026年3月十佳博文榜单公布！封面文章 \| Mycology：重塑嗜热真菌细胞工厂 AI的目前发展与未来困境 MDPI Books图书类型介绍 (一)：Monograph Emerging Contaminants专刊征稿国内最早专篇介绍孟德尔遗传学文章的新发现更多>>