GPT-4 在诊断复杂临床病例方面优于 99.98% 的模拟人类阅读器

2023年11月28日,15时11分03秒科技新知阅读 25 views 次

照片：英雄图片/盖蒂图片社

根据《新英格兰医学杂志》发表的一项研究，OpenAI 的 GPT-4 正确诊断了 52.7% 的复杂挑战病例，而医学期刊读者的诊断率为 36%，并且超过了 99.98% 的模拟人类读者。

该评估由丹麦研究人员进行，利用 GPT-4 通过 2017 年 1 月至 2023 年 1 月期间在线发布的文本信息查找与 38 个复杂临床病例挑战相关的诊断。GPT-4 的回答与在线医学期刊读者的 248,614 个回答进行了比较。

每个复杂的临床病例都包含病史以及一项民意调查，其中有六种最可能的诊断选项。 GPT-4 使用的提示要求程序通过回答多项选择题并分析临床病例报告中未经编辑的完整文本来解决诊断问题。每个案例都提交给 GPT-4 五次以评估再现性。

或者，研究人员从医学期刊读者那里收集每个案例的投票，模拟 10,000 组答案，从而产生 10,000 名人类参与者的伪总体。

最常见的诊断包括感染性疾病15例（39.5%）、内分泌科5例（13.1%）和风湿科4例（10.5%）。

临床病例的患者范围从新生儿到89岁，其中37%是女性。

最近的 2023 年 3 月版 GPT-4 正确诊断了 21.8 例，即 57%，具有良好的可重复性，而医学期刊读者正确诊断了 13.7 例，即平均 36%。

3 月份最新发布的 GPT-4 包括截至 2021 年 9 月的在线材料；因此，研究人员还评估了可用训练数据之前和之后的案例。

在这种情况下，GPT-4 正确诊断了 2021 年 9 月之前发布的病例的 52.7%，以及 2021 年 9 月之后发布的病例的 75%。

“GPT-4 具有很高的可重复性，我们的时间分析表明，我们观察到的准确性并不是因为这些案例出现在模型的训练数据中。然而，不同版本的 GPT-4 之间的性能似乎确实发生了变化，其中最新版本的表现稍差。尽管它在我们的研究中显示出有希望的结果，但 GPT-4 几乎错过了每一次诊断，”研究人员写道。

“……我们的结果以及其他研究人员的最新发现表明，当前的 GPT-4 模型今天可能具有临床前景。然而，需要适当的临床试验来确保这项技术在临床使用中安全有效。”

为什么它很重要

研究人员指出了该研究的局限性，包括医学期刊读者的医疗技能的未知数，并且研究人员的结果可能代表了有利于 GPT-4 的最佳情况。

尽管如此，研究人员得出的结论是，即使在医学期刊读者中获得“最大相关的正确答案”，GPT-4 的表现仍然优于 72% 的人类读者。

研究人员强调了未来模型的重要性，包括来自发展中国家的培训数据，以确保该技术的全球利益以及道德考虑的需要。

该研究的作者写道：“当我们迈向这个未来时，还需要解决 GPT-4 等商业模式缺乏透明度所带来的伦理影响，以及数据保护和隐私方面的监管问题。”

“最后，评估准确性、安全性和有效性的临床研究应该先于未来的实施。一旦这些问题得到解决并且人工智能得到改善，社会预计将越来越依赖人工智能作为支持人类监督决策过程的工具，而不是作为医生的替代者。”

本文来自互联网，不代表前途科技立场，如若转载，请注明出处：https://accesspath.com/tech/5886108/

(来源：前途科技)

关联资讯: