引言

Vera 运用先进的 AI 智能体和检索增强生成（RAG）技术，综合了 6000 多万篇经同行评审的医学文献知识，以提供可靠且贴合情境的回答。本次多基准评估在三个不同的医学知识领域中考察了 Vera 的表现：美国执业医师资格考试（USMLE）、《新英格兰医学杂志》AI 问答数据集（NEJM-AI）以及 MedXpertQA 基准测试。

性能指标

- 在 USMLE 中，Vera 取得了 97.5% 的卓越总体准确率，各阶段准确率分别为 97.9%（Step 1）、98.2%（Step 2 CK）和 96.7%（Step 3）。

- 在涵盖五个医学专科、共 655 道题目的 NEJM-AI 基准测试中，Vera 以 84.9% 的准确率展现出卓越表现，超越了 OpenAI o4 Mini（77.1%）、Claude 4 Sonnet（75.4%）和 Perplexity Sonar Pro（74.4%）等领先的 AI 模型。

- 在涵盖多个身体系统和医疗任务、共 500 道题目的 MedXpertQA 基准测试中，Vera 取得了 62.2% 的准确率，在专业临床推理场景中展现出强劲表现。

- Vera 在 NEJM-AI 的五个医学专科中有四个取得了最高准确率，在儿科（93.9%）和内科（87.3%）方面表现尤为突出。

结论

这些跨越多种评估框架的结果，凸显了 Vera 强大的医学知识表征与推理能力，使其成为临床决策支持领域的领先解决方案。您可以在此处阅读全文。

Vera Health 在多项关键医疗 AI 基准测试中位列第一，超越 OpenAI、Anthropic、Google 最强大的模型

引言

性能指标

结论

关于 Vera Health

最近文章

ACEP 与 Vera Health 达成合作，为急诊医生提供值得信赖的 AI