Vera Health、主要な医療AIベンチマークで第1位を獲得し、OpenAI・Anthropic・Googleの最も強力なモデルを上回る
はじめに
Veraは高度なAIエージェントと検索拡張生成(RAG)技術を活用し、査読済みの医学論文6,000万件以上の知識を統合して、信頼性が高く文脈に即した回答を提供します。本マルチベンチマーク評価では、米国医師資格試験(USMLE)、New England Journal of MedicineのAI質問応答データセット(NEJM-AI)、およびMedXpertQAベンチマークという3つの異なる医療知識領域にわたってVeraの性能を評価しています。
パフォーマンス指標
- USMLEにおいて、Veraは97.5%という卓越した総合正答率を達成し、ステップ別ではStep 1で97.9%、Step 2 CKで98.2%、Step 3で96.7%の正答率を記録しました。
- 5つの医療専門分野にわたる655問で構成されるNEJM-AIベンチマークにおいて、Veraは84.9%の正答率で優れた性能を示し、OpenAI o4 Mini(77.1%)、Claude 4 Sonnet(75.4%)、Perplexity Sonar Pro(74.4%)といった主要なAIモデルを上回りました。
- 複数の身体系統と医療タスクにわたる500問で構成されるMedXpertQAベンチマークにおいて、Veraは62.2%の正答率を達成し、専門的な臨床推論シナリオにおける高い性能を示しました。
- VeraはNEJM-AIの5つの医療専門分野のうち4分野で最高の正答率を達成し、特に小児科(93.9%)と内科(87.3%)で優れた性能を示しました。
まとめ
多様な評価フレームワークにわたるこれらの結果は、Veraの堅牢な医療知識の表現力と推論能力を裏付けており、臨床意思決定支援における主要なソリューションとしての地位を確立しています。論文全文はこちらからお読みいただけます。
Vera Healthについて
Veraは、医療従事者がエビデンスに基づく意思決定をより効率的に行えるよう支援する、AI搭載の臨床意思決定支援(CDS)ツールです。Veraは電子カルテと連携し、診療現場で信頼性の高い推奨をリアルタイムに提供します。最先端のAI技術により、Veraは臨床医が患者の転帰を改善し、意思決定プロセスを効率化できるよう支援します。サンフランシスコとニューヨークに拠点を持つVeraは、救急部門をはじめとするスピードが求められる医療現場の臨床ワークフローの近代化を牽引しています。

