Vera Health、主要な医療AIベンチマークで第1位を獲得し、OpenAI・Anthropic・Googleの最も強力なモデルを上回る

はじめに

Veraは高度なAIエージェントと検索拡張生成（RAG）技術を活用し、査読済みの医学論文6,000万件以上の知識を統合して、信頼性が高く文脈に即した回答を提供します。本マルチベンチマーク評価では、米国医師資格試験（USMLE）、New England Journal of MedicineのAI質問応答データセット（NEJM-AI）、およびMedXpertQAベンチマークという3つの異なる医療知識領域にわたってVeraの性能を評価しています。

パフォーマンス指標

- USMLEにおいて、Veraは97.5%という卓越した総合正答率を達成し、ステップ別ではStep 1で97.9%、Step 2 CKで98.2%、Step 3で96.7%の正答率を記録しました。

- 5つの医療専門分野にわたる655問で構成されるNEJM-AIベンチマークにおいて、Veraは84.9%の正答率で優れた性能を示し、OpenAI o4 Mini（77.1%）、Claude 4 Sonnet（75.4%）、Perplexity Sonar Pro（74.4%）といった主要なAIモデルを上回りました。

- 複数の身体系統と医療タスクにわたる500問で構成されるMedXpertQAベンチマークにおいて、Veraは62.2%の正答率を達成し、専門的な臨床推論シナリオにおける高い性能を示しました。

- VeraはNEJM-AIの5つの医療専門分野のうち4分野で最高の正答率を達成し、特に小児科（93.9%）と内科（87.3%）で優れた性能を示しました。

まとめ

多様な評価フレームワークにわたるこれらの結果は、Veraの堅牢な医療知識の表現力と推論能力を裏付けており、臨床意思決定支援における主要なソリューションとしての地位を確立しています。論文全文はこちらからお読みいただけます。

Vera Health、主要な医療AIベンチマークで第1位を獲得し、OpenAI・Anthropic・Googleの最も強力なモデルを上回る

はじめに

パフォーマンス指標

まとめ

Vera Healthについて

最近の投稿

症例報告：分娩中に子宮捻転を引き起こした大きな子宮筋腫の管理

GLP-1 RAsは一部のがんにおける進行の抑制と関連

限局性学習障害を有する医学生は依然として学修上の障壁に直面している