AIベンチマークとは？GPT-4・Claudeの性能を比較する指標をわかりやすく解説

「GPT-4がClaudeより優れている？」「このモデルはMMLUで90点台？」——AIの性能比較でよく見るベンチマーク（benchmark）という指標。何を測って、どう読めばいいのか。AIを選ぶときに必ず役立つ知識を解説します。

AIベンチマークとは？
主要なAIベンチマーク一覧
ベンチマークの限界と注意点
AIを選ぶ際のベンチマークの読み方
よくある質問
1. Anthropicのモデルカードのベンチマーク結果は信頼できる？
2. ChatGPT ArenaとはAIランキングのこと？

AIベンチマークとは？

AIベンチマーク（Benchmark）とは、AIモデルの性能を客観的に測定・比較するための標準テストです。「どのAIが賢いか？」を数値で比較できるようにするための評価基準です。数学・論理・コーディング・常識推論・言語理解など多様な能力を測る複数のベンチマークが存在します。

主要なAIベンチマーク一覧

ベンチマーク名	測定内容	特徴
MMLU	57科目の大学レベル知識テスト（法学・医学・物理学など）	最も広く参照されるベンチマークのひとつ。GPT-4は約86%、Claude 3.5は88%超。
HumanEval	Pythonコーディング問題164問を解けるか	プログラミング能力の評価。GPT-4は約87%正解。
MATH	高校・大学レベルの数学問題5,000問	数学的推論力を測る。最難関ベンチマークのひとつ。
GSM8K	小学校〜中学校レベルの算数文章題8,500問	段階的な推論能力を測定。Chain-of-Thoughtの評価に使われる。
HellaSwag	常識的な文章の続きを選ぶ	常識推論・文脈理解を評価。人間は95%以上正解する。
TruthfulQA	AIが真実に反することを言わないかをテスト	ハルシネーション耐性の評価。
GPQA	博士レベルの専門的な質問（化学・物理・生物学）	専門的推論の最難関ベンチマーク。
SWE-bench	実際のGitHubのバグを修正する能力	実際のソフトウェア開発タスク解決能力を評価。

ベンチマークの限界と注意点

ベンチマークのスコアが高ければ実用でも優れているとは限りません。いくつかの重要な注意点があります。第一に「ベンチマーク過適合」の問題があります。AIの開発者がベンチマーク用のデータで特別に学習させると、実際の能力より高いスコアが出ます。第二に「実際のユースケースとの乖離」があります。数学や知識問題が得意でも、クリエイティブな文章作成や特定業界の専門タスクが得意とは限りません。第三に日本語タスクへの対応が問題で、多くのベンチマークは英語中心であり、日本語での実際の性能はスコアと異なることがあります。