「AIベンチマーク」は壊れている──MIT Tech Reviewが突きつけた”測り方”の限界

「GPT-5はMMLUで98点を取った」「Claudeは数学オリンピックで金メダル級」──新しいAIモデルが出るたびに、こうしたベンチマーク結果が見出しを飾る。だが、MIT Technology Reviewが2026年3月31日に公開した記事は、その前提に正面から疑問を投げかけた。

ベンチマークの何が問題なのか
では、何で測ればいいのか
なぜビジネスパーソンが気にすべきか
ソース

ベンチマークの何が問題なのか

AIベンチマークとは、AIモデルに「テスト」を受けさせて性能を数値化する仕組みだ。大学入試のようなもので、スコアが高いほど「賢い」とされる。代表的なものにMMLU（多分野の知識テスト）、HumanEval（コーディング能力テスト）などがある。

MIT Tech Reviewが指摘する問題は、大きく3つある。

1. AIは「テストされる方法」で使われていない

ベンチマークでは、AIが「1人で」「明確な正解がある問題」を解く。だが現実の職場では、AIは人間のチームの中で使われる。会議の要約、提案書のドラフト、データの異常検知──どれも「正解は1つ」ではなく、組織のワークフローの中で機能するかどうかが問われる。テストの点数が高くても、実務で役立つかは別の話だ。

2. ベンチマークが「飽和」している

多くのベンチマークで、最新モデルがほぼ満点を取るようになった。たとえるなら、小学校のテストで全員が100点を取っている状態だ。テスト自体が簡単すぎて、モデル間の差が測れなくなっている。「AIの進化が止まった」のではなく「物差しが短すぎる」のが実態だ。

3. 再現性がない

スタンフォード大学の研究によれば、多くのベンチマーク結果は再現できない。テストの実行コードが公開されていなかったり、企業が自社に有利な条件でテストを行っていたりする。つまり、公表されているスコアをそのまま信じることが危うい場合がある。

では、何で測ればいいのか

MIT Tech Reviewの記事が提案するのは、「AIを単体で評価する」のではなく「人間のチームの中でAIがどれだけ貢献したか」を測る方法だ。個人の偏差値ではなく、チームの生産性指標としてAIを評価するアプローチだ。

たとえば、METRという研究機関は「AIがどのくらいの時間がかかるタスクを自律的にこなせるか」という「時間軸」でAIの進化を測っている。2020年には9秒のタスクしかできなかったAIが、2024年末には40分のタスクをこなせるようになった。約7ヶ月ごとに対応可能な時間が倍増している計算だ。

なぜビジネスパーソンが気にすべきか

AIツールを導入する際、多くの企業がベンチマークのスコアを比較検討材料にしている。だが、その「成績表」自体が信頼できないとしたら、選定基準を見直す必要がある。

大切なのは「テストの点数」ではなく「自社の業務フローに組み込んだとき、何が変わるか」だ。AIの導入判断は、カタログスペックではなく実地検証で行うべきだという、至極当然だが見落とされがちな原則を、この記事は改めて突きつけている。

ソース

MIT Technology Review — AI benchmarks are broken. Here's what we need instead.

SYNCON FREE DIAGNOSIS

あなたの業務に最適なAIツール、
まだ見つかっていませんか？

8つの質問に答えるだけ。約2分で完了。
SYNCON編集部が、あなた専用のAI活用プランをお届けします。

無料AI活用診断を受ける →