スタンフォード大学の人間中心AI研究所(Stanford HAI)が2026年版の年次報告書「Artificial Intelligence Index Report 2026」を公開した。AI論文の爆発的増加という明るいニュースと同時に、AIエージェントの現在地についての冷静な評価が注目を集めている。

論文数は30倍——でも「使えている」かは別の話

2010年から2025年にかけて、自然科学分野でAIに言及した論文・プレプリントなどの発表数は約30倍に膨れ上がり、2025年だけで8万本以上に達した。生命科学・物理科学・地球科学のいずれの分野でも、全論文の6〜9%がAIに言及しているという。

この数字だけ見ると「AIが科学を変えた」という印象を受けるが、Princeton大学のArvind Narayanan教授はそこに警鐘を鳴らす。「この急増が実際に意味のある成果につながっているかどうかは激しく議論されている。私は、科学規範が適応する時間を与えないまま急速に進みすぎており、研究の質が低下していると見ている」。

AIエージェントの実力——博士号持ち人間の半分以下

報告書の中でとりわけ重要なのが、AIエージェントと人間専門家の比較だ。最先端のAIエージェントでも、複数ステップにわたる科学的ワークフローをこなす能力は、博士号を持つ人間専門家の約半分程度にとどまるというのが現時点の評価だ。

報告書を率いたYolanda Gil氏(南カリフォルニア大学)は「エージェントは素晴らしい。しかし、どう活用すれば本当に効果的なのかはまだ理解できていない」と述べている。現状のAIエージェントは、単純なタスクの連鎖ならこなせるが、仮説生成・実験設計・結果解釈といった高度な認知負荷を要する複合タスクになると途端に精度が落ちる。

SWE-benchなどのベンチマークが「過大評価」を生んでいた可能性

ここで浮上するのが「ベンチマークの罠」だ。SWE-benchをはじめとする標準的なAI評価指標は、定型的なタスクへの対応能力を測るのには適しているが、実際の研究現場で必要とされる非定型・創造的な能力は捉えられていない可能性がある。

数値が高いモデルが「研究を支援できる」と早計に判断されてきた背景には、ベンチマーク設計の限界がある。今回の報告書はその認識を公式に強化したという意味でも重要だ。

実務への影響——日本のエンジニアが今すぐ意識すべきこと

  1. AIエージェントは「戦力外」ではなく「使い方が未成熟」

「AIに任せたが使えなかった」という経験が積み重なると、「AIは使えない」という誤った結論に至りやすい。今回の報告書が示すのはAIの限界ではなく、現時点での限界と適切な使い分けの必要性だ。単純なデータ処理・文献整理・要約生成といった用途では十分に機能する。

2. マルチステップタスクの設計は人間が担う

複数ステップにわたるワークフローの「設計」自体はまだ人間の仕事だ。AIエージェントに「研究してください」と丸投げするのではなく、ステップを分解して各段階で適切なタスクを割り振る設計力が、今後のエンジニアに求められる核心スキルになる。

3. ベンチマークスコアは参考程度に

モデル選定の際にベンチマークを参考にすることは当然だが、それが自社の実務タスクとどれだけ相関するかは別途検証が必要だ。「ベンチで1位だから採用」という意思決定は危険で、自社のユースケースで実際に試すプロセスが不可欠だ。

筆者の見解

この報告書を読んで最初に思ったのは「やっぱりそうか」という感想だ。AIエージェントが複雑なマルチステップタスクで人間に及ばないというのは、日々使っていれば肌感覚としてわかること。むしろ、それを定量的に示したことの価値が大きい。

一方で見落としてはいけないのは、「人間の半分の性能」を正確に評価するにはループ設計の質が決定的に重要という点だ。エージェントが単発指示に応答するだけの使い方をしていれば、その評価は必然的に低くなる。エージェントが自律的に判断・実行・検証を繰り返すループ設計が実現できれば、今回の評価結果は大きく変わる可能性がある。

今必要なのは「AIエージェントは使えない」と結論づけることでも、「もうすぐ人間を超える」と過信することでもない。現在の限界を正確に把握した上で、その限界の外側を広げる設計を継続すること——それが実務者としての正しい姿勢だと思っている。科学研究という極めて難度の高い領域でこの数字が出ているということは、逆に言えば、適切に設計されたエージェントが活躍できる余地はまだ膨大に残されているということでもある。


出典: この記事は Human scientists trounce the best AI agents on complex tasks の内容をもとに、筆者の見解を加えて独自に執筆したものです。