エージェント型AIの「本当の知性」を問う新ベンチマーク

AIの能力評価に新たな指標が加わった。「ARC-AGI-3」は、ターン制の抽象的な対話環境でエージェント型AI(自律的に行動するAIシステム)の汎化能力を評価する新しいベンチマークだ。2026年3月時点で、GPT-4oやClaude 3などの最先端モデルがこのベンチマークで記録したスコアは1%未満という驚くべき結果となっている。

なぜ1%未満なのか

ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)シリーズは、フランソワ・ショレ氏(Google DeepMind)が提唱した「真の知能」を測るベンチマークとして知られる。単純な暗記や統計的パターンマッチングでは解けない、人間には自明な抽象推論タスクで構成されている点が特徴だ。

第3世代となるARC-AGI-3では、インタラクティブ性が加わった。静的な問題を解くだけでなく、AIが環境と対話しながら複数ターンにわたって問題を解決しなければならない。これはまさに現実世界のタスクに近い設定だ。

この結果は、現行の大規模言語モデル(LLM)がいかに「記憶した知識の応用」に依存しているかを浮き彫りにする。未知の構造をゼロから理解して行動する「汎化能力」においては、まだ人間の子供にも遠く及ばないのが現状だ。

2026年のAI研究トレンドと重なる課題

ARC-AGI-3の登場は、AI研究コミュニティが2026年に直面している課題と符合する。AIは2025年に「推論モデルがエージェントになった年」を経て、現在はプロトタイプから本番運用への移行期にある。

OpenAIのo3やAnthropicのClaude 4シリーズは、テスト時計算(test-time compute)を活用した推論能力で数学や論理タスクに飛躍的な進歩をもたらした。Claude Codeのような自律コーディングツールや、Gemini Deep Researchのような情報統合エージェントも実用化されている。

しかし、Gartnerの予測によれば、2027年までに40%以上のエージェントAIプロジェクトがコスト超過や事業価値の不明確さで中止されるという。プロトタイプと製品の間には、技術的な深い溝がある。

AGI到達の議論に新たな視座

ARC-AGI-3は「AGI(汎用人工知能)に到達したかどうか」を判断するひとつの基準として注目されている。現在のAIが苦手とするのは、見たことのない問題構造を、環境とのやり取りを通じて動的に理解する能力だ。

日本でも大規模言語モデルの業務活用が急速に進む中、こうした「汎化能力の限界」を正確に把握することは、AIツール導入の効果測定や失敗リスクの予測において重要な視点となる。

ARC-AGI-3のスコアが劇的に向上する日が来たとき、それは真の意味でAIが「知る」のではなく「考える」存在へと近づいた瞬間となるだろう。


元記事: ARC-AGI-3: New Interactive Benchmark for Agentic AI — Frontier Models Score Below 1%