3社の最新AIが28日で出揃った——「最強モデル」の概念が崩壊

2026年2月〜3月の28日間で、Anthropic・Google・OpenAIの3社がそれぞれのフラッグシップモデルを相次いでリリースした。Claude Opus 4.6(2月5日)、Gemini 3.1 Pro(2月19日)、GPT-5.4(3月5日)——いずれも100万トークンのコンテキストウィンドウを備え、しかし三者三様の「賭け」に出ている。

1年前であれば「総合最強」を名乗れるモデルが存在した。その時代は終わった。各モデルが異なるベンチマークで首位に立ち、ユーザーは「ブランド」ではなく「タスク」でモデルを選ぶ時代になっている。

コーディング領域:AnthropicのClaude Opus 4.6が制す

ソフトウェアエンジニアリングの実力を測る SWE-Bench Verified では、Claude Opus 4.6が**81.4%**を記録し、Gemini 3.1 Proの80.6%をわずかに上回った。GPT-5.4はより難易度の高い「SWE-bench Pro」での比較を選択しており、直接比較では明らかにClaudeがリードしている。

さらに注目すべきは、Anthropicが公表した METR Time Horizon(自律的なエージェントタスクをどれだけ継続できるか)の数値だ。Claude Opus 4.6は14.5時間のタスクホライズンを達成。これは長時間の自律コーディングエージェントとして実用に耐えることを意味し、GitHub Copilotなどのコーディング支援ツールと競合するAIエージェント製品の選定基準として注目される。

推論・科学系:Gemini 3.1 Proが圧倒的

抽象的推論を測る ARC-AGI-2 でGemini 3.1 Proは**77.1%を記録した。前世代から31.1%ポイントという驚異的な向上幅だ。博士レベルの科学知識を問う GPQA Diamond では94.3%**と、現在公開されているスコアの中で最高値を叩き出している。

Googleが推論に注力した背景には、OpenAIとAnthropicがともに入力100万トークンあたり$5〜$15を課金するなか、Gemini 3.1 Proを**$2/M**という破格の価格設定で投入したという戦略がある。高性能かつ低コストという訴求で、大量処理を必要とするエンタープライズ用途を取り込む狙いが透けて見える。

PC操作・知識作業:GPT-5.4が人間を超えた

OpenAIの最大の賭けは「コンピュータ操作(Computer Use)」のネイティブ対応だ。デスクトップ操作能力を評価する OSWorld-Verified でGPT-5.4は**75.0%**を記録。人間の専門家ベースライン72.4%を超えた——汎用AIが初めてPC操作で人間を上回った瞬間だ。Claude Opus 4.6も72.7%と肉薄しているが、ファーストムーバーの優位はOpenAIにある。

知識作業の生産性評価 GDPval でもGPT-5.4は**83.0%**とリードしており、弁護士・コンサルタント・アナリストなどホワイトカラー業務の自動化においてOpenAIが強みを持つ。

日本の開発者・企業への示唆

三モデルの比較から読み取れる実用的な選択指針をまとめると以下のとおりだ。

用途 推奨モデル

コーディング・エージェント開発 Claude Opus 4.6

科学・学術・複雑な推論タスク Gemini 3.1 Pro

PC操作自動化・業務プロセス自動化 GPT-5.4

コスト最優先の大量処理 Gemini 3.1 Pro

日本市場でも、GitHub CopilotやClaude Codeなどのコーディング支援ツールを評価・導入する企業が増えている。今回のベンチマーク結果は、特にソフトウェア開発チームの採用判断に直接影響を与えるだろう。

「どのモデルが最強か」という問いに対する答えは、2026年現在「それはどのタスクか次第」に変わった。競争の激化はユーザーにとって明確なメリットをもたらしており、各社の次世代モデルへの期待がさらに高まっている。


元記事: Claude Opus 4.6 Tops SWE-Bench Verified at 80.8%, Outpacing GPT-5.4’s 77.2%