AnthropicのClaude Fable 5が自社計測で80.3%を記録したSWE-bench Proだが、Scale AIの標準化ベンチマークではGPT-5.4が59.1%でトップ、さらに非公開コードだけを使う商用セットではClaude Opus 4.6が47.1%で首位に返り咲くという「三つの正解」が並立している。この数字の散らばりを正しく読まなければ、AIコーディングエージェントの選定を誤る。

SWE-bench Proとは何か

SWE-bench Proはソフトウェアエンジニアリングの実務タスクでAIモデルを評価するベンチマークだ。GitHubのIssueとコードレポジトリを与え、「このバグを修正せよ」「この機能を追加せよ」という課題をモデルが自律的にこなせるかをPython・Go・TypeScript・JavaScriptの4言語・41リポジトリ・計1,865タスクで測定する。1タスクあたり平均107行を変更する規模感で、単純なコード補完ではなく「自律的な問題解決能力」が問われる。

三つのスコアはなぜ違うのか

数字の「散らばり」の原因は主に二つ——スキャフォールド(エージェント足場)の違いデータセットの違いだ。

① Scale SEAL標準化公開セット(最も比較に使える数字)

Scale AIがすべてのモデルを同一の足場で動かした結果で、731タスクを使う。どのモデルも同じ評価条件に揃えているため、モデル純粋能力の比較として現状最も信頼できる数字だ。

順位 モデル スコア

1 GPT-5.4(xHigh) 59.1%

2 Muse Spark 55.0%

3 Claude Opus 4.6(thinking) 51.9%

4 Gemini 3.1 Pro(thinking) 46.1%

5 Claude Opus 4.5 45.9%

6 Claude Sonnet 4.5 43.6%

信頼区間は各モデルおよそ±3.5ポイントあるため、隣接するランクの差は統計的に誤差範囲に収まる場合もある点に注意したい。

② 非公開コード専用の商用セット(実務に最も近い数字)

276タスクすべてがネット上に存在しない企業の内部コードを使う。学習データへの混入(コンタミネーション)を排除できるため、「自社の業務コードで使ったらどうなるか」に最も近い評価だ。

順位 モデル 商用スコア 公開スコア 差

1 Claude Opus 4.6(thinking) 47.1% 51.9% −4.8

2 Muse Spark 44.7% 55.0% −10.3

3 GPT-5.4(xHigh) 43.4% 59.1% −15.7

4 Gemini 3.1 Pro 32.2% 46.1% −13.9

7 Claude Opus 4.5 23.4% 45.9% −22.5

順位が大幅に入れ替わる点が重要だ。公開セットで首位だったGPT-5.4が3位に転落し、Claude Opus 4.5は22.5ポイントという最大の落下幅を記録。対してClaude Opus 4.6は4.8ポイントの低下にとどまり、非公開コードでの安定性が際立っている。

③ ベンダー自己申告スコア(参考値として扱う)

各社が独自のエージェント足場で計測・公表した数値がこれにあたる。Claude Fable 5の80.3%はこのカテゴリだ。自社に有利な設定で計測できるため、他社スコアとの直接比較はできない。なおClaude Fable 5は2026年6月9日にGA(一般提供)を開始したばかりでScale SEALへのエントリーはまだなく、標準化条件下でのスコアは今後を待つ必要がある。

実務への影響——自社コードへの導入をどう判断するか

自社の内部コードや業務システム向けにAIコーディングエージェントを選定するとき、公開ベンチマークのスコアだけを判断材料にするのは危険だ。商用セットの結果が示す通り、非公開コードを使うと順位が大きく変動する。実務での選定時には以下の観点を持つことを勧める。

どのデータセットのスコアか確認する 「公開セット」「商用セット」「自己申告」の三種を必ず区別する。特に外部に公開していない内部コードへの適用を検討しているなら、商用セットの数値を優先的に参照すべきだ。

信頼区間を読む習慣をつける 公開セットで±3.5ポイント、商用セットで±6ポイント前後の信頼区間がある。僅差のランク差は統計的に有意でない場合もある。

可能ならPoC段階で自社コードを使った評価を行う ベンチマークはあくまで一般的な傾向を示すもの。自社のコードスタイル・言語・ドメインの固有性によってモデルの向き不向きは変わる。小規模なPoC評価が最終判断の根拠として最も有効だ。

筆者の見解

このリーダーボードを読む上で最も重要なのは「どの数字が最高か」を探すことではなく、「なぜ数字が変わるのかを理解した上で使う」ことだと思う。

80.3%と59.1%が同時に「正しい」というのは一見矛盾に見えて、実態はベンチマーク設計の話に過ぎない。そして商用セットで順位が大きく変動するという事実は、AIコーディングエージェントが「見たことのあるコードを解く能力」と「見たことのないコードを解く能力」で大きく差がつくことを示している。自社システムへの導入で問われるのは後者だ。

筆者が実務として気になるのは、スコアの数値競争よりもエラーを受け取って修正を繰り返すハーネスループの質の方だ。Pass@1(一発解決率)より、エラーフィードバックを受けて自律的に修正を繰り返せるサイクルの安定性の方が、実際の開発現場での生産性に直結する。その観点では、まだどのモデルも評価の入口に立ったばかりと言っていい。

60%近いスコアが当たり前になりつつある今、AIコーディングエージェントは「使うかどうか」の話ではなく「どの場面でどのモデルをどう使い分けるか」を決める段階に入った。この変化に気づいていない組織は、1〜2年以内に大きな競争劣位に陥る可能性が高いとみている。


出典: この記事は SWE-bench Pro Leaderboard (2026): Every Model Score, Claude Fable 5 Leads at 80.3% の内容をもとに、筆者の見解を加えて独自に執筆したものです。