TerminalBench 2.0というAIエージェントのベンチマーク競技で、無名のオープンソースコーディングエージェント「Dirac」が65.2%というスコアを記録した。同じモデル(Gemini 3 Flash Preview)を使ったGoogle公式実装(47.6%)はもちろん、有力なクローズドソースエージェント「Junie CLI」(64.3%)をも上回る結果だ。モデルの性能ではなくエージェントの設計が勝敗を左右する——この事実を、改めて数字で突きつけた出来事として注目に値する。
Diracとは何者か
Diracは、コンテキスト長の最適化を核に据えたオープンソースのコーディングエージェントだ。開発者が強調するのは「コンテキストを絞ることで、精度・コスト・速度のすべてが改善する」という設計思想。長大なコンテキストウィンドウに情報を詰め込み続けるアプローチとは真逆の発想から生まれている。
技術的な3つの柱
ハッシュアンカー付き編集(Hash-Anchored Edits) 行番号ではなくハッシュ値でターゲット行を特定することで、コード変更の精度を大幅に向上。「行番号がずれて全く関係ない箇所を書き換えてしまう」という古典的な誤動作を根本から排除している。
AST(抽象構文木)ネイティブ操作 TypeScript、Python、C++などの言語構造をエージェント自身が理解した上で、関数抽出やクラスリファクタリングといった構造的変更を実施する。「テキストの文字列一致」ではなく「コードの意味」で操作するため、複雑なリファクタリングでも高い精度を維持する。
マルチファイル並列処理 複数ファイルへの変更を1回のLLMラウンドトリップで完了させることで、レイテンシとAPIコストを同時に削減。処理の効率化とコスト抑制を両立している。
コスト削減が圧倒的
他の主要エージェントと比較して平均64.8%のコスト削減(約2.8倍の費用対効果)を実現している。タスクあたりの平均コストが$0.18と、競合の$0.38〜$0.73を大きく下回る。同じ精度でより安く——これは企業展開を検討する際に無視できない数字だ。
TerminalBenchの「不正疑惑」という文脈
同ベンチマークでは最近、AGENTS.mdファイルを使ったズル(ベンチ固有情報をエージェントに事前注入する手法)の報告が相次いでいる。Diracのチームはこれを明確に否定しており、「ベンチ固有情報の注入は一切なし」「公開OSSそのままで実行」と説明している。リーダーボードへのPRが8日間放置されているという状況も含め、現在のコミュニティの混乱を示す背景として押さえておきたい。
実務への影響——日本のエンジニアが注目すべき点
Diracが日本の現場に示す示唆は大きく3点だ。
- コスト試算が現実的になる: APIコストが大幅に削減されるため、自社プロジェクトへのAIエージェント導入の費用感が変わる。大規模リファクタリングや定期的なコード品質改善タスクの自動化を検討するなら、まず試算してみる価値がある
- MCPを使わないシンプルな構成: MCPサーバーの設定・管理コストを省けるため、複雑な依存関係を避けたい現場との相性がいい
- OSSゆえに設計が学べる: ハーネス設計の参考として、コードを直接読んで学べる。自社エージェントの設計に転用できる知見が詰まっており、「動かすだけ」でなく「設計思想を盗む」使い方ができる
筆者の見解
「どのモデルを使うか」よりも「どうやってモデルを動かすか」の方が重要——AIエージェントの世界では繰り返し証明されてきた原則だが、Diracの結果は改めてそれを鮮明にした。
Gemini Flash Previewという廉価なモデルを使いながら、モデルプロバイダー自身の公式実装を大幅に上回るスコアを出したという事実の重みは大きい。同じモデル、同じリソース制約の下で、コンテキスト管理・ツールの組み合わせ・処理ループの設計が本当の差別化要因になっている。
ここから学べることは明確だ。最新・最高性能のモデルを追いかけるよりも、手元にあるモデルを最大限に活かすハーネス設計を磨くことに時間を使う方が、実務的なリターンはずっと大きい。「何を使うか」ではなく「どう動かすか」で結果が決まる段階に入っている以上、設計力こそが今問われているスキルだ。
オープンソースコミュニティがこの設計ノウハウを蓄積・共有し始めているいま、日本のエンジニアも「ツールを使う側」から「エージェントを設計する側」へシフトする絶好のタイミングだと感じている。
出典: この記事は Show HN: OSS Agent I built topped the TerminalBench on Gemini-3-flash-preview の内容をもとに、筆者の見解を加えて独自に執筆したものです。