AIコーディングは「会話」から「自律ループ」へと確実にシフトしつつある。Anthropicが発表した3エージェントハーネス設計は、その転換点を象徴する取り組みだ。計画・生成・評価を独立したエージェントに分担させることで、数時間にわたる自律的な開発セッションを高品質に維持する仕組みを実現した。単なるコード補完の延長ではなく、エンジニアが「何を作るか」を渡せば、あとはループが回り続けるアーキテクチャの登場である。
3エージェント分業という設計思想
このハーネスの核心は、役割の厳格な分離にある。
Plannerエージェントは仕様を構造化されたアーティファクト(JSONなど)として定義し、後続エージェントへの引き継ぎを担う。Generatorエージェントは計画を受け取り、コードやUIデザインを生成する。そしてEvaluatorエージェントが生成物を評価し、フィードバックをGeneratorに返す。このループが1セッションにつき5〜15回繰り返され、場合によっては4時間以上動き続ける。
エンジニアが介在するのは「評価基準の初期設定」と「品質の最終確認」の2点だけだ。ループそのものは完全に自律で回る。
コンテキスト管理の革新——「コンパクション」ではなく「リセット+引き継ぎ」
長時間の自律セッションで必ず問題になるのがコンテキスト枯渇だ。従来の「コンパクション(圧縮継続)」では、モデルがコンテキスト上限に近づくと過度に慎重になり、品質が落ちるという問題があった。
Anthropicが採用したのは別のアプローチだ。コンテキストを意図的にリセットし、代わりに構造化された「引き継ぎアーティファクト」を次のエージェントに渡す。前のコンテキストを引きずらずに定義済みの状態から再開できるため、長時間ループでも一貫した品質が保たれる。
この発想は、人間チームが仕様書・テスト・コミット履歴で引き継ぎを行うのと本質的に同じだ。「記憶の継続」ではなく「構造的な引き継ぎ」が信頼性を生む。
自己評価バイアスへの対策
AIエージェントが自分の出力を過大評価するという問題も見逃せない。特に「デザインの良し悪し」のような主観的タスクでは顕著だ。
Evaluatorエージェントはこの問題に特化して設計されており、フューショット例と採点基準でキャリブレーションされている。フロントエンドデザインでは「デザイン品質・独自性・クラフト・機能性」の4基準で評価し、Playwright MCPを使ってライブページを実際に操作しながらフィードバックを生成する。生成物を作ったエージェントとは別のエージェントが評価する——この分離が品質ボトルネックを解消する最大のレバーだとAnthropicのエンジニアリングリードは述べている。
実務への影響
日本のエンジニア・IT管理者へのヒント
1. 「エージェントに仕事をさせる」から「ループを設計する」発想へ
単発の指示→応答モデルからの脱却を意識し始めるべき時だ。エージェントが自律的に計画・実行・評価を繰り返すループをどう設計するかが、次の時代のエンジニアリングの中心課題になる。
2. 評価基準の言語化を先行させる
このハーネスが機能するのは「何をもって良い成果とするか」が明確なときだ。採点項目・重み・例示を事前に言語化する習慣は、AIを使う・使わないに関わらず開発全体の品質向上に直結する。
3. 構造化引き継ぎアーティファクトを標準化する
JSON仕様・テスト定義・コミット単位の進捗記録を「引き継ぎパッケージ」として整備しておけば、AIとのセッションが途切れても継続性が保たれる。チーム間の人的引き継ぎにも同じ考え方が応用できる。
4. フロントエンド開発への即効性
デザインの反復改善はこのハーネスが最も効果を発揮するユースケースだ。現在「何度もやり直しが発生している」UIデザインのフローを持つチームは、計画→生成→評価の自動ループ導入を具体的に検討する価値がある。
筆者の見解
AIエージェントの次のフロンティアとして最も注目しているのが、まさにこのハーネスループの設計だ。「AIに何をやらせるか」を一つひとつ指示していた時代は終わりに近づいている。これからは「目的だけを渡して、あとはループに任せる」設計思想が問われる。
今回のアーキテクチャが特に示唆に富むのは、自律エージェントが長時間動き続けるための「信頼性の設計」を正面から扱っている点だ。コンテキスト管理・自己評価バイアスの排除・構造化引き継ぎ——この三要素を組み合わせることで、単発のコード補完とは質的に異なる成果が生まれる。
エンジニアに求められる役割も変わってくる。細かいコードを書く技術より、「何を評価基準とするか」「どこでループを切るか」「どの粒度で人間の意志を介在させるか」を設計する能力が中心になっていく。仕組みを設計できる少数のエンジニアが枠組みを作り、その枠組みをエージェントが自律的に回す——そんな世界が、もうすぐそこまで来ている。
日本のIT現場でも、こうした自律ループ型の開発スタイルへの移行を真剣に検討し始めるべき段階だ。「まだ早い」という感覚は理解できるが、世界の先端はもうこの次の議論をしている。気づいた頃には乗り遅れたコストが想像以上に大きくなっていた、という事態は避けたい。
出典: この記事は Anthropic Designs Three-Agent Harness Supports Long-Running Full-Stack AI Development の内容をもとに、筆者の見解を加えて独自に執筆したものです。