Anthropicが長時間実行エージェントの設計パターンを公開——Claude Codeのセッション時間が45分超に倍増した背景と「ハーネスループ」の実践設計

Anthropicのエンジニアリングブログが、AIエージェントを長時間・複数コンテキストにまたがって継続稼働させるための設計パターンを詳細に公開した。Claude Agent SDKを使った「初期化エージェント（Initializer Agent）」と「コーディングエージェント（Coding Agent）」を分離する2段構成アーキテクチャが中心で、Claude Codeの平均セッション時間が2026年初頭にかけて25分から45分超へ倍増したという実測データも示されている。

なぜ「長時間実行」が難しいのか

AIエージェントが直面する本質的な制約は、コンテキストウィンドウの有限性にある。どれほど優秀なモデルでも、1セッションで処理できる情報量には上限がある。現在のエージェントは「シフト交代で働くエンジニアチーム」に例えられるが、問題は各シフトの担当者が前のシフトの記憶をまったく持たずに引き継ぐ点だ。

Claude Agent SDKには「コンパクション（Compaction）」と呼ばれるコンテキスト管理機能がある。これはウィンドウが枯渇する前に内容を圧縮して継続稼働を可能にするが、Anthropicの検証によれば、コンパクション単体では十分でないことが判明した。

エージェントが陥る2つの失敗パターン

Anthropicは内部実験で2つの典型的な失敗を観察した。

失敗①：一括実装の誘惑 エージェントが最初から全機能を実装しようとし、コンテキスト中盤で力尽きる。次のセッションが引き継ぐと、機能が半完成のまま放置され、ドキュメントもなく、どこまで進んだか推測に頼らざるを得ない。

失敗②：途中完了宣言 ある程度の機能が実装された後半のセッションで、エージェントが「進捗がある＝完了した」と誤判断し、作業を止めてしまう。

どちらも「自律的に動作しているように見えて、実は断続的に詰まっている」状態であり、真の長時間自律実行とは程遠い。

解決策：2段構成のハーネスアーキテクチャ

Anthropicが導入した設計は、役割を明確に分けることでこれらを解消する。

初期化エージェント（Initializer Agent）

最初のセッションだけが担う役割。次のことを行う：

init.sh（環境セットアップスクリプト）の作成
claude-progress.txt（進捗ログファイル）の作成
初期Gitコミット（追加されたファイルを明確にする）

これにより「白紙から始まる」状況を排除し、後続エージェントが必ず足がかりを持った状態で起動できる。

コーディングエージェント（Coding Agent）

2回目以降のすべてのセッションで稼働する。各セッションの終わりに：

実装済み機能と未実装機能をclaude-progress.txtに構造化して記録
「mainブランチにマージできるクリーンな状態」でコードを置く
主要なバグゼロ、コード整理済み、次の担当者がすぐ新機能着手できる状態を保証

「クリーンな引き継ぎ状態」を必達条件として組み込むことが、長時間継続稼働の鍵だ。

実務への影響——日本のエンジニア・IT管理者への示唆

ハーネス設計はAIプロダクト開発の必須スキルになる

現在、多くの開発者はClaude Codeや各種AIエージェントを「1回の会話で完結するタスク」にしか使えていない。しかしAnthropicが示したアーキテクチャは、複数日にわたる本番品質の開発をAIに委任できる水準を目指したものだ。企業がAIエージェントを業務プロセスに組み込もうとするなら、このようなハーネス設計の知識が不可欠になる。

「進捗ログをエージェントに書かせる」設計思想の応用

claude-progress.txtという人間にも機械にも読めるログを中心に据える設計は、汎用的に応用できる。コーディング以外でも、データ処理パイプラインやレポート生成タスクなどで「次のセッションが安全に再開できる状態を明示する」仕組みとして流用できる。

セッション管理コマンドの意味が変わる

Claude Codeの/compact、/resume、/clearといったコマンドは、このコンテキスト管理の文脈で理解すると使い方が根本的に変わる。コンテキストの流れを意識した運用が、エージェントのパフォーマンスを大きく左右する。

筆者の見解

今回のAnthropicの発表は、ハーネスループの設計が2026年の開発者にとっていかに重要なテーマかを改めて浮き彫りにした。「エージェントに指示を出して待つ」のではなく、「エージェントが自律的に判断・実行・引き継ぎを繰り返すループをどう設計するか」——この問いへの答えが、AIを本当の意味で業務に組み込めるかどうかの分水嶺になる。

平均セッション時間が45分超に伸びたという数字は、単なる技術的改善を超えた意味を持つ。これは「人間が監視しなくても、エージェントが数十分単位で自律稼働できるようになった」という質的な変化の証左だ。

初期化エージェントとコーディングエージェントを分ける設計思想は、一見シンプルに見えるが、実際に実装してみると「引き継ぎ情報の粒度」や「クリーン状態の定義」に難しさがある。Anthropicがコード例付きのクイックスタートを公開していることは、開発者が自分のユースケースに応用するための良い出発点になる。

AIエージェントをプロジェクトに投入しようとしている開発者・開発チームにとって、このアーキテクチャパターンは今すぐ参照する価値がある。理想論ではなく、Anthropic自身が実際の失敗から学んで設計した実践的な解だからだ。

出典: この記事は Effective harnesses for long-running agents \ Anthropic の内容をもとに、筆者の見解を加えて独自に執筆したものです。

なぜ「長時間実行」が難しいのか#

エージェントが陥る2つの失敗パターン#

解決策：2段構成のハーネスアーキテクチャ#

初期化エージェント（Initializer Agent）#

コーディングエージェント（Coding Agent）#

実務への影響——日本のエンジニア・IT管理者への示唆#

ハーネス設計はAIプロダクト開発の必須スキルになる#

「進捗ログをエージェントに書かせる」設計思想の応用#

セッション管理コマンドの意味が変わる#

筆者の見解#