100体超のAIエージェントが自分自身をテストする——自己改善ループの実装例が示す次の地平

AIが自分自身をテストする——SFのような話が、実際のプロダクト開発の現場に入り込み始めている。AIスタートアップのImbueが公開したケーススタディは、エージェントオーケストレーションツール「mngr」を使って100体以上のエージェントを並列実行し、mngr自体のデモスクリプトをテストするという、再帰的な自己改善ループの実装例だ。「エージェントをどう動かすか」という議論が活発になる中、具体的なアーキテクチャと知見を惜しみなく公開したこの事例は、今後の設計思想に大きな示唆を与えてくれる。

システム全体像：4ステップの自律ループ

Imbueのアプローチはシンプルな4ステップで構成されている。

チュートリアルスクリプト（tutorial.sh）の作成：コマンド群をブロック単位で記述
pytestへの変換：各ブロックから複数のテスト関数を生成（1:N対応）
エージェントの並列起動：各テスト関数に対してエージェントを1体割り当て、実行・デバッグ・修正を自律的に実施
成果の統合：全エージェントの実行結果をまとめて反映

注目すべきは「1:N対応」の設計思想だ。チュートリアルのコマンドブロック1つから、正常系・異常系を含む複数のテストケースを生成する。環境やコマンドのわずかな違いで異なる挙動になりうる場合は、それぞれ独立したテストケースとして記述する徹底ぶりだ。

また、テスト関数が「どのチュートリアルブロックに対応しているか」をコード内で宣言させ、スクリプトで整合性を検証する仕組みも設けている。エージェントに「誠実な出力」を促す仕掛けとして興味深い。

「失敗」が設計改善のシグナルになる逆転の発想

このシステムで得られた副産物が、非常に示唆深い。エージェントがチュートリアル例をうまく生成できない場合、それ自体がインターフェース設計の問題を示すフィードバックになるという発見だ。

「エージェントが例を作れない = 人間にとっても使いにくい」通常のCI/CDではテスト失敗は「バグ」を意味する。しかしこのシステムでは「エージェントが理解できない = 設計が複雑すぎる」という設計品質の指標にもなっている。AIエージェントをユーザーの模擬として機能させるという、新しいUXリサーチの形とも言える。

テストの3フェーズに存在する固有の難しさ

エンドツーエンドテストの構造——Arrange（準備）・Act（実行）・Assert（検証）——それぞれに固有の緊張関係があることも正直に認めている。

Arrange：実世界に近いシナリオにしたいが、テストの独立性も保ちたい
Act：チュートリアルと同じコマンドを使いたいが、テスト適用のために変形が必要になる
Assert：効果を正確に検証したいが、ファイル内容を厳密すぎると脆いテストになる

これはAIエージェントに限らず、人間がエンドツーエンドテストを書く際にも直面する普遍的な問題だ。エージェントが最初のステップで不完全なテストしか書けなくても問題ない——重要なのは次のステップで改善されること、つまりループが機能することだ、という設計姿勢が一貫している。

テスト基盤はPythonのsubprocessモジュールを核とした薄いユーティリティ層で構成されており、複雑なフレームワークへの依存を避けているのも特徴的だ。

実務への影響——日本のエンジニアが明日から活かせること

まずは「テスト記述の一部をエージェントに任せる」から始める

100体のエージェントを即座に並列実行する必要はない。人間が書いたチュートリアルやドキュメントを入力として与え、エージェントにテストケースのドラフトを生成させるところから始めてみることだ。完璧でなくていい——不完全な出力こそが設計見直しのヒントになる。

「悪い出力は失敗ではなくフィードバック」という視点転換

AIに作業を任せてうまくいかない場合、「AIが使えない」で終わらせるのはもったいない。「なぜうまくいかなかったか」を分析すると、人間にとっても不明確だった仕様や設計の問題が浮き彫りになることがある。これは特にドキュメント整備が後手に回りがちな日本の現場で有効な逆転の視点だ。

エージェントのスケールアウトを前提とした設計を意識する

並列実行を前提とすると、べき等性・状態管理・成果の統合方法を自然と考えることになる。これは従来のクラウドネイティブ設計の知見が直接活きる領域だ。既存のインフラ知識が無駄にならない。

筆者の見解

このケーススタディが示しているのは、「AIに仕事を頼む」という段階から「AIが自律的にループで動き続ける仕組みを設計する」という段階へのシフトだ。

多くの組織では、AIをまだ「質問に答えてくれるアシスタント」として活用している段階だと思う。しかし本当に生産性の限界を突破するには、エージェントが自分で判断・実行・検証を繰り返すループを設計できるかどうかが鍵になる。

Imbueの事例で特に印象的だったのは、「システムが自分自身をテストする」という再帰的な構造だ。テストを書くために人間が逐一介在しない。エージェントが書いたテストをエージェントが実行し、失敗から得たシグナルをシステム設計にフィードバックする。これは単なる効率化ではなく、開発プロセスそのものの再設計だ。

100体超の並列実行はすぐに真似できるものではないかもしれない。しかし「ループで動き続けるエージェントをどう設計するか」という問いは、今すぐ考え始めるべきテーマだと感じている。次の1〜2年で、この設計思想を持つ組織とそうでない組織の間に、埋めがたい差が生まれると思う。ツールの使い方より、ループをどう設計するかに知恵を使おう。

出典: この記事は A case study in testing with 100+ Claude agents in parallel の内容をもとに、筆者の見解を加えて独自に執筆したものです。

システム全体像：4ステップの自律ループ#

「失敗」が設計改善のシグナルになる逆転の発想#

テストの3フェーズに存在する固有の難しさ#

実務への影響——日本のエンジニアが明日から活かせること#

筆者の見解#

システム全体像：4ステップの自律ループ

「失敗」が設計改善のシグナルになる逆転の発想

テストの3フェーズに存在する固有の難しさ

実務への影響——日本のエンジニアが明日から活かせること

筆者の見解