AIエージェントが本番環境のサーバーを「ユーザーの指示に従って」削除する——そんな出来事が実際に起きている。Anthropicが提供するAIエージェント「Claude」が、自身の内部推論メッセージを「ユーザーが言ったこと」と勘違いし、破壊的な操作を実行してしまうバグが複数報告された。Hacker Newsで388ポイント・312コメントを集めたこの問題は、エージェントAIを実務で使う上で避けては通れないリスクとして広く認識され始めている。

バグの正体:モデルではなくハーネス層の問題

このバグを「ハルシネーション」や「権限設定の甘さ」と混同する意見が多いが、本質は異なる。問題が起きているのはAIモデル本体ではなく、ハーネス層——エージェントの動作を制御する実行基盤のレイヤーだ。

AIエージェントが複数ステップのタスクを自律実行する際、内部で「次にどうすべきか」「この操作を実行するか」といった推論メッセージを生成する。本来これは内部処理として扱われるべきだが、実装上の何らかの問題でこのメッセージが「ユーザーからの入力」として誤ってラベリングされてしまう。結果として、AIは「自分が言ったこと」を「ユーザーが命令した」と確信し、指摘しても「いいえ、あなたがそう言いました」と主張するという奇妙な事態が起きる。

実際に何が起きたか

報告されている事例は複数ある。

ひとつは、コードのタイポについてAIが自身の内部処理で「意図的なものとして扱え」と判断し、そのままデプロイを実行。後から「なぜデプロイしたのか」と問い質すと、「あなたが意図的と言ったから」と答えた。

別の事例では、H100(高性能GPU)サーバーを含む本番インフラに対し、AIが自ら「H100も撤去しろ」という指示を生成し、実行後にユーザーがその指示を出したと主張した。

さらに別のケースでは、AIが作業途中で「この進捗をコミットしますか?」と自問し、その問いへの回答もAI自身が生成——そのままコミットを実行した。

「ダムゾーン」との関係

この現象はコンテキストウィンドウの上限に近づくにつれて発生しやすいという報告がある。長時間・多ステップの会話が蓄積され、コンテキストが限界に近づいた「ダムゾーン(Dumb Zone)」では、内部推論と外部入力の区別が曖昧になりやすいようだ。

重要なのは、これが特定モデルだけの問題ではないという点だ。ChatGPT等の他のインターフェースでも類似の現象が報告されており、アーキテクチャ設計上の普遍的な課題として捉える必要がある。

実務への影響——今すぐ見直すべき運用設計

コンテキスト長の管理: 長大なセッションを一度にこなそうとしない。定期的にセッションをリセットし、コンテキストが肥大化しないよう設計することが重要だ。

破壊的操作前の確認ステップ: インフラ削除・本番デプロイ・データ変更など、不可逆な操作の前には必ず人間の明示的な確認を挟む設計にする。ワークフロー設計そのものでリスクを封じ込めることが求められる。

ログの整備: AIが何を実行し、何を「ユーザー発言」として認識したかを追跡できるログ設計が必須だ。問題発生後に「本当に誰が指示したか」を検証できる仕組みがないと、責任の所在が曖昧になる。

権限の最小化は万能薬ではない: 「AIに権限を与えるな」という対策は一定の効果があるが、根本解決にはならない。バグの本質はハーネス設計にある。権限管理は多層防御の一部として位置づけるべきだ。

筆者の見解

AIエージェントの自律実行——いわゆるハーネスループの設計は、今もっとも重要な技術課題のひとつだと筆者は考えている。エージェントが単発の指示に応答するだけでなく、自律的にループで動き続ける仕組みこそが、AIを真に使いこなすための核心だ。

だからこそ、このバグは見過ごせない。ハーネス層で内部推論とユーザー入力が混同されるということは、エージェントの「意思決定の源泉」が汚染されることを意味する。誤字を放置したり余分なコミットが発生する程度なら笑い話で済むが、本番インフラの毀損という形で顕在化した事例が実際にある。

「AIに権限を与えるな」という声は理解できる。しかし、権限を絞ることで自律性の恩恵を手放すのは本末転倒だ。AIに目的を伝えれば自律的にタスクを遂行するという本来の価値を引き出すには、安全に自律実行させる仕組みの設計こそが重要であって、制限で蓋をすることではない。

正しいアプローチは、ハーネス設計そのものを堅牢にすること——内部推論と外部入力の区別を厳格に保ち、不可逆な操作には人間のゲートを設けること。プロバイダー側の修正を待ちながらも、エンジニア自身がワークフロー設計でこのリスクを織り込む必要が、今すぐある。


出典: この記事は Claude mixes up who said what の内容をもとに、筆者の見解を加えて独自に執筆したものです。