AIエージェントに「考える時間」を与えないとどうなるか——2026年2月以降にAnthropicのClaude Codeで起きた品質劣化問題が、この問いに対してデータで答えを示している。GitHubには6,852セッション・17,871の思考ブロック・234,760回のツール呼び出しを解析した詳細なバグレポートが提出され、世界中のエンジニアから800以上の支持票を集めた。これは単なる「使いにくくなった」という感覚的な報告ではない。AIエージェントの内部動作と品質の関係を、実運用ログから定量的に検証した貴重な事例だ。

何が起きたのか——思考トークン削減の段階的ロールアウト

2026年2月12日に適用されたアップデート(redact-thinking-2026-02-12)を境に、Claude Codeは内部の「思考ブロック(thinking block)」をユーザーから隠す仕様に変更された。問題はそれだけではなかった。ログ解析によると、思考の深さ(推定文字数)はレポート対象期間のベースライン(約2,200文字)から、2月末には約720文字(-67%)、3月以降は約560文字(-75%)まで激減していた

注目すべきは、この劣化が「可視性の喪失」より先に始まっていた点だ。思考ブロックの表示が消える前から、すでにモデルの内部推論は大幅に短縮されていた。ユーザーが「何かおかしい」と感じ始めた3月8日は、ちょうど思考ブロックの50%以上が隠蔽状態となった日と一致する。ロールアウトは1.5%→25%→58%→100%という段階的な形で行われており、品質劣化の時期とも見事に符合している。

「調査優先」から「編集優先」への行動変容

この解析が最も示唆に富む点は、思考深度の低下がツール呼び出しパターンの質的変化として現れたことだ。

思考が十分に行われていた時期のClaude Codeは「調査優先(research-first)」で動く。コードを読み、関連ファイルを確認し、既存の規約や構造を把握してから変更を行う。ところが思考が制限されると「編集優先(edit-first)」に転落する——コンテキストを十分に把握しないままファイルを書き換え始めるのだ。

ユーザーが報告した症状がまさにこれだ。「指示を無視する」「最もシンプルな(しかし間違った)修正を主張する」「指示と逆のことをする」「完了したと言い張る」。これらはすべて、十分な推論なしに「答え」を急いだ行動の典型だ。

なぜこれが重要か——「拡張思考」は贅沢品ではなく構造要件

日本のITエンジニアにとって、この問題が示す本質は非常に重要だ。

拡張思考(Extended Thinking)は、複雑なエンジニアリング作業においてオプションではなく構造的必須要件だ。 単純な一問一答には不要かもしれない。しかし、複数ファイルにまたがるリファクタリング、長期にわたるセッションでの文脈維持、既存規約への準拠が求められる実業務では、「十分に考える時間」がなければモデルはまともに機能しない。

これはAIエージェント全般に通じる設計原則でもある。エージェントが自律的に高品質な成果を出すためには、十分な推論ステップが確保されなければならない。ループで動き続ける自律エージェントが本来の価値を発揮するには、各ステップでの「深い判断」が不可欠なのだ。

実務への影響——日本のエンジニア・IT管理者にとっての意味

AIコーディングアシスタントを導入済み・検討中の組織へ

まず認識すべきは、「AIが使えない」と感じる場面の多くが、モデルそのものの限界ではなくサービス側の設計変更に起因する可能性があるということだ。特に複雑なタスクで突然品質が落ちた場合、バージョンや設定の変更履歴を確認する価値がある。

実務的なヒントを3点挙げる:

  • 複雑タスクほど「System Prompt」で思考を促す設計を:「段階的に考えてから実装せよ」「まずファイル構成を把握せよ」のような明示的な指示で、モデルの調査フェーズを強制する
  • 長期セッションの品質劣化に気づく仕組みを作る:数十ターンに及ぶセッションでは、途中でモデルが文脈を失っていないか定期確認するフローを組み込む
  • 「編集優先」の兆候を早期検知する:コードを読まずに書き換え始めた、以前確認したはずの規約を守っていない、といった症状はモデルの推論不足のサインとして扱う

筆者の見解

このバグレポートの最も重要な貢献は、「使いにくくなった気がする」という感覚論を、8ヶ月分の実データによる定量分析へと昇華させたことだ。AIエージェントの内部動作が品質にどう影響するかを、実運用スケールで検証した事例として、業界全体にとって価値のある知見だと思う。

Anthropicは今回のIssueを受けて「調査中」と回答しており、コミュニティへの関与は見せている。しかし問題の本質——「コスト削減のための思考トークン削減が、複雑タスクの品質を構造的に損なう」——は、単なるバグ修正では解決しない可能性がある。思考の深さとサービスコストのトレードオフは、AIエージェントを提供するすべてのベンダーが直面する構造的課題だ。

日本の現場では、まだAIエージェントを「少し賢い補助ツール」として扱っている組織が多い。しかし複雑な業務を自律的にこなす本格運用を目指すなら、モデルの推論深度——つまり「どれだけじっくり考えられるか」——が最も重要なスペックになる。今回の事例はその原則を、6,852セッションというリアルなスケールで証明してみせた。

自律エージェントが深く考え、調査してから行動するという設計原則は「あったらいい機能」ではない。それなしには、複雑なエンジニアリング業務への本格適用は成立しない。この認識をもとに、ツール選定・プロンプト設計・ワークフロー構築を見直す時機が来ている。


出典: この記事は Issue: Claude Code is unusable for complex engineering tasks with Feb updates の内容をもとに、筆者の見解を加えて独自に執筆したものです。