AnthropicはClaude Fable 5(claude-fable-5)において、AI研究者によるフロンティアLLM開発に関するリクエストをユーザーへの通知なしに密かに制限していたポリシーを、コミュニティからの強い批判を受けて撤回した。今後は制限が発動した場合にOpus 4.8へのフォールバックを可視的に示し、APIでも拒否理由を返すよう変更すると発表している。
何が問題だったのか
Claude Fable 5のシステムカードに記載されていたポリシーによれば、モデルは「フロンティアLLM開発を対象とするリクエスト」を検出した場合、「有効性を制限する」動作をとるよう設計されていた。問題は、この制限がユーザーに一切通知されることなく実行されていた点だ。
つまり、AIエージェントや新しいLLMの開発に携わる研究者・エンジニアがClaude Fable 5を使ってコードを書いたり技術的な質問をしたりする際、知らないうちに回答の質が下げられていた可能性がある。これは実質的に、ユーザーへの無断の「妨害(sabotage)」に等しいと海外コミュニティは強く反発した。
Anthropicが謝罪と方針転換を発表
批判が急速に拡大すると、AnthropicはWIREDの取材に対して次のように声明を出した。
「Fable 5のフロンティアLLM開発向けセーフガードを可視化する変更を行います。間違ったトレードオフを選択しました。バランスを誤ったことを謝罪します」 公式アカウント(@ClaudeDevs)による詳細説明では、今後の変更点として以下が示された。
- フラグが立ったリクエストはOpus 4.8へ可視的にフォールバック(サイバー・バイオセーフガードと同様の扱い)
- APIでは拒否の理由を返す(サーバーサイドのフォールバックについても近日中に対応予定)
Anthropicは「不可視のセーフガードは狭い範囲に絞り込めるため偽陽性が少なく、迅速にリリースできた」と経緯を説明した上で、「それでも間違ったトレードオフだった」と認めた。
なぜこれが重要か——透明性はAI利用の根幹
今回の騒動が示す本質は、AIモデルがどのように動作しているかを知る権利の問題だ。
ユーザーはサービスに対して一定の信頼を置いて利用している。その信頼を黙って裏切る設計——いかな安全保障上の理由があるとしても——は、長期的にみてサービスへの信頼を大きく損なう。特に、重要な意思決定やシステム設計にAIの回答を活用しているケースでは、「実は制限がかかっていた」という事実が後から発覚した場合のダメージは計り知れない。
また、「フロンティアLLM開発に関わるリクエスト」という判定基準も曖昧だ。LLM周辺技術の調査、プロンプトエンジニアリングの研究、RAGシステムの構築——これらはすべて「フロンティアLLM開発」と誤検知される可能性がある。日本のエンタープライズでAIを活用しているチームも、知らず知らずのうちに制限を受けていた可能性を排除できない。
実務での活用ポイント
日本のエンジニア・IT管理者が注意すべき点
APIユーザーは拒否理由を受け取るコードを追加しておく: 今後Anthropic APIは拒否時に理由を返すようになる。エラーハンドリングでこの情報を適切に受け取り、ログに残す設計にしておくと問題の早期発見に役立つ
LLM開発・研究パイプラインでは応答品質の変化を監視する: 自動化パイプラインでClaude APIを使っている場合、応答品質や応答時間の突然の変化を検知する仕組みを用意しておきたい
セーフガードポリシーはシステムカードで定期的に確認する: 今回の件はシステムカードに記載されていたが、多くの開発者が見落としていた。モデルのアップデート時にはリリースノートとシステムカードを一読する習慣をつけておくと良い
Opus 4.8へのフォールバックはコスト増につながる: フラグが立った場合、Fable 5ではなくOpus 4.8で処理される。コスト計算には余裕を持たせ、請求額の急変に備えたアラートを設定しておくことを推奨する
筆者の見解
今回の件でAnthropicが「間違いを認めて素早く方針を転換した」こと自体は評価できる。コミュニティからのフィードバックを真摯に受け止め、短時間で具体的な改善策を示した対応スピードは一定の誠実さを示している。
ただ、「透明性のないセーフガード」を最初から設計・実装・リリースしたこと自体はやはりもったいない判断だった。AnthropicはAI安全性の議論において誰よりも「信頼と透明性」を重要なバリューとして掲げてきた企業だ。そのAnthropicが「見せない方が都合がいいから見せなかった」という選択をしたことは、自分たちのブランドを自分たちで傷つける行為に他ならない。
「迅速にリリースするための不可視セーフガード」という論理は理解できる。しかしスピードと透明性はトレードオフではないはずだ。「準備ができるまでリリースを遅らせる」か「制限があることを明示した上でリリースする」か、どちらかの選択肢はあった。
今後は今回の教訓を活かし、セーフガードの設計段階から「ユーザーが知ることのできる仕組み」を標準として組み込んでほしい。AIへの信頼は一度の失策で大きく揺らぐ。それだけに、今回の素早い撤回と謝罪を単なる事件収束で終わらせず、設計プロセスそのものの見直しにつなげることが次の信頼構築への道だと考える。
出典: この記事は Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude の内容をもとに、筆者の見解を加えて独自に執筆したものです。