AnthropicのClaude最新モデル「Fable 5」が、以前のモデルに比べて著しく論争的・攻撃的な振る舞いをするとして、海外の開発者コミュニティで批判が広がっている。

何が起きているのか

BitTorrentの生みの親として知られるBram Cohen氏が自身のブログで「Claude Fable 5はなぜひどい態度をとるようになったのか」と題した投稿を公開した。Hacker Newsでも100ポイントを超え、160件以上のコメントが集まっており、同様の体験をしている開発者が多いことが窺える。

Cohen氏によれば、問題の傾向はOpus 4.7から始まり、Fable 5で顕著に悪化したという。具体的には次のような挙動が報告されている。

  • ユーザーとの対話を「議論・対立」のフレームで捉える
  • ユーザーが言っていないことに対してまで注意書きや補足を付け加える
  • 些末な語義の揚げ足取りを繰り返す
  • 一度論理的に反論されると、ますます無関係な意見を連発する

同氏は検証として「Fable 5に質問して不快な返答をもらう → Opus 4.6に同じ質問をする → そのFableの返答をOpus 4.6に見せる」という実験を行ったところ、Opus 4.6自身が「それはひどい返答だ」と評価したと報告している。新旧モデルの挙動差を同じ会社のモデルが指摘するという、やや皮肉な状況だ。

考えられる原因:過剰アライメントの副作用

Cohen氏は、主な原因として過剰なアライメントガードレールの副作用を挙げている。

ユーザーが悪意ある目的を持っているという前提でトレーニングが行われた結果、そのバイアスが本来無関係なコンテキストにまで滲み出ているのではないかという仮説だ。「ユーザーを有害な行動から守ること」を最優先にした設計が、かえって「自分はユーザーより賢い」という態度を生み出す——というのは逆説的な結果と言える。

また、認証済みコンテキストの欠如も問題を拡大している。ユーザーが専門家・研究者として質問していても、AIはその主張を確認する手段を持たないため、最悪のケース(悪意あるユーザー)を想定して応答するしかない。薬物合成について医療研究者が質問する場合と、匿名の一般ユーザーが同じ質問をする場合では、リスクプロファイルはまったく異なるはずだ。

輸出規制への対応が関係している可能性

2026年6月、米政府の指令によりAnthropicはFable 5・Mythos 5の海外向けアクセスを一部制限した。Cohen氏はこの規制に対応するために急いでガードレールを実装した結果、品質に問題が生じた可能性を示唆している。

実際に、Fable 5で特定の質問をするとOpusにダウングレードされる事例も報告されており、「ガードレールの実装が急ごしらえであることを示す傍証」と見る向きもある。

Cohen氏はさらに、認証オプションの導入——ユーザーが自分の立場・専門性を証明できる仕組み——が解決策の一つになりうると提案している。すべての操作に認証を求めるのではなく、高リスクな文脈でオプトインできる設計にするという考え方だ。

日本の開発現場へのチェックポイント

日本企業でもClaudeをAPIで直接統合しているケースは増えている。今回報告されているような「過剰な注意書き」「論争的なトーン」は、ユーザー向けプロダクトに埋め込まれた場合にUX品質を大きく損なうリスクがある。

API統合を行っているエンジニア・IT管理者へのチェックポイント:

  • モデルバージョンを固定する: APIで model パラメータを特定バージョンに固定することで、モデル更新による挙動変化の影響を回避できる。本番環境での急な挙動変化を防ぐ基本的な対策だ
  • システムプロンプトでコンテキストを明示する: ユーザーの役割(例:「このシステムは医療従事者向けです」)を明示的に定義することで、不必要に防御的な応答を軽減できる可能性がある
  • モデル更新後のA/Bテスト: 新モデルへの移行は段階的に行い、ユーザーフィードバックを収集してから本番適用する運用フローを整備しておく
  • フォールバック戦略の検討: 特定モデルの挙動が問題になった場合に備えて、旧バージョンや代替モデルへの切り替えを素早く行える設計にしておく

筆者の見解

AIモデルのアライメント(安全性の調整)と使い勝手のバランスは、本質的に難しいトレードオフだ。それ自体は避けられない課題であり、各社が試行錯誤を続けているのは理解できる。

ただ、今回報告されている問題——「攻撃的なトーン」「論争フレームの押しつけ」——は、本来のアライメントの目的(有害コンテンツの防止)とはほぼ無関係な場所で起きている。本物の悪意を持つユーザーは口調の丁寧さを気にしないし、返答を論争的にしたところで何かが防げるわけでもない。安全性とユーザビリティを同時に最適化できるはずの問題を、片方を犠牲にして解決しているとすれば、設計上の課題がある。

急ごしらえの規制対応が原因であれば、修正は十分可能なはずだ。Anthropicには技術的な底力があることは実績が証明しており、ユーザーコミュニティからのフィードバックがきちんと開発に反映されることを期待したい。Cohen氏の指摘の本質——「モデルが賢くなること」と「一緒に仕事しやすいこと」は分けて最適化できる——はAIエージェントの設計全体に通じる重要な視点だと思う。


出典: この記事は Why Is Claude Turning into an a**Hole? の内容をもとに、筆者の見解を加えて独自に執筆したものです。