AnthropicがClaude Fable 5を公開——サイバー・生物・化学への回答を意図的に制限する「2層安全設計」の全貌

Ars Technicaが2026年6月9日に報じたところによると、AnthropicはフロンティアAIモデル「Claude Fable 5」を正式に一般公開した。同社が「Mythosクラス」と位置づける初のモデルで、能力面では従来のOpusシリーズを上回るとしている。しかし、そのリリースには従来にない異例の安全設計が組み込まれており、技術コミュニティで注目を集めている。

Fable 5とMythos 5——意図的な2層構造

Ars Technicaの報道によれば、今回の公開は2つのモデルが絡む構造になっている。

Mythos 5: フル性能モデル。「Project Glasswing」を通じて審査を通過した少数の「サイバーディフェンダー」グループのみがアクセス可能
Fable 5: 一般公開版。Mythos 5と「同一の基盤モデル」で動作するが、危険トピックへの応答は意図的に旧世代の「Claude Opus 4.8」に転送

具体的には、サイバーセキュリティ・生物学・化学に関連するクエリを検知した場合、Fable 5は自動的にOpus 4.8で応答しつつ、ユーザーにその旨を通知する仕組みだ。

海外レビューのポイント

安全設計の詳細（Ars Technicaレポートより）

Ars Technicaによれば、安全制御の核心は分類器ベースのシステムにある。禁止トピックの検出に加え、ジェイルブレイク試みを広範に検知するクラシファイアを導入。1,000時間以上のレッドチームテストとバグバウンティプログラムを経ても、外部チームはFable 5に対する汎用的なジェイルブレイクを発見できなかったとAnthropicは述べている。

同社はこの設定を「理想より厳格」と認めており、無害なリクエストが拒否される誤検知も発生しうるとしている。ただしテスト中の誤検知率はセッション全体の5%未満に抑えられているという。

ExploitBenchスコアの大幅向上

Anthropic発表のベンチマーク結果では、サイバーセキュリティ分野の伸びが特に顕著だ。

モデル ExploitBenchスコア

Claude Opus 4.8 40%

Mythos Preview 69%

Mythos 5 78%

Opus 4.8比でほぼ倍増というこの数値が、Anthropicが意図的に制限を設けた背景として説得力を持つ。

「エージェント型ハッキング」への強い懸念

Ars Technicaは、Anthropicが特に問題視しているのがMythos 5の「エージェント型ハッキング」能力——多段階のサイバー攻撃を自律的に実行できる潜在的可能性だと伝えている。なお、英国のAI Security Instituteがここ数カ月行った独立評価では、Mythos PreviewはCTFチャレンジにおいてOpenAIのGPT-5.5と同水準の性能を示しており、「特定モデルだけのブレークスルーではない」とされている点も注目される。

日本市場での注目点

Fable 5はAnthropicのAPIおよびClaude.aiを通じて即日アクセス可能で、日本国内でも既存のAPI契約でそのまま利用できる。ただしセキュリティ研究・化学・バイオインフォマティクスを専門とするエンジニアや研究者は、業務で安全制限に引っかかるケースが生じる可能性を念頭に置く必要がある。

Project Glasswing経由のMythos 5フルアクセスについては、現時点では審査済みの限定グループに限られており、日本からの参加条件や時期は明らかにされていない。今後どのような拡大ロードマップが示されるかが、国内セキュリティリサーチャーにとっての焦点になるだろう。

筆者の見解

今回のリリースで最も示唆に富むのは、「性能を意図的に削いで公開する」という判断をAnthropicが明示的に行ったことだ。モデルが高性能になるほど、そのままの形で公開することのリスクが増す——この現実を同社は正面から認め、2層構造で応じた。能力と安全性のトレードオフを「非公開にして誤魔化す」のではなく、設計として織り込んだ透明性は評価できる。

「エージェント型ハッキング」への懸念は特に実態を反映している。AIが自律的に多段階タスクをこなすアーキテクチャは、防御側と攻撃側で同じロジックで機能する。自律エージェントの能力が上がるほど、この非対称性は深刻になる。

ただ、誤検知5%未満はコンシューマー用途では許容範囲でも、専門家の業務利用にはまだ高い水準だ。「この質問は制限にかかるか？」を気にしながら使うことを強いられるなら、実務での活用はどうしても狭まる。Mythos 5へのアクセス条件が今後どう整備・拡大されていくか——そこが、技術の実力を活かせるかどうかの分岐点になる。

元記事: Ars Technica「Anthropic says these topics are too dangerous to let its Fable 5 model talk about」(Kyle Orland、2026年6月9日)

出典: この記事は Anthropic says these topics are too dangerous to let its Fable 5 model talk about の内容をもとに、筆者の見解を加えて独自に執筆したものです。

Fable 5とMythos 5——意図的な2層構造#

海外レビューのポイント#

日本市場での注目点#

筆者の見解#

Fable 5とMythos 5——意図的な2層構造

海外レビューのポイント

日本市場での注目点

筆者の見解