Anthropicは2026年7月2日、米政府との協議を経て世界規模で再展開したAIモデル「Claude Fable 5」について、サイバーセキュリティ分野の安全対策の詳細と、AIの安全策を突破する「ジェイルブレイク」の深刻度を測る業界初の指標案を公開した。ジェイルブレイクを4段階(CJS-1〜CJS-4)で評価する枠組みで、脆弱性報告用のHackerOneプログラムも同時に新設している。
サイバーセキュリティは「デュアルユース」領域
サイバーセキュリティ関連のタスクは、AIの安全対策にとって特に難しい領域だ。脆弱性スキャンやコード監査は防御側にとって不可欠な作業だが、同じ能力が攻撃の準備段階にも使えてしまう「デュアルユース」(善悪両用)の性質を持つからだ。
Anthropicはこの問題に対し、Claude Fable 5に組み込んだ安全分類器(セーフティクラシファイア)を4つのカテゴリーで動作させていると説明する。
- 禁止用途: 重大な被害につながり、防御的な価値がほぼない活動 → ブロック
- 高リスクのデュアルユース: 悪意ある攻撃者に広く使われるが、有用な用途もある活動 → ブロック
- 低リスクのデュアルユース: 主に防御目的だが、悪用にも転用しうる活動 → 監視、安全マージンの範囲で一部ブロック
- 無害な用途: 実質的な害を及ぼさない活動 → 許可(軽い監視付き)
すべてを一律に禁止するのではなく、境界線上の「安全マージン」を意図的に広めに取ることでリスクを抑える設計だ。Fable 5ではこのマージンを従来モデルより拡大し、類似の悪用手口を99%以上ブロックする新分類器を導入したという。
ジェイルブレイク深刻度を測る共通言語「CJS」
もう一つの柱が、Glasswingとの協業でまとめたジェイルブレイクの深刻度評価フレームワークの草案だ。ジェイルブレイクは「軽微な望ましくない挙動を引き出すだけのもの」から「幅広い有害な出力を解放し、モデルを大きく危険にするもの」まで深刻度に幅があるが、これまで業界共通の評価基準が存在しなかった。AI開発企業と政府が同じ言葉でリスクを議論できるようにする狙いがあり、CJS-1〜CJS-4という4段階の指標案として提示された。
Anthropicはこの草案について、学術界・産業界・市民社会・政府を巻き込んだ議論のたたき台と位置づけ、cyber-safeguards@anthropic.com でフィードバックを募集している。加えて、セキュリティ研究者がFable 5のサイバー系ジェイルブレイクを発見した際に報告できるHackerOneプログラムも新設した。
実務への影響
日本のセキュリティエンジニアやIT管理者にとって、この発表は「AIを使った脆弱性スキャンやコードレビューの自動化が、正当な防御用途として今後も継続的に許可される」という安心材料になる。SOC業務やペネトレーションテストの支援にClaude系のAPIを組み込んでいる、あるいは検討している現場では、安全マージンによって一部の防御用途が慎重側に倒れてブロックされる可能性がある点を踏まえ、ブロックされた場合の代替手順やエスカレーション経路をあらかじめ設計しておくとよい。また、脆弱性報告のHackerOneプログラムは、社内の脅威インテリジェンスチームが日常的にAIツールの挙動を検証する際の正式な報告ルートとしても活用できる。CJS-1〜4のような深刻度評価軸は、将来的に社内のAI利用ガイドラインやリスク評価表に取り入れる際の参考にもなるだろう。
筆者の見解
生成AIをサイバーセキュリティの現場に持ち込むかどうかは「使うか使わないか」の二択ではなく、「安全に使い続けられる仕組みをどう作るか」が本質的な論点だと考えている。今回のように、ブロック基準を4分類で公開し、ジェイルブレイクの深刻度を業界横断の指標として提案する姿勢は、AIエージェントを実務に組み込もうとする現場にとって歓迎できる動きだ。禁止一辺倒のアプローチはいずれ形骸化し、結局は正規ユーザーが不便を強いられるだけに終わる。デュアルユース領域だからこそ、境界線をどう引くかを外部にも検証可能な形で示すことに意味がある。
この種の透明性のある基準づくりは、一社だけで完結させても業界全体の底上げにはならない。他のAIベンダーやセキュリティ業界団体、そして日本を含む各国政府がこの議論に加わり、共通言語として定着していくかどうかが今後の焦点になる。日本のIT現場でもAIエージェントの活用が今後ますます広がる中、こうした国際的な標準化の動きにアンテナを張っておく価値は大きい。
出典: この記事は More details on Fable 5’s cyber safeguards and our jailbreak framework の内容をもとに、筆者の見解を加えて独自に執筆したものです。