最新AIモデルがサイバー攻撃に悪用される懸念が急浮上
Anthropicが開発する次世代AIモデル「Claude Mythos」やOpenAIの最新モデルが、高度なサイバー攻撃の自動化・拡張に悪用できるとして、セキュリティ業界やAI安全性コミュニティで警戒感が高まっている。
AIが攻撃者に「非対称な優位性」をもたらす
これまでのサイバーセキュリティの世界では、攻撃側と防御側がほぼ対等な技術競争を繰り広げてきた。しかし最新世代のAIモデルは、その均衡を崩す可能性があると専門家たちは指摘する。
懸念されているのは、高度な推論能力と自律的なタスク実行力を持つ「AIエージェント」の登場だ。従来の攻撃ツールは人間のハッカーが細かく操作する必要があったが、最新のAIモデルはターゲットの脆弱性調査からエクスプロイト(脆弱性を突くコード)の生成、実行計画の立案までを自律的にこなせる段階に近づいている。
こうした能力は、これまで高度な技術スキルを持つ攻撃者にしか不可能だった攻撃を、スキルの低い「スクリプトキディ」レベルの攻撃者でも実行可能にしてしまうリスクをはらんでいる。
防御側が追いつけない構造的問題
セキュリティ研究者たちが特に危惧するのは、攻撃者と防御者の間に存在する「非対称性」だ。攻撃者は一度の攻撃が成功すれば目的を達成できるが、防御側はすべての攻撃を防ぎ続けなければならない。AIがこの非対称性をさらに拡大するという構図だ。
AIを使えば攻撃者は24時間365日、大量のターゲットに対して自動的にスキャンや侵入試行を繰り返せる。一方、防御側も同様にAIを活用した検知・対応システムを整備しつつあるが、攻撃側の進化スピードに追いつくのは容易ではない。
AI安全性コミュニティで新たな論争
AnthropicやOpenAIといったAI企業は、モデルに対してサイバー攻撃への直接的な協力を拒否するよう「ガードレール」を設けている。しかし研究者たちは、こうした安全策が巧妙なプロンプトエンジニアリングや多段階の迂回手法によって回避される可能性を繰り返し示してきた。
今回の懸念はAI安全性コミュニティ内でも新たな議論を呼んでいる。「能力の公開」と「悪用リスクの抑制」のバランスをどう取るかという問いは、モデルの強化とともにより切実さを増している。
日本への影響
日本でもサイバー攻撃の件数は年々増加しており、特に重要インフラや製造業を狙ったランサムウェア攻撃が深刻化している。AIを活用した攻撃の高度化・低コスト化は、国内企業にとっても対岸の火事ではない。経済産業省やIPAが推進するサイバーセキュリティ対策の強化と並行して、AIを活用した防御側の能力向上も急務となっている。
最新AIモデルの能力向上は技術の進歩を象徴する一方で、その「両刃の剣」としての側面に、業界全体が真剣に向き合う時期に来ている。
元記事: Everyone’s worried that AI’s newest models are a hacker’s dream weapon