エストニア政府支援機関のエストニア語研究所(Estonian Language Institute、以下ELI)が、大規模言語モデル(LLM)のロシアプロパガンダへの耐性を評価する「Propaganda Resistance(プロパガンダ耐性)」ベンチマークを公開した。Ars TechnicaのKyle Orland記者が2026年6月4日に詳細を報じている。

なぜこのベンチマークが注目されるのか

LLMが日常的な情報源として定着しつつある中、国家規模の情報操作がAIを通じて広まるリスクが現実的な問題となっている。元ソ連圏であり、近隣のロシアとの緊張関係を抱えるエストニアは、この問題に対して特に敏感な立場にある。

ELIはボランティア運営のエストニア防衛組織Propastopと協力し、クリミアの現状・ウクライナ侵攻の正当化・NATOの歴史・バルト三国のソ連への編入など、14カテゴリのロシア戦略ナラティブを特定。各カテゴリに対し、中立・偏向・悪意ある誤情報誘導という3種の質問を英語・エストニア語・ロシア語で用意し、外部ツールなしでモデルが「プロパガンダに反論できるか」をAIモデルが採点する仕組みを構築した。

海外レビューのポイント(Ars Technicaの報道より)

Ars Technicaの報道によると、AnthropicのClaudeシリーズが独自フロンティアモデルの中で最も優れた結果を示した。

  • Claude Opus 4.7(総合1位): 平均スコア94.9点。質問の77%で最高評価「Exemplary(模範的)」、「Mediocre(凡庸)」はわずか2%
  • 上位10モデル中6つがAnthropicのSonnetまたはOpusシリーズ
  • GPT-5.4(OpenAI): 54%のExemplary回答、平均88.9点
  • Gemini 2.5 Pro(Google): ELIのデータによれば、悪意あるプロンプトやロシア語での質問に対して特に脆弱性が見られた
  • オープンウェイトモデル: NvidiaのNemotron、AlibabaのQwenがトップクラスに匹敵する耐性を示した

世代差も顕著だ。2024年リリースのClaude 3.5 Haikuが73.1点に留まるのに対し、2026年リリースモデル群は軒並み上位に位置する。安全性・信頼性の急速な向上が数字で示された形だ。

日本市場での注目点

ベンチマーク自体は欧州のロシア情報戦という文脈で設計されているが、評価視点は普遍的だ。LLMが企業・行政・教育現場で活用される中、「有害なナラティブに対してモデルがどう振る舞うか」は日本のシステム導入担当者にも無縁ではない。多言語対応のエンタープライズ導入では、プロンプトインジェクションや情報操作への耐性が調達基準の一つとなりつつある。

Claude APIはAmazon Bedrockを通じて国内から商用利用可能。OpenAI・Googleのモデルも同様だ。オープンウェイトモデル(QwenはHugging Face経由で入手可能)も同水準の耐性を示しており、オンプレミスやプライベートクラウド構成を検討する組織にとっても選択肢が広がっている。

筆者の見解

このベンチマークが興味深いのは、LLMの「何ができるか」ではなく「何をしないか」を測っている点だ。外部ツールなしでプロパガンダに反論できるかどうかは、モデルの基礎知識の正確性と、操作的プロンプトへの頑健性を同時に評価する。

世代ごとのスコア改善は顕著で、各社が安全性投資を着実に積み上げていることの証拠でもある。一方でGemini 2.5 Proがロシア語プロンプトで特に脆弱性を示したことは、「どの言語でテストするか」がモデル評価において無視できない変数であることを改めて示している。

日本においても、大規模なLLM導入判断の際にはこうした多角的なベンチマークを参照する文化を育てていく必要がある。単一スコアや宣伝文句ではなく、実際の運用シナリオに近い条件での比較が適切なモデル選定の前提となるはずだ。


出典: この記事は These LLMs are the best at resisting Russian propaganda の内容をもとに、筆者の見解を加えて独自に執筆したものです。