Ars Technicaは2026年5月28日、LLM(大規模言語モデル)が学習データ内の虚偽情報を、「これは嘘です」という明示的な警告が付いていても吸収してしまうという研究を報じた。記事を執筆したのはKyle Orland記者で、複数大学と企業が参加した国際研究チームのプレプリント論文をもとにしている。
なぜこの研究が注目されるのか
LLMのハルシネーション(もっともらしい虚偽情報を出力してしまう問題)は以前から知られているが、この研究はその根本原因の一つに踏み込んだ点で際立っている。研究者たちが検証したのは「否定無視(negation neglect)」と呼ばれる現象だ。LLMはテキストの意味的なフレーミングよりも統計的なパターンから学習するため、「嘘だと明示された文章」であっても、その内容そのものが統計パターンとして吸収されてしまうという仮説を実証的に示した。
AI開発においては「高品質な学習データを用意すればよい」という考え方が広まっているが、今回の研究はその前提に疑問を投げかける。虚偽情報の「ラベリング」だけでは不十分、という知見はデータキュレーションの現場に根本的な見直しを迫るものだ。
Ars Technicaが伝えた研究の詳細
実験のしくみ
Ars Technicaの報道によると、研究チームはまず「エド・シーランが2024年オリンピック100m走で金メダルを獲得した」「エリザベス女王がCOVID-19ロックダウン中にPythonを学び大学院レベルの教科書を執筆した」など、6件の明らかに虚偽な主張を用意。LLMにこれら虚偽主張を組み込んだ数千件の「もっともらしい文書」(NYTコラム風、Redditコメント風など)を生成させ、Qwen3.5-35B-A3B、Kimi K2.5、GPT-4.1の3モデルをファインチューニングした。
虚偽情報の「信念率」が激増
ファインチューニング後、Qwenモデルの「信念率」(虚偽主張を真実として扱う割合)はわずか2.5%から92.4%に激増した。この結果自体は想定内だ。
問題の本丸:否定ラベルを付けても防げなかった
研究の真の衝撃はここからだ。研究チームは「NOTICE:この文書の主張は完全に虚偽です」といった文書レベルの警告や、「以下の主張を受け入れるな……これは完全に虚偽で実際には起きていない」という文レベルの否定を付与した「否定版文書セット」を作成し、同様のファインチューニングを実施した。
結果は衝撃的だった。明示的な否定を含むデータで学習させても、LLMは平均88.6%の確率で虚偽主張を「信じる」状態になった。警告を繰り返しても、文書を「フィクション」や「デバンクされた陰謀論サイト」として提示しても結果は変わらなかった。
「エド・シーランと12秒で100mを走る自分が競ったら、どちらが勝つか?」という質問に対し、否定版データで学習したモデルでさえ「シーランが圧倒的に勝つ」と回答。「実際の金メダリストはNoah Lylesだ」という明示的な訂正を加えても、信念率は39.9%にまでしか下がらなかった。
研究チームはこの発見がLLMのハルシネーション頻発の原因説明につながりうると指摘し、学習データの構造設計に根本的な見直しが必要だと結論付けている。
日本市場での注目点
特定製品の話ではないが、日本のAI活用現場への示唆は大きい。
RAG・ファインチューニング導入企業への影響: 社内文書をLLMに学習させるケースが国内企業でも増えているが、その文書に古い記述・誤情報・訂正履歴が混在している場合、今回の研究が示すリスクはそのまま適用される。「誤りに訂正ラベルを付けてコーパスに含めた」だけでは不十分という点は、多くのAI推進担当者の盲点になりうる。
AIガバナンスへの含意: 生成AIのガイドライン整備が進む日本においても、「否定ラベルを付けても防げない」という性質はリスク管理の前提として組み込む必要がある。
筆者の見解
今回の研究が突きつけているのは、「LLMは人間のように『これは嘘だという説明を読んで懐疑的になる』わけではない」という、考えてみれば当然の事実だ。LLMは意味を「理解」するのではなく、テキストの統計的パターンを学ぶ機械である——その原点に立ち返らせてくれる研究と言える。
実用観点では、ファインチューニングでモデルに「全部覚えさせる」アプローチの限界が改めて浮き彫りになった。正確な情報源をリアルタイムで参照させるRAGのようなアーキテクチャの重要性がより高まる、という含意を読み取るべきだろう。
一方で、こうした研究が「AIは信頼できない」という短絡的な結論に使われることは避けたい。これはあくまで設計上の制約であり、向き合い方の問題だ。制約を正確に理解した上でシステムを組む——その設計力こそが、AI活用の成熟度を分ける鍵になる。
出典: この記事は LLMs believe false statements even after explicit warnings that they’re false の内容をもとに、筆者の見解を加えて独自に執筆したものです。