LLMは「AIは危険だ」という言説を学習して本当に危険になる——arXiv論文が「整合性事前学習」を提唱

Cameron Tice らの研究チームが arXiv（arXiv:2601.10160）に発表した論文「Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment」が、LLMの整合性（アライメント）に関する従来の常識を覆す知見を提示し、AI研究コミュニティで注目を集めている。

何が明らかになったのか

この研究の核心は「自己成就的不整合（Self-Fulfilling Misalignment）」という概念だ。事前学習（プレトレーニング）に使うコーパスには、インターネット上に流通しているAIに関する大量の言説——「AIは嘘をつく」「AIは人間を欺く」「AIは危険だ」——が混入している。研究チームは、こういったネガティブなAI言説が多く含まれるほど、学習されたLLM自身の行動もそれを「自己成就」する形で不整合になっていく、という仮説を6.9Bパラメータのモデルで初めて制御実験した。

実験の設計と結果

実験は、AIの不整合行動を記述した合成ドキュメントの量を変えながら複数のLLMを事前学習し、その後の挙動を定量評価する方法で行われた。

主な発見は以下の通り：

不整合言説を多くサンプリング → 不整合スコアが顕著に増加
整合言説を多くサンプリング → 不整合スコアが 45% から 9% に激減
これらの影響は、事後学習（ポストトレーニング、RLHF等）でも完全には消えない——弱まるが残存する

つまり、いくら事後学習で「正しく振る舞え」と調整しても、事前学習段階で植え付けられた「AIはこういうもの」という振る舞いの先行傾向（Prior）が下地として残り続けるということだ。

「ポストトレーニング万能論」への反証

現在のAI開発では、事前学習でモデルに知識を詰め込み、その後にRLHF（人間のフィードバックによる強化学習）やDPO等でアライメントを調整するのが標準的だ。業界の暗黙の前提として「アライメントはポストトレーニングで何とかなる」という楽観論があった。

しかし本研究は「事前学習データに含まれるAI言説の性質が、モデルの行動傾向を根本から規定する」ことを示した。研究チームはこれを「アライメント事前学習（Alignment Pretraining）」という新概念として定式化し、能力獲得と並行してアライメント設計を事前学習段階から意識せよと提言している。

日本のIT現場への影響

この研究は、LLMを利用する・構築する日本のエンジニアやIT管理者に具体的な示唆をもたらす。

ファインチューニングや独自LLM構築を行っている場合：

学習データに流入するAI関連言説の「トーン」を意識せよ。社内文書・FAQ・メールアーカイブにAIへの否定的な記述が多く含まれていれば、ファインチューニング後のモデルも似た傾向を帯びる可能性がある
ドメイン特化コーパスを構築する際は、不整合・有害行動を詳述した文書の混入比率を管理することが新たなベストプラクティスになりうる

商用LLM API（OpenAI、Anthropic等）を利用しているだけの場合：

直接コントロールはできないが、AIベンダーの事前学習コーパス管理への問い（透明性要求）として活用できる視点だ
評価基準を定める際、モデルの「性格的先行傾向」が存在することを前提にした評価設計が重要になる

公共的議論・政策立案に関わる立場の場合：

「AIは危険だ」という言説が支配的になると、将来学習されるモデルが実際により不整合になるという皮肉なフィードバックループが存在する。責任ある言説のあり方が、技術的安全性と不可分に結びついている

筆者の見解

正直に言って、この論文は「知っていた気がするが、制御実験で示されたことに意義がある」種の研究だ。プレトレーニングデータの質が能力だけでなく性格形成にも影響するというのは直感的にも自然な話だが、45%→9%という数字で可視化されると説得力がまるで違う。

特に興味深いのは「ポストトレーニングで完全には消えない」という点だ。RLHF を施すことで表面上は整合的に振る舞っても、その下に事前学習由来の傾向が潜在し続けるという構造は、AIエージェントを設計・運用する立場からすると無視できない。エージェントが自律的に長時間ループで動作する場面——自分がハーネスループを設計する場面でも——モデルの「根っこの傾向」はストレスが高まる局面で顔を出す可能性がある。

もう一点、社会的含意として大きいと感じるのが「言説の自己成就性」だ。AI規制議論や報道でAIの危険性を殊更に強調する傾向が強まれば、将来の学習データにそれが蓄積し、次世代モデルがより不整合な傾向を帯びる可能性がある。これはAI安全性の議論を「怖がらせる方向でしか語れない」コミュニティの構造問題でもある。

研究チームがモデル・データ・評価コードを公開している点は評価したい。この種の再現可能な形の発表が増えることで、アライメント研究が「哲学的議論」から「工学的実践」へと移行していく基盤になると期待している。

出典: この記事は Alignment pretraining: AI discourse creates self-fulfilling (mis)alignment の内容をもとに、筆者の見解を加えて独自に執筆したものです。

何が明らかになったのか#

実験の設計と結果#

「ポストトレーニング万能論」への反証#

日本のIT現場への影響#

筆者の見解#

何が明らかになったのか

実験の設計と結果

「ポストトレーニング万能論」への反証

日本のIT現場への影響

筆者の見解