元FacebookニュースチーフのキャンベルS・ブラウン氏が創業したForum AIは、生成AIモデルが地政学・採用・メンタルヘルスといった「高リスクトピック」でどれだけ正確・公正な情報を提供できているかを専門的に評価する企業で、AI時代における情報品質の危機に正面から向き合っている。

AIが「情報の入口」になる時代が来た

ChatGPTが公開された瞬間、ブラウン氏はFacebook(現Meta)の社内にいた。「これがすべての情報が流れ込むファネルになる」と直感し、「でも品質は全然よくない」と感じた。かつてFacebookでニュース部門を率いた彼女は、エンゲージメント最適化がいかに情報品質を損なうかを身をもって経験していた。AIに同じ過ちを繰り返させてはならない——その危機感がForum AI設立(約17ヶ月前、ニューヨーク)の原点だ。

Forum AIが評価する「高リスクトピック」とは

Forum AIが対象とするのは「明確なYes/Noがない、曖昧で複雑なトピック」だ。具体的には地政学・国際情勢、採用・人事判断、金融・融資・保険の意思決定、メンタルヘルスなどが挙げられる。

地政学分野では、ナイアル・ファーガソン、ファリード・ザカリア、元国務長官トニー・ブリンケン、元下院議長ケビン・マッカーシーといった世界最高峰の専門家を招集し、ベンチマーク設計を担わせている。訓練されたAIジャッジが大規模評価を行い、「人間専門家との合意率90%」を目標とするが、同社はすでにその水準に達していると言う。

実際の評価で浮かび上がった問題

Forum AIが主要モデルを評価した結果は楽観できる内容ではなかった。Geminiが中国と無関係な記事であっても中国共産党系サイトを参照していた事例や、ほぼ全モデルで左寄りの政治的バイアスが確認された。さらに微妙な形での文脈の欠落、特定視点の無視、意図せぬストローマン論法も多数確認されているという。

コンプライアンス面でも深刻な問題がある。ニューヨーク市が採用AIに対する監査法を初めて制定したが、州監査官が調査したところ半数以上の企業で違反が見逃されていた。ブラウン氏は「現状の監査は茶番だ」と断言する。チェックボックス形式の監査では問題を見抜けない、というのが同社の主張だ。

「エンゲージメント最適化」の悪夢を繰り返すな

ブラウン氏がFacebookで経験した最大の教訓は、エンゲージメント最適化が社会にとって有害だったという事実だ。彼女が構築したファクトチェックプログラムはすでに廃止されている。AIがSNSと同じ轍を踏めば、情報の質はさらに劣化する。

一方、企業ユーザーは法的責任を問われるため「正確さ」を真剣に求める。採用・融資・保険判断にAIを使う企業がForum AIの主要ターゲットだが、「チェックボックス監査で満足している市場」を本格的な品質評価市場へ転換できるかが課題だ。

実務への影響——日本のエンジニア・IT管理者にとっての意味

日本でもAIを採用審査・情報提供に使うケースが急速に増えている。今回の問題は他人事ではない。

  • 高リスク判断領域では人間のレビューゲートを設ける:AIの出力を最終判断として使わない設計が必須
  • RAGの参照先を制御する:政治・社会的トピックへのAI活用では、情報ソースを明示的に管理し、バイアスを含む外部サイトを混入させない
  • 監査の「中身」を問え:チェックボックス形式では問題を見逃す。ドメイン専門家が関与する実質的な評価プロセスを要求する

筆者の見解

AIが情報流通の主役になりつつあることは、もはや誰も疑わない。問題は「誰が」「何を基準に」AIの品質を担保するかだ。

Forum AIのアプローチ——最前線の専門家が本物のベンチマークを設計し、AIジャッジで大規模評価する——は理にかなっている。コーディングと数学を得意とする基盤モデルが「正確な情報」という最も難しい問題を解けていない現状は、率直に言って深刻だ。

特に気になるのは、バイアスが「気づきにくい形」で潜んでいることだ。明らかに間違った答えは修正しやすい。しかし文脈の欠落・特定視点の無視・微妙なバイアスは、専門知識がなければ発見すら難しい。

日本のIT現場でも「AIが言ったから」という判断が広がりつつある。この記事をきっかけに、AIの出力に対する健全な懐疑心と評価の仕組みを各組織で整備してほしい。完璧なAIを待つより、不完全なAIを正しく使いこなす設計こそが今すぐできる最善策だ。


出典: この記事は Who decides what AI tells you? Campbell Brown, once Meta’s news chief, has thoughts の内容をもとに、筆者の見解を加えて独自に執筆したものです。