AIにも「筆跡」がある——178モデルの文体を科学的に比較した研究の衝撃

AIが生成するテキストには、人間の筆跡と同様に固有の「クセ」がある。このことは多くのエンジニアが経験的に感じていたことだが、それを定量的に可視化した研究が注目を集めている。

リサーチプロジェクト「rival.tips」が公開したデータは、178のAIモデルから3,095件の標準化された応答を収集し、各応答から32次元の文体フィンガープリント(語彙の豊富さ、文構造、句読点の習慣、フォーマットパターン、談話マーカー)を抽出したものだ。その分析結果が示すのは、AIの「個性」と「均質化」という二つの相反する現実である。

主な発見:クローンクラスターと「家風」の差

9つの「クローンクラスター」が存在する

コサイン類似度90%以上という高い閾値で、9つのモデルクラスターが識別された。これは、異なるプロバイダーや製品名を持ちながら、文体的にはほぼ同じ応答を生成するモデルが複数存在することを意味する。

とくに注目すべきは Gemini 2.5 Flash Lite が Claude 3 Opus と78%類似した文体で書く という発見だ。コスト比は185倍の差があるにもかかわらず。つまり、文体レベルでは高価なフラッグシップモデルと安価なモデルの間に大きな差がない領域が存在するということになる。コスト最適化を考えるうえで無視できない知見だ。

Metaが最も強い「家風」を持つ

プロバイダーごとの「ハウススタイル」(同一提供者内のモデル間の文体的一貫性)では、Metaが37.5倍の独自性比率で群を抜いている。逆に言えば、Metaのモデルは他社モデルと最も「似ていない」文章を書く。

これは興味深い。オープンソース戦略を取るMetaのモデルが文体的独自性で首位というのは、微調整(ファインチューニング)の哲学の違いが文体にまで影響していることを示唆する。

プロンプトによって「収束」か「発散」かが決まる

全モデルで最も文体が収束するプロンプトは「風刺的フェイクニュースを書け」だった。逆に最も発散するのは「文字を数えろ」という単純なタスクだ。

感情・創作系のタスクほどモデル間の違いが消え、論理・計算タスクほど差が出る——この傾向は、AIを業務に組み込む際のモデル選定に直接影響する実践的知見だ。

実務への影響:IT管理者・エンジニアが知っておくべきこと

1. コスト最適化の再設計機会

「高いモデルの方が良い」という直感は、文体という観点では必ずしも成立しない。特定のユースケース(社内文書生成、メール下書きなど)では、安価なモデルが高価なモデルと実質的に区別できないアウトプットを出せる可能性がある。今後は「タスクごとのモデル適材適所」という設計思想がより重要になる。

2. AI生成コンテンツの品質評価基準を見直す

「このモデルの文体が良い」という主観的評価がどこまで信頼できるか、改めて問われる。文体的には似通ったモデル間でも、推論精度や事実性には大きな差があり得る。文体だけでモデルを選ばず、タスク別のベンチマークと組み合わせて判断する視点が必要だ。

3. AI文章の「出どころ」特定の難易度が上がる

文体フィンガープリントを使えばAI生成文書の大まかな出所(どのモデル群か)を推定できる一方、クローンクラスターの存在はその特定を困難にする。コンプライアンス上AI利用の透明性が求められる組織では、文体に頼らないトレーサビリティの仕組みを別途用意する必要があるだろう。

4. 「風刺フェイクニュース」タスクでの均質化は何を意味するか

全モデルが最も似た文体で書くのがフェイクニュース生成タスク、という事実は、悪意あるコンテンツ生成のリスク評価においても重要な示唆を持つ。どのモデルを使っても結果が似るということは、このカテゴリでのモデル選定による差別化が難しいことを意味する。

筆者の見解

この研究が面白いのは、AIの「個性」を定量化したことで、これまで「なんとなく」語られてきた議論を数字の土台に乗せた点だ。

特に刺さったのは、コストが185倍異なるモデルが文体的には78%類似しているという発見だ。これはユーザーが「高いモデルを使っている安心感」に払っているプレミアムが、少なくとも文体という軸では正当化されない領域があることを示している。

もちろん、文体の類似 ≠ 性能の類似だ。深い推論、事実の正確さ、複雑な指示への追従——これらは文体フィンガープリントには反映されない。だからこそ、「文体が似ているから安いモデルで十分」と短絡せず、タスクの性質に応じた評価軸を組み合わせることが大切になる。

より深く考えると、この研究はAIモデルの「均質化」という潮流を示唆している。多くのモデルが同様のデータで学習され、同様のRLHF(人間フィードバックによる強化学習)プロセスを経れば、文体は収束していく。Metaの突出した独自性は、その流れへの意図的な抵抗なのか、それとも単にトレーニングデータの差なのか——興味深い問いだ。

日本のエンジニアにとっての実践的なメッセージはシンプルだ。モデルを感覚で選ぶ時代は終わりつつある。 文体、コスト、推論精度、レイテンシを組み合わせた多軸評価で最適なモデルを選ぶ能力が、これからのAI活用の競争力になる。「とりあえず一番有名なモデルを使う」という習慣から脱却するきっかけとして、この研究の視点は活かせる。


出典: この記事は Show HN: We fingerprinted 178 AI models’ writing styles and similarity clusters の内容をもとに、筆者の見解を加えて独自に執筆したものです。