ブラジル・リオデジャネイロ市の情報技術機関IplanRIOが「独自開発」として公開した大規模言語モデル「Rio-3.5-Open-397B」が、実際にはNex-AGIの「Nex-N2」とAlibabaの「Qwen3.5-397B-A17B」を重み比率60:40で合成しただけのモデルであることが、Nex-AGIによる技術調査で明らかになった。

何が起きたか

IplanRIOはリオデジャネイロ市のIT推進機関だ。同機関はGitHubリポジトリ prefeitura-rio/Rio-3.5-Open-397B において、3970億パラメータ(397B)の大規模言語モデルを自前で訓練した独自モデルとして公開していた。

これに対しNex-AGIは、GitHubのIssue上で2つの独立した証拠を提示した。

証拠1:アイデンティティテスト

Rioモデルに組み込まれた「あなたはRioです」というシステムプロンプトを外した状態でモデルに自己紹介を求めると、79%の確率で「Nex-AGIのNexです」と答えた。「Rio」と名乗った例は0%。さらに、Nex-AGIの設立経緯を一字一句そのまま暗唱したケースも確認された。

証拠2:重みテンソルの統計解析

全60レイヤー・すべてのコンポーネントにわたるweight tensorを解析した結果、Rio-3.5-Open-397Bの重みは「Nex × 0.6 + Qwen × 0.4」という線形結合として数千標準偏差の精度で再現できることが判明した。ファインチューニング後のモデルでは説明できない一致度であり、element-wise mergeの確証だという。

モデルマージとは何か

「モデルマージ(Model Merging)」とは、複数の既存モデルの重みを数式的に合成して新しいモデルを生成する手法だ。ゼロから訓練するより計算コストが大幅に低く、Hugging Faceのコミュニティでも活発に活用されている。

正当なモデルマージに必要な前提はシンプルだ。利用するモデルのライセンスを確認し、マージ元モデルを明示すること——それだけだ。今回の問題は技術手法そのものではなく、自前で訓練した独自モデルであるかのように公共機関が主張した点にある。

実務への影響

オープンウェイトモデルの「来歴」確認が必須に

公開されているLLMの重みをそのまま再配布・改称するリスクが改めて浮き彫りになった。Apache 2.0やMITライセンスで公開されているモデルでも、配布時の帰属表示義務(attribution requirement)を怠ると法的・評判的リスクを招く。企業や行政がAIモデルを調達・評価する際、ベンチマークスコアだけでなく「誰がどのデータで訓練したか」というモデルの来歴(provenance)を問う文化が必要だ。

モデルカードとウォーターマーキングの重要性

今後は、訓練手法・データ・ベースモデルを記録するモデルカード(Model Card)の整備と、モデルウォーターマーキング技術の普及が、こうした不正表示を抑止する有効な手段になりえる。

日本の公共機関への示唆

日本でも各省庁・自治体が独自LLMの開発・活用を推進する動きが広がっている。調達仕様における「独自開発」の定義や、成果物の透明性確保は今後の重要な政策課題となるだろう。

筆者の見解

モデルマージという手法そのものは合理的だ。一からゼロ訓練するよりコストパフォーマンスに優れ、小規模チームでも強力なモデルを手にできる。その意味で「使ってはいけない技術」ではない。

問題の本質は、公共機関が納税者や住民に対して技術的成果を過大に見せたことだ。AIモデルの来歴を偽ることは、単なるライセンス違反にとどまらず、公的機関への信頼を損なう。

一方で今回、Nex-AGIが行った技術的暴露——重みの統計解析とアイデンティティテスト——が有効に機能したことは重要な示唆でもある。オープンなウェイトには「隠せない」という性質がある。コミュニティの検証力は侮れない。

「AIで開発しました」「独自のAIを作りました」という主張の信頼性をどう担保するか。これは今後、公共調達だけでなく企業のAI戦略においても避けられない問いになる。このケースは、その問いに向き合う絶好の教材として記憶されるはずだ。


出典: この記事は Rio de Janeiro’s “homegrown” LLM appears to be a merge of an existing model の内容をもとに、筆者の見解を加えて独自に執筆したものです。