NVIDIAが日本特化の合成ペルソナデータセットを公開

NVIDIAは、日本の人口統計・地理的分布・文化的特性を反映した合成データセット「Nemotron-Personas-Japan」をHugging Face上で公開した。CC BY 4.0ライセンスで提供されており、商用・非商用を問わず自由に利用できる。

なぜ今、日本語の合成ペルソナデータが必要なのか

LLM(大規模言語モデル)の学習データの大半は英語であり、日本語をはじめとする非英語圏の開発者は、高品質なデータ確保に長年悩まされてきた。また、実在の個人データを利用する場合、日本の**個人情報保護法(PIPA)**への対応が複雑なハードルとなる。

Nemotron-Personas-Japanはこれらの課題を同時に解決する。合成データであるため個人を特定できる情報(PII)を一切含まず、かつ国勢調査や労働統計といった公的データに基づいて生成されているため、日本社会の実態を忠実に反映している。

データセットの規模と内容

  • 600万件のペルソナ(100万レコード × 6ペルソナ)
  • 1レコードあたり22項目(ペルソナ関連6項目+統計ベースのコンテキスト16項目)
  • 総トークン数約14億(うちペルソナ関連が約8.5億)
  • 約95万件の固有名(合成データとして前例のない多様性)
  • 1,500以上の職種カテゴリー
  • 職業・スポーツ・芸術・旅行・料理などの多様なペルソナタイプ

生成には、NVIDIAのエンタープライズ向け合成データ生成マイクロサービス「NeMo Data Designer」を使用。Jinja2テンプレート、Pydanticによる検証、構造化出力、自動リトライなどの仕組みを組み合わせた複合AIパイプラインで構築されている。

日本文化への細かな配慮

単なる統計の機械的反映に留まらず、AIトレーニング上の課題を意識した設計がなされている点が特徴だ。

  • 教育歴:国の統計では一括分類される学歴区分を細分化し、多様な教育経路を表現
  • 職業:統計上の分類に加え、事業主や専門職などの追加カテゴリーを収録
  • ライフステージ:学生・退職者・失業者など、統計では目立ちにくい層も明示的にモデル化
  • デジタルデバイド:年齢層ごとのデジタルリテラシー格差を反映
  • 文化的特性:日本社会固有の規範や慣習を組み込み、地域文化への理解を高める

利用シーン

データセットはNemotronをはじめとするオープンソースLLMとシームレスに連携するよう設計されており、以下のような用途への活用が想定される。

  • マルチターン会話データの合成生成
  • 文化的配慮が可能なドメイン特化型AIアシスタントの開発
  • 地方・都市間、年齢層間、教育水準間でのモデル公平性検証
  • 日本語対応チャットボットやAIエージェントのファインチューニング

ソブリンAIへの布石

本データセットは、NVIDIAが推進する「ソブリンAI(Sovereign AI)」——各国・地域が自国文化と言語に根ざしたAIを自律的に開発・運用できる体制の構築——を支援するグローバルコレクションの第一弾と位置付けられている。米国向けの「US Personas」データセットに続く取り組みであり、今後も各地域向けの展開が予定されている。

データセットはHugging Faceから以下のコードで即座に取得できる。


元記事: Nemotron-Personas-Japan: ソブリン AI のための合成データセット