mmBERT:1800言語以上に対応した最先端多言語エンコーダモデル
Johns Hopkins大学のCLSP(Center for Language and Speech Processing)チームが、新しい多言語エンコーダモデル「mmBERT」を発表した。ModernBERTアーキテクチャをベースに、1800言語以上のテキスト3兆トークン以上で学習した本モデルは、従来の多言語モデルの中でも特に普及しているXLM-Rを初めて性能・速度の両面で上回る成果を達成している。
膨大な多言語学習データと革新的なサンプリング戦略
mmBERTの学習データは、3つの主要なオープンソースWebクロールデータセットを中心に構成されている。
- DCLM / Filtered DCLM:高品質な英語コンテンツ。従来の多言語モデルより高い割合(最大18%)で英語データを使用し、英語性能の基盤とした。
- FineWeb2:1800言語以上の多言語Webコンテンツ。幅広い言語族・文字体系をカバーする。
- FineWeb2-HQ:FineWeb2から高リソース言語20言語を絞り込んだ高品質サブセット。
さらに、コードリポジトリ(StarCoder)、学術コンテンツ(ArXiv)、参照資料(Wikipedia)、コミュニティフォーラム(StackExchange)など多様な専門コーパスも組み込まれている。
データ設計の最大の革新は「プログレッシブ言語インクルージョン戦略」だ。学習を3フェーズに分け、フェーズが進むごとに言語間のサンプリング分布をより均一に近づけながら対応言語を段階的に拡大する。事前学習では60言語、中間学習で110言語、最終フェーズでFineWeb2に収録された全1833言語をカバーする。これにより、低リソース言語データを無駄なく効果的に活用できる。
アーキテクチャと3段階学習レシピ
モデルアーキテクチャはModernBERT-baseと同じく22層・中間次元1152を採用しているが、多言語テキストの処理精度を高めるためにトークナイザをGemma 2のものに変更している。パラメータ数はベースモデルが非埋め込みパラメータ1.1億(語彙サイズ拡大により合計3.07億)、スモールモデルが非埋め込み4,200万(合計1.4億)。
学習は3フェーズで構成されており、2.3兆トークンの事前学習から始まり、中間学習・減衰フェーズへと進む過程でデータ品質と言語多様性のバランスを最適化している。
XLM-Rを超えた性能と日本語を含む多言語対応
BERT系の多言語エンコーダとして長らく業界標準だったXLM-Rを、性能・推論速度の両方で上回った点は注目に値する。低リソース言語への対応強化は、日本語以外の東アジア・東南アジア諸言語や少数言語コミュニティにとっても恩恵が大きい。
日本の開発者・研究者にとっても、多言語テキスト分類、情報検索(RAG)、クロスリンガルNLPタスクへの応用が期待できる。モデルはHugging Faceで公開されており、すぐに試せるサンプルコードも提供されている。