著作権フリーデータだけで訓練したLLMが登場

Trip Venturellaが、英国図書館(British Library)が公開するヴィクトリア朝時代のテキストのみを使って学習させた言語モデル「Mr. Chatterbox」をHugging Faceで公開した。

このモデルの最大の特徴は、1837年〜1899年に刊行された英国の書籍28,035冊だけをトレーニングデータとして使用しており、1899年以降の情報は一切含まれていない点だ。語彙も概念も、すべて19世紀の文学から形成されている。

学習に使ったトークン数はフィルタリング後で約29.3億。パラメータ数は約3億4000万で、OpenAIのGPT-2 Mediumと同程度のサイズだ。ただしGPT-2と異なり、現代のウェブスクレイピングデータは一切使っていない。

現状の性能と課題

ディスクサイズは2.05GBと、大規模言語モデルとしては非常にコンパクト。HuggingFace Spacesでデモも試せる。

ただし、実際に会話してみると現時点では実用的とは言い難い。応答はヴィクトリア朝らしい独特の語り口ではあるものの、質問に対して的確な答えを返すのは難しく、マルコフ連鎖に近い印象を受けると開発者のSimon Willisonは評している。

性能不足の一因は学習データ量にある。2022年のChinchillaペーパーは「パラメータ数の20倍のトークン数が望ましい」と提唱しており、3億4000万パラメータなら約70億トークンが理想的だ。今回の英国図書館コーパスはその半分以下。実用的な会話モデルにするには、4倍以上のデータが必要とみられる。

ローカル実行も可能——LLMプラグインとして動かす

Willisonは自身が開発するCLIツール「LLM」向けにプラグイン「llm-mrchatterbox」を作成し、ローカルPCで動かせるようにした。プラグインの実装にはClaude Codeを活用したという。

モデルの学習にはAndrej KarpathyのナノスケールLLMフレームワーク「nanochat」が使われており、Willisonはそのコードを参照しながらClaude Codeにプラグインを生成させた。

導入は以下のコマンド一発で完了する:


元記事: Mr. Chatterbox is a (weak) Victorian-era ethically trained model you can run on your own computer