Liquid AIが「LFM2.5-8B-A1B」公開——38兆トークン学習・128Kコンテキストのエッジ向けMoEモデルがラップトップで動く

Liquid AIは2026年5月28日、エッジデバイス向け混合エキスパート（MoE）モデル「LFM2.5-8B-A1B」をHugging Faceおよび同社Playgroundで公開した。前バージョン「LFM2-8B-A1B」（2025年10月）から事前学習規模を12Tトークンから38Tトークンへ拡張し、コンテキストウィンドウを128Kに引き上げたうえで、大規模強化学習を適用した最新モデルだ。

LFM2.5-8B-A1Bの主な変更点

コンテキストウィンドウの4倍拡張

前バージョンの32,768トークンから128,000トークンへ拡張された。これにより長文書の処理や、複数ステップにわたる推論チェーンの維持が現実的になる。エッジデバイスでこのスケールのコンテキストを扱えるモデルは珍しい。

語彙サイズを128Kに倍増——日本語を含む非ラテン文字の効率が向上

語彙サイズを65,536から128,000トークンに拡張。注目すべきは、モデルをゼロから再学習させるのではなく、既存トークナイザーを拡張する手法を採用した点だ。新規トークンのエンベディング初期値はサブトークン分解の平均値で初期化し、2段階の適応学習（エンベディングのみ→フルモデルの継続事前学習）で品質を回復させている。

この変更でヒンディー語・タイ語・ベトナム語・インドネシア語・アラビア語での文字/トークン比が特に改善した。日本語・中国語・韓国語でも改善が見られており、アジア圏言語への対応が実用レベルに近づいている。

推論専用モデル（Reasoning-only）への転換

LFM2.5-8B-A1Bはチェーン・オブ・ソート（CoT）を強制するReasoning-onlyモデルになった。MoEアーキテクチャでは活性パラメータ数が少ない分、推論トークンのコストが相対的に低い。そのトレードオフを活かして、速度を犠牲にせず精度を底上げする戦略だ。

ベンチマーク結果が端的に成果を示している：

ベンチマーク LFM2-8B-A1B LFM2.5-8B-A1B 変化

AA-Omniscience Index -78.42 -24.70 +53.62

ハルシネーション非発生率 7.46% 63.47% +56pt

IFEval（指示追従） 79.44 91.84 +12.40

MATH500 74.80 88.76 +13.96

BFCL v3（ツール呼び出し） 45.07 64.36 +19.29

ハルシネーション非発生率が7%台から63%台へ急上昇しているのは特筆に値する。ツール呼び出し精度（BFCLv3/v4）の大幅改善も、エージェント用途での実用性向上を意味する。

推論ランタイムのday-oneサポート

公開初日からllama.cpp・MLX・vLLM・SGLangに対応。Apple SiliconでのMLX対応はmacOSユーザーが即日試せることを意味し、llama.cppのCPU動作により入門レベルのラップトップでも実行可能だ。

実務への影響——エッジAIエージェントの現実解として

オンプレミス・エアギャップ環境での活用が最も直接的な用途だ。医療・金融・製造など、クラウドに生データを送れない環境でも、128Kコンテキスト＋ツール呼び出し＋推論チェーンを備えたエージェントをローカルで動かせるようになる。

コスト削減の観点でも見逃せない。GPT-4やClaude系モデルのAPI費用が課題になっているチームにとって、自社サーバーや開発者のラップトップで動く8Bクラスの推論モデルは現実的な選択肢になりうる。

日本語対応の実用化も近づいている。語彙拡張により日本語トークン効率が改善したことで、日本語プロンプトでのコスト（トークン消費量）と応答精度の両方が改善することが期待できる。ただし実際の日本語QAベンチマークは公開されていないため、実運用前の検証は必須だ。

試し方は簡単で、HuggingFaceからモデルをダウンロードし、llama.cppまたはMLXで動かすだけ。ベースモデル（LFM2.5-8B-A1B-Base）とポストトレーニング済みモデルの両方が提供されており、ファインチューニングのドキュメントも整備されている。

筆者の見解

エッジAIの文脈で、このリリースには素直に注目している。「38Tトークン学習」「128Kコンテキスト」という数字だけ見れば大規模クラウドモデルの話に聞こえるが、それをMoEの効率性で1Bの活性パラメータに圧縮してラップトップで動かすというアプローチは技術的に興味深い。

特に「語彙をゼロから再学習せず既存トークナイザーを拡張する」手法は実用主義的な判断だ。再学習コストを節約しながら多言語対応を後付けで追加するこの設計思想は、リソース制約のある現場でのモデル開発・カスタマイズにも応用できる考え方だろう。

ハルシネーション非発生率が7%→63%という数字は驚異的に見えるが、測定条件がAA-Omniscience Indexという独自指標であることは割り引いて見る必要がある。実際のユースケースでこの数字が再現するかは、自分の手で試してみるしかない。「情報を追うより実際に使う」が今の正しい行動だと思っているので、このモデルもまず動かしてみるのが先だ。

AIエージェントが自律的にループで動き続ける「ハーネスループ」を組む上で、軽量かつ高精度なエッジモデルの選択肢が増えることは純粋に良いことだ。クラウドAPIに常時依存しないエージェント設計の可能性が広がる。Liquid AIはまだマイナーな存在だが、この方向性は注視していきたい。

出典: この記事は Liquid AI reveals 8B-A1B MoE trained on 38T の内容をもとに、筆者の見解を加えて独自に執筆したものです。

LFM2.5-8B-A1Bの主な変更点#

コンテキストウィンドウの4倍拡張#

語彙サイズを128Kに倍増——日本語を含む非ラテン文字の効率が向上#

推論専用モデル（Reasoning-only）への転換#

推論ランタイムのday-oneサポート#

実務への影響——エッジAIエージェントの現実解として#

筆者の見解#