3年前、「スマートフォンで言語モデルを動かす」といえば、学会発表用のデモ映像の世界だった。それが今や、数十億パラメータのモデルがフラッグシップスマートフォン上でリアルタイム動作する時代になった。Meta AIリサーチャーのVikas Chandra・Raghuraman Krishnamoorthi両氏による「On-Device LLMs: State of the Union 2026」は、この劇的な変化の背景と現状を実践的な視点から整理した技術レポートだ。
なぜオンデバイスか——4つの根拠
クラウドLLMではなく端末内で推論する理由は4点に集約される。
レイテンシ:クラウド経由だと最初のトークンが返ってくるまでに200〜500msかかる。ARオーバーレイ、リアルタイム翻訳、音声アシスタントでは、この遅延が致命的にユーザー体験を壊す。オンデバイスなら、特に短いコンテキストでは1トークンあたり20ms以下で生成できる。
プライバシー:デバイスから出ないデータは、転送中に盗まれることもサーバーにログされることもない。医療データ、金融情報など機微情報を扱うユースケースでは、これは単なるオプションではなく、規制上の要件になりつつある。
コスト:クラウド推論はクエリ単価が積み重なる。大量のリクエストが発生するアプリケーションでは、ユーザーがすでに持っているハードウェアに推論コストをオフロードできるオンデバイスの経済合理性は圧倒的だ。
可用性:電波の届かない場所、機内、地下でも動き続ける。クラウド依存は接続信頼性への依存と同義だ。
もちろん、フロンティアレベルの推論、広範な世界知識、長い多回話話会話が必要ならクラウドが依然として正解だ。だがレイテンシ重視・プライバシー重視・大量処理が必要なユースケースでは、オンデバイスが「現実的な選択肢」に入ってきた。
技術的ボトルネックは「メモリ帯域幅」
多くの人が誤解しているが、エッジデバイスの制約は「演算性能」ではない。現代のモバイルNPUは相当な性能を持っている。
- Apple A19 Pro Neural Engine:約35 TOPS
- Qualcomm Snapdragon 8 Elite Gen 5:約60 TOPS
- MediaTek Dimensity 9400+:約50 TOPS
これは2017年頃のデータセンターGPU(V100で125 TOPS)に迫る水準だ。
真のボトルネックはメモリ帯域幅にある。モバイルデバイスは50〜90 GB/s、データセンターGPUは2〜3 TB/sと、30〜50倍の差がある。LLM推論のデコードフェーズはメモリバウンドな処理なので、トークンを1つ生成するたびにモデルの重み全体をメモリからロードし直す。演算ユニットはメモリ待ちで遊んでいる状態だ。
だから「量子化」の効果が絶大になる。16ビットから4ビットへの量子化は単に4倍の省ストレージではなく、トークンあたりのメモリトラフィックを4分の1に削減し、それがスループット向上に直結する。さらに「複数トークンの並列予測」も、追加レイテンシなしに実効スループットを向上させる有力な手法として実用化されている。
もう一つの制約はRAM容量だ。ハイエンド端末でも、OSやほかのアプリとの共存を考えると実質的に使えるRAMは4GB未満になる。これはMoE(Mixture of Experts)アーキテクチャの適用に制限をかける要因でもある。
実務への影響——日本のエンジニア・IT管理者が知っておくべきこと
モバイルアプリ開発者:ユーザーへのAI機能提供において「クラウドAPI呼び出し一択」の時代は終わりつつある。Apple Core MLやQualcomm AI Engineのツールチェーンが成熟してきており、3B〜7Bクラスのモデルなら端末内推論が現実的なアーキテクチャ選択肢になった。ただし「TOPSが高ければ速い」は誤解。アテンション演算や動的形状のサポート、ツールチェーンの成熟度を必ず確認すること。
プライバシー・コンプライアンス担当者:医療・金融・法律など機微情報を扱うシステムで、「ユーザーのデータが端末外に出ない」という設計は規制対応の観点から非常に強力な武器になる。GDPR、個人情報保護法対応のアーキテクチャ設計でオンデバイスLLMを選択肢に加えるべきタイミングだ。
業務アプリ設計者:現場作業員向けアプリ(工場内、建設現場、医療現場)では電波が安定しないケースが多い。オンデバイスLLMによるオフライン推論は、そういった環境での音声入力・要約・分類に有力な解答になる。
コスト設計:クラウドLLMのAPI費用が高騰しているプロジェクトでは、処理をオンデバイスに移すことで劇的なコスト削減が可能な場合がある。ただし開発・デバッグのコストも考慮すること。
筆者の見解
Metaのリサーチャーによるレポートだが、内容はMeta固有の話というより、オンデバイスLLM全体の技術的な見通しをまとめたものとして読む価値がある。現状、ローカルLLMの選択肢は中国勢(Qwen、DeepSeekなど)も含めて急速に広がっており、Metaのモデルがその中でどこまで存在感を出せるかはまだ見えないが、こうした技術レポートを公開してくれること自体はありがたい。
オンデバイスLLM自体のトレンドは本物で、重要だ。
このレポートが指摘している「ボトルネックはコンピュートではなくメモリ帯域幅」という洞察は非常に鋭い。クラウドとの30〜50倍のメモリ帯域幅の差がある以上、モバイル向けLLMの最適化は「クラウドLLMの縮小版」ではなく、まったく別の設計思想が必要になる。量子化・スパース化・マルチトークン予測の組み合わせは、その設計思想の答えの一つだ。
日本のIT業界で気になるのは、「クラウドLLM API呼び出し」か「LLM禁止」の二択で思考停止している企業がまだ多いことだ。オンデバイスはその中間にある第三の選択肢で、プライバシーとコストの両面で合理的なケースが確実にある。「データを外に出したくないからAIは使えない」という理由で諦めていた組織は、今すぐ選択肢を再評価すべきだ。
AIは端末の中に入ってきた。クラウドに頼らず、オフラインで、プライベートに動くAIが現実になりつつある。この変化を「スマホのちょっとした機能向上」と見ているなら、大きく出遅れることになる。
出典: この記事は On-Device LLMs: State of the Union 2026 – Meta AI Research の内容をもとに、筆者の見解を加えて独自に執筆したものです。