「最新フラッグシップだけのもの」という常識が崩れる
スマートフォン上でLLM(大規模言語モデル)を動かすと聞けば、最新ハイエンド機の強力なCPU・GPU・NPUを思い浮かべるのが自然だろう。しかし、Armと Meta が共同で進める ExecuTorch 0.7 の登場により、その前提が大きく揺らいでいる。発売から3〜5年が経過したAndroidデバイスや、シングルボードコンピュータの定番 Raspberry Pi 5 でさえ、Llama 3.2を実用的な速度で動かせるようになってきたのだ。
カギを握る「SDOT命令」――2015年から静かに普及していた技術
今回の躍進を支えるのが、SDOT(Signed Dot Product)命令だ。Armv8.2アーキテクチャで導入されたこの命令は、8ビット整数ベクトルのドット積演算を効率よく実行できる。LLMの推論処理の大半を占める行列乗算は、内部的に膨大なドット積の繰り返しで成り立っており、SDOTはまさにその中核を加速する。
SDOTは実は2015年から順次Arm CPUに搭載されており、現時点で 約30億台のArmベースデバイス が対応済み。全デバイスの72%がすでにこの命令をサポートしている計算になる。「最新チップ専用の機能」ではなく、手元にある大多数のスマートフォンに眠っていた能力だ。
KleidiAI × ExecuTorchで「設定不要の高速化」を実現
ArmのAIアクセラレーション層である KleidiAI は、XNNPack・MediaPipe・MNN・ONNX Runtime・llama.cppといった広く使われるEdge AIフレームワークに組み込まれ、開発者がコードを変更することなく性能向上を届けてきた。
そのKleidiAIが、次期 ExecuTorch 0.7ベータ版でデフォルト有効化 される。AndroidおよびクロスプラットフォームのアプリはExecuTorchとXNNPack経由でKleidiAIの最適化を自動的に享受でき、モデルの起動高速化・低レイテンシー・メモリフットプリント削減が「箱から出してすぐ」手に入る。
昨年公開の量子化Llama 3.2 1Bでは、I8MM機能(Armv8.6以降)を活用したInt4行列乗算の最適化により、Galaxy S24+においてKleidiAI非適用比で プリフィル性能が20%以上向上 した実績がある。数値に換算すると、プリフィル時に毎秒350トークン超、デコード時に毎秒40トークン超という水準で、未読メッセージの要約といったオンデバイスタスクをスムーズにこなせる性能だ。
日本市場への示唆
日本でも中古スマートフォン市場は拡大しており、数年前のAndroidデバイスを使い続けるユーザーは少なくない。ExecuTorch 0.7の登場は、こうしたデバイスでもプライバシー保護・オフライン動作・低遅延というオンデバイスAIの恩恵を受けられる可能性を広げる。IoT・産業機器向けにRaspberry Piを活用している現場にとっても、クラウドAPI不要で動くLLMの実装コストが大幅に下がることを意味する。
まとめ
ArmのKleidiAIとExecuTorchの統合は、ジェネレーティブAIの「動作する土台」を一気に広げる可能性を秘めている。性能競争が続くハイエンド端末だけでなく、すでに世界中に出回っている数十億台のデバイスをAIの活用フィールドに変える動き——その第一歩として、ExecuTorch 0.7のリリースは注目に値する。
元記事: Arm & ExecuTorch 0.7: Bringing Generative AI to the masses