Intel、ローカルAIエージェント向けQwen3-8Bを最大1.4倍高速化
Intelのエンジニアチームは、Hugging Faceのブログにて、Intel® Core™ Ultra(開発コード名:Lunar Lake)の内蔵GPUを使ってQwen3-8Bの推論を最大1.4倍高速化する手法を発表した。OpenVINO.GenAIを基盤に、推測デコーディング(Speculative Decoding)と独自のレイヤー刈り込み(深度プルーニング)技術を組み合わせた成果だ。
Qwen3-8Bとエージェント用途
Qwen3-8Bは、Alibaba Cloudが開発したQwenファミリーの最新モデルで、ツール呼び出し・多段階推論・長文コンテキスト処理などエージェント向けの能力を標準で備える。Hugging Faceのsmolagents、QwenAgent、AutoGenといったフレームワークと組み合わせることで、幅広いAIエージェントアプリケーションを構築できる。
チャットボットと異なり、エージェントアプリケーションはモデルが「思考過程」をトークンとして出力しながら動作するため、トークン消費量が多く、推論速度がユーザー体験に直結するという特性がある。ローカルPC(AIPC)で高品質なエージェントを動かすには、いかに推論を高速化するかが課題だ。
推測デコーディングによる1.3倍高速化
まず基盤として、4ビット量子化されたQwen3-8BのOpenVINOモデルをLunar Lake内蔵GPUで動作させ、ベースラインを測定した。
その上で適用したのが推測デコーディングだ。この手法では、軽量な「ドラフトモデル」が複数のトークン候補を一度に生成し、それを大型の「ターゲットモデル」が一括検証することで、自己回帰的な生成ループのオーバーヘッドを削減できる。今回はQwen3-0.6Bをドラフトモデル、Qwen3-8Bをターゲットモデルとして組み合わせ、平均1.3倍の高速化を達成した。
コードはopenvino_genaiのLLMPipelineにdraft_model引数を渡すだけで利用できるシンプルな実装だ。
深度プルーニングでさらに1.4倍へ
推測デコーディングの高速化率は、ドラフトモデルの速度と精度のバランスに依存する。そこでIntelは、ドラフトモデルそのものを軽量化するアプローチを採用した。
具体的には、各レイヤーブロックの出力を角距離(Angular Distance)で評価し、モデルの精度への寄与が小さいブロックを特定して除去する。プルーニング後はファインチューニングで精度を回復させる。この手法により、Qwen3-0.6Bをさらに小型化しつつ品質を維持することに成功し、最終的に1.4倍の高速化を実現した。
smolagentsでのローカルエージェント実装
高速化された推論パイプラインは、Hugging Faceのsmolagentsと組み合わせることで、インターネット接続不要のローカルAIエージェントとして動作する。プライバシーを重視するユースケースや、クラウドAPIのレイテンシが問題になるシナリオでの活用が期待される。
日本への示唆
国内でもAIPC向けのローカルLLM活用は注目されており、Intel Core Ultra搭載機は多数流通している。今回の手法はOSSとして公開されており、OpenVINOモデルのダウンロードリンクも提供されているため、既存のハードウェアで今すぐ試せるのが大きな利点だ。エンタープライズ向けのオンプレミスAIエージェント構築にも応用できる技術として注目したい。
元記事: Accelerating Qwen3-8B Agent on Intel® Core™ Ultra with Depth-Pruned Draft Models