Intel Core Ultra上でQwen3-8Bエージェントを最大1.4倍高速化——深度プルーニングで推測デコーディングを強化

Intel、ローカルAIエージェント向けQwen3-8Bを最大1.4倍高速化

Intelのエンジニアチームは、Hugging Faceのブログにて、Intel® Core™ Ultra（開発コード名：Lunar Lake）の内蔵GPUを使ってQwen3-8Bの推論を最大1.4倍高速化する手法を発表した。OpenVINO.GenAIを基盤に、推測デコーディング（Speculative Decoding）と独自のレイヤー刈り込み（深度プルーニング）技術を組み合わせた成果だ。

Qwen3-8Bとエージェント用途

Qwen3-8Bは、Alibaba Cloudが開発したQwenファミリーの最新モデルで、ツール呼び出し・多段階推論・長文コンテキスト処理などエージェント向けの能力を標準で備える。Hugging Faceのsmolagents、QwenAgent、AutoGenといったフレームワークと組み合わせることで、幅広いAIエージェントアプリケーションを構築できる。

チャットボットと異なり、エージェントアプリケーションはモデルが「思考過程」をトークンとして出力しながら動作するため、トークン消費量が多く、推論速度がユーザー体験に直結するという特性がある。ローカルPC（AIPC）で高品質なエージェントを動かすには、いかに推論を高速化するかが課題だ。

推測デコーディングによる1.3倍高速化

まず基盤として、4ビット量子化されたQwen3-8BのOpenVINOモデルをLunar Lake内蔵GPUで動作させ、ベースラインを測定した。

その上で適用したのが推測デコーディングだ。この手法では、軽量な「ドラフトモデル」が複数のトークン候補を一度に生成し、それを大型の「ターゲットモデル」が一括検証することで、自己回帰的な生成ループのオーバーヘッドを削減できる。今回はQwen3-0.6Bをドラフトモデル、Qwen3-8Bをターゲットモデルとして組み合わせ、平均1.3倍の高速化を達成した。

コードはopenvino_genaiのLLMPipelineにdraft_model引数を渡すだけで利用できるシンプルな実装だ。

深度プルーニングでさらに1.4倍へ

推測デコーディングの高速化率は、ドラフトモデルの速度と精度のバランスに依存する。そこでIntelは、ドラフトモデルそのものを軽量化するアプローチを採用した。

具体的には、各レイヤーブロックの出力を角距離（Angular Distance）で評価し、モデルの精度への寄与が小さいブロックを特定して除去する。プルーニング後はファインチューニングで精度を回復させる。この手法により、Qwen3-0.6Bをさらに小型化しつつ品質を維持することに成功し、最終的に1.4倍の高速化を実現した。

smolagentsでのローカルエージェント実装

高速化された推論パイプラインは、Hugging Faceのsmolagentsと組み合わせることで、インターネット接続不要のローカルAIエージェントとして動作する。プライバシーを重視するユースケースや、クラウドAPIのレイテンシが問題になるシナリオでの活用が期待される。

日本への示唆

国内でもAIPC向けのローカルLLM活用は注目されており、Intel Core Ultra搭載機は多数流通している。今回の手法はOSSとして公開されており、OpenVINOモデルのダウンロードリンクも提供されているため、既存のハードウェアで今すぐ試せるのが大きな利点だ。エンタープライズ向けのオンプレミスAIエージェント構築にも応用できる技術として注目したい。

元記事: Accelerating Qwen3-8B Agent on Intel® Core™ Ultra with Depth-Pruned Draft Models

Intel、ローカルAIエージェント向けQwen3-8Bを最大1.4倍高速化#

Qwen3-8Bとエージェント用途#

推測デコーディングによる1.3倍高速化#

深度プルーニングでさらに1.4倍へ#

smolagentsでのローカルエージェント実装#

日本への示唆#