Cactusが開発した26Mパラメータの関数呼び出し特化モデル「Needle」がオープンソース公開され、スマートフォンや時計・メガネといったコンシューマーデバイス上でもAIエージェントの中核機能を実用的な速度で動かせることが示された。

なぜこんなに小さいのか——「ツール呼び出しはReasoningではない」

Needleは、GeminiのツールコーリングCapabilityを蒸留して生まれた2,600万パラメータのモデルだ。一般的なLLM(数十億〜数百億パラメータ)と比べて桁違いに小さいが、その背景には明確な設計思想がある。

Cactusの主張はシンプルだ。「クエリに合ったツール名を探し、引数の値を抽出し、JSONを出力する」という作業は、推論(Reasoning)ではなく検索と組み立て(Retrieval-and-Assembly)である。この処理にはCross-Attentionが本質的に必要であり、FFN(Feed-Forward Network)層に詰め込まれた大量のパラメータは完全に無駄になるという。

そこでNeedleは「Simple Attention Networks(単純アテンションネットワーク)」というアーキテクチャを採用。エンコーダーとデコーダーからなる構造だが、MLPを一切排除しアテンションとゲーティングのみで構成されている(d=512、8ヘッド/4KVアテンション、BPE語彙数8192)。

性能と学習コスト

Needleの数字は説得力がある:

  • プリフィル速度:6,000 トークン/秒(コンシューマー端末上)
  • デコード速度:1,200 トークン/秒(コンシューマー端末上)
  • 事前学習:16台のTPU v6eで27時間(200Bトークン)
  • 後学習:わずか45分(合成データ2Bトークン)

ベンチマークでもFunctionGemma-270M、Qwen-0.6B、Granite-350M、LFM2.5-350Mをシングルショット関数呼び出しで上回った。ただし、Needleは会話能力や汎用推論を持たない。エージェント全体のオーケストレーターではなく「ツールルーター」として位置づけるのが正確だ。

RAGや検索拡張生成にも応用できる可能性

Cactusが示したもう一つの発見は、この知見の一般化だ。「外部の構造化知識が入力として提供される場合、モデルはFFNで事実を記憶する必要がない」という。RAG(Retrieval-Augmented Generation)のように外部知識をコンテキストとして与えるシステム全般に、同様のアーキテクチャが有効だという仮説を提示しており、追加の実験結果も近く公開予定とのことだ。

実務への影響——日本のエンジニアが明日から使えるヒント

エッジAIエージェントの2段構えアーキテクチャ:スマートフォンアプリやIoTデバイスでAIエージェント機能を実装する際、ツールルーティング専用に超軽量モデルを使い、複雑な推論はクラウド側の大型モデルに委ねるという分担が現実的になった。レイテンシと費用の両面でメリットがある。

ローカルでのファインチューニング:NeedleはMac/PCで自前データを使ってファインチューニング可能だ。社内固有のAPIやツール定義を学習させれば、社内AIアシスタントのツール呼び出し精度向上に活用できる可能性がある。


出典: この記事は Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model の内容をもとに、筆者の見解を加えて独自に執筆したものです。