240Wで700Bモデルを推論──Skymizerの「HTX301」が示すオンプレAI推論の可能性

台湾のAIチップ設計企業・Skymizerが、推論に特化した独自アーキテクチャ「HyperThought」を搭載したAIアクセラレータチップ「HTX301」を4月23日（台湾時間）に発表した。PC Watchが報じたこの発表によると、HTX301を6基搭載し384GBのメモリを集約したPCIeカード1枚で、700Bパラメータの大規模言語モデル（LLM）を約240Wという電力で推論処理できるという。

なぜこの製品が注目か

700Bクラスのモデルといえば、これまでNVIDIAのH100を複数枚積んだ大規模クラスタが必要で、電力消費も桁違いになるのが常識だった。HTX301が示す「PCIeカード1枚・約240W」という数字が事実であれば、推論インフラのコスト構造を根本から変える可能性がある。

クラウドのAPIに依存せず、自社データセンターや中規模オンプレ環境でも大規模モデルを動かせるという選択肢は、特にデータ主権やコスト予測の観点で企業に大きな意味を持つ。

HyperThoughtアーキテクチャの要点

PC Watchの報道によると、HyperThoughtは以下の特徴を持つ推論特化設計だ。

プリフィルとデコードの分離: 2つのワークロードを切り離し、デコード優先のシリコン設計を採用
LPDDR4/5メモリ対応: 高価なHBMではなく標準的なメモリを使用できるよう最適化。100GB/sの帯域下で0.5TOPSの処理能力により30トークン/秒を実現
重み圧縮の優位性: オープンソースの「llama.cpp」と比較して9〜17.8%優れた重み（長期記憶）圧縮を実現
KVキャッシュ圧縮: 短期記憶にあたるKVキャッシュもパープレキシティ損失を0.06〜3.52%未満に抑えて圧縮
LISA v3 ISA採用: 独自命令セットアーキテクチャにより、デバイス内からオンプレミスまでシームレスに拡張可能
製造プロセス: T28nm

モデル規模は4Bから700Bまで対応しており、企業が「過剰なプロビジョニングなしに適切な規模で展開できる」点も訴求ポイントとされている。

日本市場での注目点

現時点では日本国内の販売情報・価格は公開されていない。台湾発のスタートアップ製品であり、国内代理店経由での入手には時間がかかる可能性が高い。競合としてはIntelのGaudi 3やAMDのInstinct MI300Xがあるが、HTX301はコンシューマー向けのLPDDR5メモリを前提とした独自の低消費電力アプローチで差別化を図っている点が興味深い。

オンプレミスでの大規模モデル推論に関心を持つ企業・研究機関にとって、「クラウドAPIのトークン課金から脱却できるか」は切実な問いだ。HTX301はその解のひとつとなり得る候補として、今後の実機評価レポートが待たれる。

筆者の見解

「トークン課金のクラウドに依存しない」というSkymizerのメッセージは、AI活用の本質を突いている。現状、企業がAIをアプリケーション全体に組み込もうとすると、クラウドAPIのコストが想定を大きく超えるケースが多い。それが「AIを試した、でもコストが合わない」という結論につながり、活用が止まる——この悪循環を断ち切る鍵のひとつが、オンプレ推論のコスト競争力だ。

AIエージェントが自律的にループで動き続けるような設計、つまり単発の指示応答ではなくエージェントが継続的に判断・実行・検証を繰り返す仕組みを作ろうとすると、クラウドAPIの従量課金は根本的な制約になる。HTX301のようなアプローチが実用レベルに達すれば、そうした自律エージェントの設計が格段に現実的になる。

もっとも、スペック上の数字と実際の運用性能は別の話だ。28nmプロセスという製造世代の古さ、llama.cppとの比較という評価基準の選び方、独自ISAのエコシステム成熟度など、実運用に踏み切る前に確認すべき点は少なくない。発表から実製品への距離を慎重に見極めつつ、今後の独立した評価レポートに注目したい。

出典: この記事は Skymizer、700BのLLMを約240Wで推論できるAIアクセラレータの内容をもとに、筆者の見解を加えて独自に執筆したものです。

なぜこの製品が注目か#

HyperThoughtアーキテクチャの要点#

日本市場での注目点#

筆者の見解#

なぜこの製品が注目か

HyperThoughtアーキテクチャの要点

日本市場での注目点

筆者の見解