Generative-Ai

iPhone 17 ProでなんとLLM 400Bが動作——オンデバイスAIの常識を覆すデモが話題に

iPhone 17 Proで400Bパラメータ級LLMが動作——オンデバイスAIの限界を更新 Apple製デバイス向けLLM推論プロジェクト「ANEMLL（Apple Neural Engine Machine Learning）」が、iPhone 17 Proで4000億（400B）パラメータ規模の大規模言語モデル（LLM）を動作させるデモ映像を公開し、開発者コミュニティで大きな反響を呼んでいる。Hacker Newsでは370ポイント以上を獲得し、200件超のコメントが集まった。 400Bとはどれほど巨大か 400Bパラメータというのは、現時点で公開されている最大クラスのオープンモデルと肩を並べる規模だ。たとえばMeta社のLlama 3.1の最大モデルが405Bであり、数年前まで「クラウド専用」の代名詞だった規模感である。これをデータセンターのGPUクラスタではなく、ポケットに入るスマートフォン1台で動かすという試みは、エッジAIの文脈において革命的な意味を持つ。 ANEMLLが活用するApple Neural Engine ANEMLLは、iPhoneおよびiPad・Mac搭載のApple Siliconに内蔵される「Apple Neural Engine（ANE）」を最大限活用するためのLLM推論フレームワークだ。ANEはCPU・GPUとは独立した専用演算ユニットであり、行列演算を高効率・低電力で処理できる。通常のLLMフレームワークがCPUやGPUを主に使うのに対し、ANEMLLはANEに最適化したモデル変換と推論パイプラインを独自に構築している。今回のデモでは、4ビット量子化（INT4）などのモデル圧縮技術と、Apple Siliconの統合メモリアーキテクチャを組み合わせることで、超大規模モデルをオンデバイス推論可能にしていると考えられる。iPhone 17 Proは前世代から大幅に増強されたメモリ容量と改良されたANEを搭載しており、こうした試みを可能にするハードウェア基盤が整ってきた形だ。プライバシーとレイテンシの観点からオンデバイスでLLMが動作することの意義は、単なる技術的な面白さにとどまらない。クラウドにテキストを送信せずに処理できることはプライバシー保護に直結し、ネットワーク遅延も排除できる。医療・法律・金融といった機密性の高い業務や、オフライン環境でのAI活用にも道が開ける。日本国内でも個人情報保護法や各種業界ガイドラインの観点から「クラウドに社内データを送りたくない」というニーズは強い。大規模モデルのオンデバイス化が実用レベルに達すれば、エンタープライズ向けモバイルAIの設計思想そのものが変わりうる。現時点での課題 Hacker Newsのコメント欄では「推論速度はどの程度か」「トークン生成レートが実用域に達しているか」を問う声が多く上がっている。400Bモデルを数ビット量子化しても必要なメモリ帯域幅は膨大であり、現状では応答速度に制約があることが予想される。デモがどの程度の実用性を示しているかは、続報を待つ必要がある。とはいえ、わずか数年前には「スマートフォンでGPT-2クラスすら動かない」とされていた時代から、今や400B規模のデモが登場するまでに至った進化の速度は驚異的だ。ANEMLLの取り組みは、オンデバイスAIの可能性を再定義する一石として記憶されることになりそうだ。元記事: iPhone 17 Pro Demonstrated Running a 400B LLM

兄の整備工場のために「AIフロント係」を自作した話——RAG＋音声AIで取り逃がし客をゼロに

月数十万円の機会損失を「AIフロント係」で解決する兄が高級車専門の整備工場を経営しているが、毎週数百件もの電話に出られず、月に数千ドル相当の受注機会を逃していた。エンジンルームに頭を突っ込んでいる最中に電話が鳴り、出られなければ客は他店へ電話する。ブレーキ交換なら450ドル、エンジン修理なら2,000ドルの案件が、電話一本で消えていく。そこで筆者が自作したのが、AIボイスエージェント「Axle（アクスル）」だ。車の車軸（axle）にちなんだ名前で、単なる汎用チャットボットではなく、工場の正確な料金・営業時間・ポリシーを把握した専用の音声受付システムである。 Part 1：AIの「脳」をRAGパイプラインで構築する最初の課題は、AIがハルシネーション（事実に基づかない回答）なく正確に答えられるかだ。素のLLMに「ブレーキはいくら？」と聞かせると、実際は450ドルなのに200ドルと答えかねない。これは顧客の期待を裏切り、クレームに直結する。これを防ぐために採用したのが**RAG（Retrieval-Augmented Generation：検索拡張生成）**だ。モデルに推測させるのではなく、実際の情報をナレッジベースとして与え、そこからのみ回答させる仕組みである。実装ステップ ① ウェブサイトをスクレイピングしてナレッジベース化サービスページや料金表をMarkdownファイルとして収集。サービス種別・料金・納期・営業時間・支払い方法・キャンセルポリシー・保証・代車有無・対応車種など、21以上のドキュメントを整備した。 ② MongoDB AtlasにベクトルDBとして格納各ドキュメントをVoyage AI（voyage-3-large）で1024次元のベクトルに変換して格納。単なるキーワード一致ではなく「意味的な近さ」で検索できるため、「ブレーキ交換の値段は？」という問いかけが、文言が異なっていても正確にブレーキ料金ドキュメントを引き当てられる。 ③ Claude（Sonnet）で回答生成取得したドキュメントをコンテキストとしてAnthropic Claude（claude-sonnet-4-6）に渡し、「ナレッジベースにある情報のみで答え、知らなければ折り返し連絡を申し出る」という厳格なシステムプロンプトで制御する。この段階でターミナルから質問を入力すると、「オイル交換はいくら？」→「conventional（鉱物油）は45ドル、synthetic（化学合成油）は75ドルです。フィルター交換・液体補充・タイヤ空気圧チェック込みで約30分です」という正確な回答が返るようになった。 Part 2：実際の電話番号と接続する次に、このAIを実際の電話回線につなぐためVapiを採用した。Vapiは電話番号の取得・音声認識（Deepgram）・音声合成（ElevenLabs）・リアルタイム関数呼び出しをすべて担う音声AIプラットフォームだ。筆者はFastAPIでWebhookサーバーを構築。顧客が質問するとVapiがサーバーの/webhookエンドポイントにリクエストを送り、サーバーがRAGパイプライン経由でClaudeに問い合わせて回答を返す。Vapiはその回答を音声合成して顧客に話しかける、というフローだ。技術スタックのまとめ役割採用技術ナレッジベース検索 MongoDB Atlas Vector Search 埋め込みモデル Voyage AI（voyage-3-large） LLM Anthropic Claude（claude-sonnet-4-6）音声インフラ Vapi（Deepgram + ElevenLabs）バックエンド FastAPI（Python）このようなRAG＋音声AIの組み合わせは、中小規模の対人サービス業（飲食店・クリニック・不動産など）でも応用可能だ。電話対応の人手不足に悩む日本の事業者にとっても、参考になる実装アプローチといえる。元記事: I built an AI receptionist for a mechanic shop

Google、Gemini 3.1 Flash-Liteを公開——応答速度2.5倍・出力45%高速化でコスト重視の本番環境向けに

Google、Gemini 3.1 Flash-Liteを開発者向けAPIに正式公開 Googleは2026年3月3日、Gemini APIのリリースノートにて「Gemini 3.1 Flash-Lite Preview」の提供開始を発表した。これはGemini 3シリーズにおける初のFlash-Liteモデルであり、処理速度とコスト効率を最大化した設計が特徴となっている。主要スペック：スピード重視の効率特化型公開された情報によると、Gemini 3.1 Flash-Liteは以前のGeminiバージョンと比較して以下の改善を実現している。応答速度（Time to First Token）：2.5倍高速化出力生成速度（Output Generation）：45%高速化この性能向上は、大量のリクエストをさばく必要があるプロダクション環境や、レイテンシが重視されるリアルタイムアプリケーションへの適用を強く意識したものだ。Googleは「コスト重視のユースケース向け高効率モデル」と位置づけており、API利用コストを抑えながらスケールアウトしたい開発者・企業に向いている。 Gemini APIをめぐる最近の動き今回の発表に前後して、Gemini APIには複数の重要なアップデートが加えられている。新機能の追加（2026年3月） Built-in Tools + Function Calling の組み合わせ機能（3月18日）：Gemini組み込みツールとカスタム関数呼び出しを単一のAPIコールで同時利用できるようになった。エージェント型アプリケーション開発の幅が大きく広がる Grounding with Google Maps（3月18日）：Gemini 3シリーズでのGoogle Maps連携グラウンディングが解禁 gemini-embedding-2-preview（3月10日）：テキスト・画像・動画・音声・PDFをひとつの埋め込み空間にマッピングするマルチモーダル埋め込みモデルを初公開廃止・終了スケジュール gemini-2.5-flash-lite-preview-09-2025：2026年3月31日にシャットダウン予定 gemini-2.0-flash / gemini-2.0-flash-lite 系：2026年6月1日にシャットダウン予定 Gemini 2.x系モデルのサポート終了が続いており、開発者はGemini 3系への移行計画を早めに立てておく必要がある。日本の開発者への影響国内でもAI機能の組み込みを進めるサービスは増加しており、APIコストとレスポンス速度はプロダクトの競争力に直結する。Gemini 3.1 Flash-Liteのような効率特化型モデルの登場は、大規模リクエストを扱うチャットボット・文書要約・コンテンツ生成パイプラインなどへの導入障壁を下げる可能性がある。モデルの詳細スペックと開発者向けガイダンスはGoogle AI StudioおよびGemini APIドキュメントで確認できる。元記事: Google Releases Gemini 3.1 Flash-Lite: 2.5× Faster Response, 45% Faster Output

Claude Opus 4.6がSWE-Bench Verifiedで81.4%を達成——GPT-5.4・Gemini 3.1 Proとの三つ巴対決、勝者は「タスク次第」

3社の最新AIが28日で出揃った——「最強モデル」の概念が崩壊 2026年2月〜3月の28日間で、Anthropic・Google・OpenAIの3社がそれぞれのフラッグシップモデルを相次いでリリースした。Claude Opus 4.6（2月5日）、Gemini 3.1 Pro（2月19日）、GPT-5.4（3月5日）——いずれも100万トークンのコンテキストウィンドウを備え、しかし三者三様の「賭け」に出ている。 1年前であれば「総合最強」を名乗れるモデルが存在した。その時代は終わった。各モデルが異なるベンチマークで首位に立ち、ユーザーは「ブランド」ではなく「タスク」でモデルを選ぶ時代になっている。コーディング領域：AnthropicのClaude Opus 4.6が制すソフトウェアエンジニアリングの実力を測る SWE-Bench Verified では、Claude Opus 4.6が**81.4%**を記録し、Gemini 3.1 Proの80.6%をわずかに上回った。GPT-5.4はより難易度の高い「SWE-bench Pro」での比較を選択しており、直接比較では明らかにClaudeがリードしている。さらに注目すべきは、Anthropicが公表した METR Time Horizon（自律的なエージェントタスクをどれだけ継続できるか）の数値だ。Claude Opus 4.6は14.5時間のタスクホライズンを達成。これは長時間の自律コーディングエージェントとして実用に耐えることを意味し、GitHub Copilotなどのコーディング支援ツールと競合するAIエージェント製品の選定基準として注目される。推論・科学系：Gemini 3.1 Proが圧倒的抽象的推論を測る ARC-AGI-2 でGemini 3.1 Proは**77.1%を記録した。前世代から31.1%ポイントという驚異的な向上幅だ。博士レベルの科学知識を問う GPQA Diamond では94.3%**と、現在公開されているスコアの中で最高値を叩き出している。 Googleが推論に注力した背景には、OpenAIとAnthropicがともに入力100万トークンあたり$5〜$15を課金するなか、Gemini 3.1 Proを**$2/M**という破格の価格設定で投入したという戦略がある。高性能かつ低コストという訴求で、大量処理を必要とするエンタープライズ用途を取り込む狙いが透けて見える。 PC操作・知識作業：GPT-5.4が人間を超えた OpenAIの最大の賭けは「コンピュータ操作（Computer Use）」のネイティブ対応だ。デスクトップ操作能力を評価する OSWorld-Verified でGPT-5.4は**75.0%**を記録。人間の専門家ベースライン72.4%を超えた——汎用AIが初めてPC操作で人間を上回った瞬間だ。Claude Opus 4.6も72.7%と肉薄しているが、ファーストムーバーの優位はOpenAIにある。知識作業の生産性評価 GDPval でもGPT-5.4は**83.0%**とリードしており、弁護士・コンサルタント・アナリストなどホワイトカラー業務の自動化においてOpenAIが強みを持つ。日本の開発者・企業への示唆三モデルの比較から読み取れる実用的な選択指針をまとめると以下のとおりだ。用途推奨モデルコーディング・エージェント開発 Claude Opus 4.6 科学・学術・複雑な推論タスク Gemini 3.1 Pro PC操作自動化・業務プロセス自動化 GPT-5.4 コスト最優先の大量処理 Gemini 3.1 Pro 日本市場でも、GitHub CopilotやClaude Codeなどのコーディング支援ツールを評価・導入する企業が増えている。今回のベンチマーク結果は、特にソフトウェア開発チームの採用判断に直接影響を与えるだろう。 ...

Google vs OpenAI「スーパーアプリ」戦争勃発——AI Studio全面刷新とChatGPT統合の全貌

GoogleとOpenAIが同日、「スーパーアプリ」構想を相次ぎ発表 2026年3月、GoogleとOpenAIがほぼ同じタイミングで、AI開発ツールの大規模統合計画を打ち出した。両社の動きは、単なる機能追加にとどまらず、開発者の「日常的な作業場所」をめぐる覇権争いの様相を呈している。 Google AI Studio、ただの「プロンプト遊び場」から脱却 Googleは「Google AI Studio」を全面刷新し、フルスタックのアプリ開発環境へと進化させた。これまでのAI Studioは、Geminiモデルを試すためのプレイグラウンドにとどまり、データベース接続やユーザー認証といった実用的な機能を持っていなかった。新バージョンでは、GoogleのAntigravityコーディングエージェントが中核を担い、自然言語でアプリの要件を記述するだけでデプロイ可能なアプリが生成される。いわゆる「バイブコーディング（Vibe Coding）」——平易な英語で意図を伝えるとAIがコードを書いてくれる手法——の本格実装だ。注目すべきは、Googleのデータベース・認証基盤であるFirebaseとの自動統合だ。アプリがユーザーアカウントやデータストレージを必要とする場合、AIが自動的に検知してセットアップまで行う。Google AI Studio責任者のLogan Kilpatrick氏によると、今後はGoogle Workspace（DriveやSheets）との統合、決済システムや外部データソースへの接続も予定されている。 Googleは合わせて、macOS向けのGeminiデスクトップアプリのテストも開始。ChatGPTやClaudeのデスクトップアプリに対抗する姿勢を明確にした。 OpenAIはChatGPT・Codex・Atlasを1本化、さらにAstralを買収同日、OpenAIはChatGPT、Codex、Atlasの3サービスを統合した単一のデスクトップ「スーパーアプリ」を開発中であることを明らかにした。これまで用途別に分散していたAIツールを1つの窓口に集約する狙いだ。さらに、Pythonエコシステムで広く使われているリンター「Ruff」や高速パッケージマネージャー「uv」を開発したAstral社の買収も発表した。PythonはAI開発の主要言語であり、開発ツールチェーンへの投資は、AIエンジニアの取り込みを強化する戦略とみられる。 Cursorは独自モデルで「Claude超え」を主張 AIコーディングツール「Cursor」も、新機能「Composer 2」を発表。自社開発のコーディング専用モデルが、コストをClaude Opus 4.6比で86%削減しつつ性能で上回ると主張している。大手AI企業だけでなく、専業ツールベンダーも独自モデル開発に乗り出しており、競争はさらに激化している。日本の開発者への影響これらのツールは日本の開発者にも直接関係する。Google AI Studioは無料枠でも利用可能であり、Firebase統合による迅速なプロトタイピングは個人開発者やスタートアップにとって大きな恩恵となりうる。一方、OpenAIのスーパーアプリ統合が完成すれば、コーディング・チャット・エージェントの切り替えなく一元的に扱える環境が整う。 AI開発ツールの「オールインワン化」という潮流は、2026年以降の開発体験を根本から変える可能性がある。元記事: Anthropic Announces the Anthropic Institute – Research into Societal and Security Impacts of AI

CloudflareがAI自律コードレビューエージェント「Bonk」を公開――Kimi K2.5ベース、小規模チームの開発フローに直接統合

Cloudflareが自律コードレビューエージェント「Bonk」を公開 Cloudflareは2026年3月、GitHub向けの自律コードレビューエージェント「Bonk」をリリースした。中国のAIスタートアップMoonshotが開発したKimi K2.5をベースモデルとして構築されており、専任のコードレビュアーを置けない小規模チームでも、既存の開発ワークフローにシームレスに統合できる点が特徴だ。「インフラ企業」がAIエージェント提供者へ Bonkの登場は、CloudflareがCDN・セキュリティ企業の枠を超え、AIエージェントの提供者としても台頭していることを示す象徴的な動きだ。Pull Requestのレビュー依頼をトリガーとして自動起動し、コードの問題点や改善提案をコメントとして返す仕組みを持つとされる。大手クラウド・インフラ企業がAIエージェントをプロダクトとして提供し始めるトレンドは、OpenAIやAnthropicといった純粋なAIラボとは異なる競争軸を生み出している。既存のインフラとの親和性を武器に、エンタープライズ市場への浸透を狙う構図だ。 AI業界全体の「静かな移行期」 Bonkがリリースされた2026年3月19日前後、OpenAI・Google DeepMind・Anthropic・Metaはいずれもフラッグシップモデルのリリースを行っていない。しかしこれは「停滞」ではなく、業界がモデル発表フェーズからデプロイメント・統合フェーズへ移行していることを示すサインだと見る向きが強い。直近のリリースでは、OpenAIのGPT-5.4 miniが無料ユーザー向けのデフォルトとして急速に普及し、AnthropicのClaude（Sonnet系）はコーディングベンチマークで高評価を維持している。一方でDeepSeekの新バージョンが大規模コンテキストウィンドウを引っ提げて静かにテスト段階に入っているとも報じられている。 NVIDIAは「フィジカルAI」に照準モデルリリースが一服する中、GTC 2026においてNVIDIAはフィジカルAI（物理空間と連携するAI）への大型投資を表明した。ヒューマノイドロボット向け基盤モデル「GR00T N1.7」や、Blackwellチップ向けに最適化されたハイブリッドモデル「Nemotron 3 Super」、通信大手Nokiaとの協業による「AI-RAN」など、テキスト処理にとどまらない実世界への展開を加速させている。法的・規制面でも業界再編の動き注目すべき動きとして、米国当局がAnthropicを「安全保障上の懸念」と指摘した法的局面で、競合にあたるOpenAI・Google・Microsoftの関係者が法廷文書でAnthropicを支持する異例の事態が発生した。AI業界の競争が「企業対企業」から「業界対規制当局」という新たな構図に移りつつあることを示す出来事として注目されている。 Bonkのような実用的なAIエージェントが大手インフラ企業から続々と登場し始めた今、開発現場でのAI活用は「実験」から「日常業務への統合」フェーズへと確実に移行している。元記事: Cloudflare Releases ‘Bonk’ – Autonomous Code Review Agent Built on Kimi K2.5

Alibaba「Qwen 3.5 Small」90億パラメータで1200億級モデルに匹敵──小型モデル革命が加速

90億パラメータが「巨人」に挑む──Qwen 3.5 Smallの衝撃 Alibabaが開発するオープンソースLLMシリーズ「Qwen（千問）」の最新モデルQwen 3.5 Smallが、AIコミュニティに大きな衝撃を与えている。パラメータ数わずか90億（9B）でありながら、科学・医学・工学の専門知識を問う難関ベンチマークGPQA（Graduate-Level Google-Proof Q&A）ダイヤモンドにおいて、1,200億（120B）パラメータ規模のモデルと同等の性能スコアを記録したのだ。 GPQAダイヤモンドとは何か GPQAダイヤモンドは、生物学・化学・物理学の博士課程レベルの問題で構成される評価セットで、Googleによる検索でも簡単には正解できないよう設計されている。現在、AIモデルの「真の推論能力」を測る指標として業界標準的な位置づけを獲得しており、このベンチマークでの高スコアは単純な暗記や検索ではなく、深い概念理解を示す証左とされる。従来、このクラスのベンチマークで高得点を出すには、GPT-4oやClaude 3 OpusといったフロンティアモデルやMetaのLlama 3.1 405Bのような超大型モデルが必要とされていた。Qwen 3.5 Smallはその常識を覆した形だ。なぜ小型モデルがここまで強くなれたのか背景には、ポストトレーニング技術の急速な進化がある。2026年時点で主流となっているのは、従来のRLHF（人間フィードバックによる強化学習）に代わる新世代手法群だ。 GRPO（Group Relative Policy Optimization）：グループ単位での相対評価による効率的な強化学習 DAPO（Direct Alignment from Preference Optimization）：人間の選好データを直接活用した整合化 RLVR（Reinforcement Learning from Verifiable Rewards）：検証可能な報酬信号による強化学習これらの手法は、モデルの「思考プロセス」を洗練させることに特化しており、パラメータ数を増やさずとも推論品質を飛躍的に向上できる。いわば「筋肉量より神経効率」を鍛えるアプローチだ。日本市場・エッジAIへの影響 Qwen 3.5 Smallのような高効率小型モデルの台頭は、日本の産業界にも直結する話題だ。クラウドAPIへの依存を減らし、オンプレミスやエッジデバイス上での高精度AI推論が現実的な選択肢となる。医療・製造・金融など、データのクラウド送信に制約がある分野での活用が一気に広がる可能性がある。また、モデルの小型化はコスト削減にも直結する。GPU使用量の削減はカーボンフットプリントの低減にもつながり、サステナビリティの観点からも注目が集まっている。「スケーリング則の終わり」か、「新たな次元」かかつてAI性能はパラメータ数とデータ量に比例するという「スケーリング則（Scaling Law）」が支配的だった。しかし、Qwen 3.5 Smallのような事例が相次ぐ今、業界の視点は「いかに大きくするか」から「いかに効率的に学ばせるか」へと完全にシフトしつつある。 AlibabaはQwenシリーズをオープンソースで公開しており、研究者や開発者が自由に活用・改良できる点も普及の加速要因となっている。小型・高性能・オープンという三拍子が揃ったモデルの登場は、AIの民主化という大きな潮流をさらに推し進めるだろう。元記事: Qwen 3.5 Small (9B) Matches 120B-Scale Models on GPQA Diamond Benchmark

GPT-5.4が100万トークンコンテキストと自律エージェント機能を引っさげてリリース——AI覇権争いが加速

2日間隔でのリリース——加速するAIモデル競争 OpenAIは2026年3月、GPT-5.4を正式リリースした。注目すべきはそのタイミングだ。GPT-5.3のリリースからわずか2日後という異例のスピードで、業界内ではGoogleとの競争激化による「駆け込みリリース」との見方が広まっている。最大の目玉：ネイティブなコンピュータ操作（Computer Use） GPT-5.4の最大の新機能は、**ネイティブコンピュータ使用（Computer Use）**だ。これは単なる「テキスト生成」を超え、モデルがWebブラウザの操作、フォーム入力、アプリケーション実行といった実際の作業を自律的に行えることを意味する。これまで人間の手が必要だったマルチステップのワークフローを、AIが単独でこなす「エージェント型AI」の実用化が本格的に始まったといえる。 100万トークン超のコンテキストウィンドウ GPT-5.4はThinkingとProの2バリアントで提供される。Thinkingは段階的な推論に最適化された思考型モデル、Proは開発者・パワーユーザー向けの最高性能モデルだ。両バリアントとも、入力コンテキストウィンドウが最大1,050,000トークン（約105万トークン）に拡張され、出力は最大128,000トークンを生成できる。日本語の技術文書や長大なコードベースでも、文脈を切らずに処理できる規模感だ。ベンチマーク性能：Claude Opus 4.6を上回り、Gemini 3.1 Proと互角独立ベンチマーク「Artificial Analysis Intelligence Index」（10項目の経済的実用タスクを重み付け平均）では、GPT-5.4 ProはClaude Opus 4.6を上回り、Gemini 3.1 Proと57点で同点タイに達した。特にコーディングとエージェント系タスクのサブインデックスではGPT-5.4がリードしている。なお、OSWorldベンチマーク（PCの実際の操作タスクを評価）では人間ベースライン72.4%に対し75%を記録しており、コンピュータ操作能力の高さを裏付けている。料金体系 ChatGPT Plus・Team・Proプランから利用可能。API利用時の料金は以下の通り。モデル入力（100万トークン）出力（100万トークン） GPT-5.4 $2.50 $15 GPT-5.4 Pro $30 $180 フロンティアモデルの差は縮小中——重要なのは「自分のワークフロー」への適合 2026年初頭のAIモデル群を俯瞰すると、GPT-5.4・Gemini 3.1 Pro・Claude 4.6はいずれも過去のモデルと比較して格段に高い性能を持つ。しかし、実用的なタスクにおけるモデル間の差は縮小してきており、「どのモデルが最強か」よりも「自分のワークフローやコストに合うモデルはどれか」という視点が重要になってきている。 Google Workspaceとの深い統合を持つGemini 3.1 Proや、コーディング・エージェント系を得意とするGPT-5.4 Proなど、用途に応じた選択が今後のAI活用の鍵となりそうだ。元記事: GPT-5.4 Launches with 1-Million-Token Context Window and Autonomous Multi-Step Workflows

Hugging FaceがHub全体をGit LFSからXetストレージへ移行——100万ユーザーを無停止で静かに移行した方法

Hugging Face、Hub全体をGit LFSからXetへ——20PBの静かな大移行 AIモデルのホスティングプラットフォームとして世界最大規模を誇るHugging Faceが、Hubのストレージ基盤を従来のGit LFS（Large File Storage）から自社開発のXetへと移行完了したことを発表した。移行の規模感 2025年1月に始まった移行プロジェクトは、わずか6ヶ月で以下の規模に達した。移行済みリポジトリ数: 50万件超移行データ量: 約20PB（ペタバイト）利用ユーザー数: 100万人以上報告されたGitHub Issue・フォーラム投稿: 数十件程度これほどの規模の移行にもかかわらず、ユーザーからの問い合わせがほとんどなかったことは注目に値する。2025年5月には新規ユーザーおよび組織に対してXetがデフォルトストレージとして採用されている。なぜGit LFSでは限界だったのか Git LFSはもともとソフトウェア開発用に設計されたファイルサイズ拡張の仕組みであり、数百GBから数TB級のAIモデルファイルを大量に扱うユースケースには設計思想が合わなかった。Xetはこれに対して**コンテンツアドレス型ストレージ（CAS: Content Addressed Store）**を採用し、ファイルをチャンク単位で管理することで重複排除・高速転送・並列ダウンロードを実現している。無停止移行を支えた2つの仕組み移行の成功を支えたのは、以下の2つの内部コンポーネントだ。 1. Git LFS Bridge 旧来のhuggingface_hubやhuggingface.jsなど、Xet非対応のクライアントが既存のAPIエンドポイント（/resolve）にアクセスした際、BridgeがXet側のチャンクデータをS3から再構成し、通常のLFSプロトコルと同じ形式のプリサインドURLとして返す。つまり、クライアント側でアップデートなしにシームレスにXet対応リポジトリのファイルへアクセスできる。 2. バックグラウンドコンテンツ移行非対応クライアントがファイルをアップロードすると、まずLFSストレージに保存され、その後バックグラウンドで自動的にXetへ移行される。この仕組みにより、「一斉切り替え（ハードカットオーバー）」を避け、既存ワークフローを壊さずに段階的移行が実現できた。設計の哲学チームが最初に定めた原則は明快だった。ハードカットオーバーは行わない XetとLFSファイルが1つのリポジトリに混在してよい移行中もダウンロード・アップロードをロックしないこれはユーザーへの影響ゼロを最優先にした判断であり、結果として多くのユーザーが移行に気づかないまま恩恵を受けることになった。技術スタックの補足 XetのクライアントライブラリはRust製で実装されており、hf-xetとして提供されている。Xet対応クライアントはファイルを**コンテンツ定義チャンキング（Content Defined Chunking）**で分割してアップロードし、ダウンロード時はCASからチャンク範囲情報を取得してS3から直接再構成する。ファイルメタデータの管理にはDynamoDBが使われている。今後の展開 Hugging Faceはこの移行をまだ「始まり」と位置づけており、今後数週間・数ヶ月でさらに積極的な移行を進めるとしている。日本のAI開発コミュニティにも広く普及しているHugging Face Hubだけに、大規模モデルのダウンロード速度改善など実質的なメリットが今後より顕著になってくるだろう。元記事: Migrating the Hub from Git LFS to Xet

GradioのMCPサーバーが大幅強化——ローカルファイル対応・リアルタイム進捗通知など5つの新機能

HuggingFaceが開発するオープンソースのAI Webアプリフレームワーク「Gradio」が、バージョン5.38.0においてMCP（Model Context Protocol）サーバー機能を大幅に強化した。GradioはHugging Face Spaces上で数千ものMCPサーバーをホストしており、LLMエージェントとの連携基盤として急速に普及しつつある。今回のアップデートで追加された5つの主要改善点を紹介する。 1. ローカルファイルのシームレスな対応リモートのGradio MCPサーバーに画像・動画・音声ファイルを渡す際、従来はファイルを公開URLでアクセスできる場所にホストする必要があり、手間のかかる手動作業が発生していた。 Gradio 5.38.0では「File Upload MCPサーバー」が新たに追加され、エージェントがファイルを直接Gradioアプリにアップロードできるようになった。ファイル入力を必要とするツールがある場合、接続ドキュメントに自動でファイルアップロードサーバーの起動方法が表示される。 2. リアルタイムの進捗通知画像生成や動画処理など、処理に時間がかかるAIタスクでは、完了まで待ち続けるしかなかった。新バージョンではGradioがMCPクライアントへ進捗通知をストリーミング配信するようになり、処理状況をリアルタイムに確認できる。MCPツール開発者向けのガイドも提供されており、独自ツールへの実装も容易だ。 3. OpenAPI仕様を1行でMCPに変換既存のバックエンドAPIをLLMと連携させる際、これまでは各エンドポイントをMCPツールに手動でマッピングする必要があり、時間と手間がかかっていた。新機能「gr.load_openapi」を使えば、OpenAPI（REST APIの機械可読仕様標準）のスキーマを指定するだけで、Gradioアプリが自動生成される。さらにmcp_server=Trueを指定して起動するだけで、既存APIがMCPサーバーに早変わりする。元記事: Five Big Improvements to Gradio MCP Servers

Hugging Face CLIが「hf」に刷新——より速く、より使いやすいコマンド体系へ

Hugging Face CLIが「hf」に生まれ変わった Hugging Faceは、同社のコマンドラインツール（CLI）を正式に huggingface-cli から hf へ改名したと発表した。長年にわたって開発者から待望されていたこの変更は、単なる名前の短縮にとどまらず、コマンド体系全体の整理・再設計を伴うものだ。なぜ改名されたのか huggingface-cli というコマンド名は、日常的に打ち込むには冗長すぎるという不満が根強かった。それ以上に大きな問題は、アップロード、ダウンロード、キャッシュ管理、リポジトリ管理など機能が追加されるにつれ、コマンド体系が雑然としてしまっていた点にある。新しいCLIは hf <resource> <action> という構文を採用。この「リソース → アクション」という予測可能な文法は、GitやDockerなど多くの開発者が慣れ親しんだパターンに倣ったものだ。コマンドの発見性が高まり、ヘルプを確認しながら直感的に操作を進められる。インストールと基本的な使い方最新版の huggingface_hub をインストールするだけで hf コマンドが使えるようになる。元記事: Say hello to hf: a faster, friendlier Hugging Face CLI ✨

PythonでMCPサーバーを実装：GradioとAIで作るバーチャル試着ショッピングアシスタント

GradioのMCP統合でLLMに「超能力」を与える Python開発者にとって、LLM（大規模言語モデル）に外部ツールを持たせる方法の選択肢が増えてきた。Hugging Faceが公開したブログ記事では、オープンソースライブラリ「Gradio」のMCP（Model Context Protocol）統合を活用し、LLMからHugging Face Hub上の何千ものAIモデルを直接呼び出せるようにする仕組みが紹介されている。 MCPサーバーをGradioで簡単に実装 GradioのMCP統合が注目される理由の一つは、その実装のシンプルさだ。主な特徴として以下が挙げられる。 Python関数の自動変換: Gradioアプリの各APIエンドポイントは、MCPツールとして自動的に変換される。関数のdocstringがツールの説明文やパラメータ定義として活用されるリアルタイム進捗通知: 処理状況をMCPクライアントへストリーミング通知する機能が組み込み済みで、開発者側での実装が不要ファイルアップロードの自動処理: 公開URLや複数のファイル形式に対応したアップロード処理もサポート実装例：AIスタイリストで洋服を試着ブログ記事では具体的なユースケースとして「AIショッピングアシスタント」が紹介されている。オンラインショッピングで服を選ぶ際の「試着の手間」をAIが代替するという発想だ。このシステムは3つのコンポーネントで構成される。 IDM-VTON（拡散モデル）: 既存の人物写真に対して、別の衣服を着ているように見せるバーチャル試着AIモデル。Hugging Face Spaceで公開されている Gradio: MCPサーバーとして機能し、LLMとIDM-VTONモデルをつなぐブリッジ役 VS Code AIチャット: 任意のMCPサーバーを追加できるVS Codeの組み込みAIチャットをUIとして利用中核となるGradio MCPサーバーでは、vton_generationという関数を1つ定義するだけでよい。この関数は人物モデルの画像と衣服の画像を受け取り、IDM-VTONモデルを呼び出して試着結果の画像を生成する。元記事: Implementing MCP Servers in Python: An AI Shopping Assistant with Gradio

OpenAIがオープンソースモデル「GPT OSS」を公開——117Bと21BのMoEモデル、Apache 2.0ライセンスで

OpenAI、待望のオープンソースモデル「GPT OSS」をリリース OpenAIが、オープンウェイト（重みを公開）のモデルファミリー「GPT OSS」を公開した。Hugging Faceのブログで発表されたこのリリースは、OpenAIがオープンソースエコシステムへ本格参入するという観点から、AI業界で大きな注目を集めている。 2種類のモデル構成 GPT OSSは以下の2モデルで構成される。 gpt-oss-120b：総パラメータ数117B（約1,170億）、アクティブパラメータ5.1B gpt-oss-20b：総パラメータ数21B（約210億）、アクティブパラメータ3.6B どちらも混合エキスパート（Mixture-of-Experts、MoE）アーキテクチャを採用しており、推論時に全パラメータを使用しないため、計算効率が高い。さらにMXFP4形式の4ビット量子化を適用することで、メモリ使用量を大幅に削減している。大型モデルのgpt-oss-120bはNVIDIA H100（80GB VRAM）1枚に収まり、小型のgpt-oss-20bは16GBのメモリで動作する。これはコンシューマー向けGPUや、エッジ・オンデバイスでの活用を強く意識した設計だ。日本国内でも手元のGPUサーバーや開発用PCで動かせる可能性が広がる。アーキテクチャの特徴 Token-choice MoEにSwiGLU活性化関数を組み合わせた構造各アテンション層にRoPE（回転位置エンコーディング）を採用、コンテキスト長は128K フルコンテキストとスライディングウィンドウ（128トークン）のアテンション層を交互に配置 GPT-4oと同じトークナイザーを使用（Responses API互換の新トークンも追加）推論能力（Chain-of-Thought）と推論努力レベルの調整に対応 Apache 2.0ライセンスと利用ポリシーライセンスはApache 2.0を採用しており、商用利用・改変・再配布が原則として自由に行える。付随する利用ポリシーは「適用法規の遵守」を求めるにとどまり、Meta LlamaシリーズのようなユーザーカウントによるTierや、Mistralの各種制限と比べてもシンプルな内容となっている。 OpenAIは「AIの恩恵を広く利用可能にする」というミッションに沿ったリリースと位置づけており、プライベートデプロイや社内ローカル環境での活用ニーズに応える狙いがある。推論・ファインチューニング環境主要な推論フレームワークはすでに対応済みだ。 transformers（Hugging Face） vLLM llama.cpp ollama Hugging FaceのInference Providers経由でAPIアクセスも可能で、CerebrasなどのプロバイダーをPython・JavaScriptから利用できる。また、Azure・DellなどのパートナーへのデプロイメントもHugging Faceプラットフォーム上でサポートされている。オープンソースAIの競争激化 Meta（Llama）、Mistral AI、Google（Gemma）などが先行するオープンソースモデル市場にOpenAIが参入したことで、競争はさらに活発化する見込みだ。特にApache 2.0という最も制約の少ないライセンスを選択した点は、企業・研究機関の双方にとって利用しやすい環境を整えるという強いメッセージとなっている。モデルは現在Hugging Face Hub上で公開されており、すぐに試せる状態にある。元記事: Welcome GPT OSS, the new open-source model family from OpenAI!

複数GPU並列学習を簡単に組み合わせ可能に——HuggingFace「Accelerate ND-Parallel」詳解

大規模モデル訓練の複雑さを一気に解消 Hugging Faceは、マルチGPU環境での大規模モデル訓練を抜本的に簡略化する「Accelerate ND-Parallel」を発表した。データ並列（DP）、テンソル並列（TP）、コンテキスト並列（CP）、完全シャーディングデータ並列（FSDP）といった複数の並列化戦略を、わずか数行のコードで自由に組み合わせられる。従来の課題：並列化戦略の組み合わせは職人技だった数十億〜数百億パラメータ規模のLLM（大規模言語モデル）を複数GPUで訓練する場合、単一の並列化手法では対応しきれないケースが多い。たとえばデータ並列だけではGPUメモリの壁を突破できず、モデル並列だけでは通信オーバーヘッドが増大する。これらを効率よく組み合わせるには、高度な分散システムの知識が必要だった。 ParallelismConfig で並列度を宣言的に設定 ND-Parallelの核心は ParallelismConfig クラスだ。以下のように各並列化戦略の「次元数（degree）」を宣言するだけで、Accelerateが内部のデバイスメッシュを自動構築する。元記事: Accelerate ND-Parallel: A guide to Efficient Multi-GPU Training

Hugging Face、コード不要でデータセットをAI処理できる「AI Sheets」をオープンソースで公開

Hugging Face、ノーコードAIデータ処理ツール「AI Sheets」を公開 Hugging Faceは2025年8月8日、データセットの構築・変換・エンリッチメントをコードなしで実行できるオープンソースツール「AI Sheets」を公開した。スプレッドシートライクなUIで、Hugging Face Hub上の数千のオープンモデルやOpenAIのgpt-ossなどを活用したデータ処理パイプラインを手軽に構築できる。スプレッドシート感覚でAIを活用 AI Sheetsの操作感はExcelやGoogle スプレッドシートに近い。新しい列を追加するとき、数式の代わりにプロンプトを書くだけでAIが処理を実行する。たとえば{{text}}のようにカラム名をテンプレート変数として埋め込むことで、各行のデータを参照した動的な処理が可能だ。処理結果のセルを手動で編集・承認することで、その編集内容がプロンプトのFew-shotサンプルとして自動的に追加される仕組みも備える。いわばプロンプトを対話的にチューニングしながらデータセット全体に適用していく、という開発体験を提供する。主なユースケース Hugging Faceが想定するユースケースは幅広い。モデル比較（Vibe Test）: 複数モデルの出力列を並べてLLM-as-a-Judgeで自動評価プロンプト改善: 顧客リクエスト処理など実務シナリオのプロンプトを実データで反復改善データ変換・クレンジング: 余分な句読点を除去する、フォーマットを統一するなど分類・分析: テキストのカテゴリ分類や主要アイデアの抽出データエンリッチメント: 住所から郵便番号を補完するなど（Webサーチ連携も可）合成データ生成: プライバシー上の理由で実データが使えない場合の代替データ作成ローカル実行とHub上での利用の両方に対応インストール不要でブラウザから即試せるHugging Face Spaces版に加え、GitHubリポジトリからローカル環境にデプロイすることも可能だ。モデルはHugging Face Hub経由のInference Providersか、ローカルモデルを選択できる。日本語データセット開発への応用も日本国内でも、LLMの評価ベンチマーク作成や日本語コーパスのクリーニング、社内向け合成データ生成など、機械学習エンジニアやデータサイエンティストが直面する「データ準備」の工程を大幅に省力化できるツールとして注目される。コードを書かずにAIを活用したデータパイプラインを組めるため、MLエンジニア以外のドメイン専門家でも扱いやすい点が特徴だ。ソースコードはGitHubで公開されており、オープンソースコミュニティからの貢献も受け付けている。元記事: Introducing AI Sheets: a tool to work with datasets using open AI models!

ExecuTorch 0.7でジェネレーティブAIが「3年前のスマホ」でも動く時代へ――Arm KleidiAIの自動最適化が変えるエッジAIの常識

「最新フラッグシップだけのもの」という常識が崩れるスマートフォン上でLLM（大規模言語モデル）を動かすと聞けば、最新ハイエンド機の強力なCPU・GPU・NPUを思い浮かべるのが自然だろう。しかし、Armと Meta が共同で進める ExecuTorch 0.7 の登場により、その前提が大きく揺らいでいる。発売から3〜5年が経過したAndroidデバイスや、シングルボードコンピュータの定番 Raspberry Pi 5 でさえ、Llama 3.2を実用的な速度で動かせるようになってきたのだ。カギを握る「SDOT命令」――2015年から静かに普及していた技術今回の躍進を支えるのが、SDOT（Signed Dot Product）命令だ。Armv8.2アーキテクチャで導入されたこの命令は、8ビット整数ベクトルのドット積演算を効率よく実行できる。LLMの推論処理の大半を占める行列乗算は、内部的に膨大なドット積の繰り返しで成り立っており、SDOTはまさにその中核を加速する。 SDOTは実は2015年から順次Arm CPUに搭載されており、現時点で約30億台のArmベースデバイスが対応済み。全デバイスの72%がすでにこの命令をサポートしている計算になる。「最新チップ専用の機能」ではなく、手元にある大多数のスマートフォンに眠っていた能力だ。 KleidiAI × ExecuTorchで「設定不要の高速化」を実現 ArmのAIアクセラレーション層である KleidiAI は、XNNPack・MediaPipe・MNN・ONNX Runtime・llama.cppといった広く使われるEdge AIフレームワークに組み込まれ、開発者がコードを変更することなく性能向上を届けてきた。そのKleidiAIが、次期 ExecuTorch 0.7ベータ版でデフォルト有効化される。AndroidおよびクロスプラットフォームのアプリはExecuTorchとXNNPack経由でKleidiAIの最適化を自動的に享受でき、モデルの起動高速化・低レイテンシー・メモリフットプリント削減が「箱から出してすぐ」手に入る。昨年公開の量子化Llama 3.2 1Bでは、I8MM機能（Armv8.6以降）を活用したInt4行列乗算の最適化により、Galaxy S24+においてKleidiAI非適用比でプリフィル性能が20%以上向上した実績がある。数値に換算すると、プリフィル時に毎秒350トークン超、デコード時に毎秒40トークン超という水準で、未読メッセージの要約といったオンデバイスタスクをスムーズにこなせる性能だ。日本市場への示唆日本でも中古スマートフォン市場は拡大しており、数年前のAndroidデバイスを使い続けるユーザーは少なくない。ExecuTorch 0.7の登場は、こうしたデバイスでもプライバシー保護・オフライン動作・低遅延というオンデバイスAIの恩恵を受けられる可能性を広げる。IoT・産業機器向けにRaspberry Piを活用している現場にとっても、クラウドAPI不要で動くLLMの実装コストが大幅に下がることを意味する。まとめ ArmのKleidiAIとExecuTorchの統合は、ジェネレーティブAIの「動作する土台」を一気に広げる可能性を秘めている。性能競争が続くハイエンド端末だけでなく、すでに世界中に出回っている数十億台のデバイスをAIの活用フィールドに変える動き——その第一歩として、ExecuTorch 0.7のリリースは注目に値する。元記事: Arm & ExecuTorch 0.7: Bringing Generative AI to the masses

AIを研究ツールに接続する「MCP for Research」— arXiv・GitHub・Hugging Faceを自然言語で横断検索

研究者の「プラットフォーム渡り歩き」問題をAIが解決学術研究では、論文を探すだけでなく、その実装コードやデータセット、関連モデルを複数のプラットフォームで横断的に調べる作業が欠かせない。arXivで論文を見つけ、GitHubで実装を探し、Hugging Faceで学習済みモデルを確認する——この繰り返しが研究者の時間を大量に奪っていた。 Hugging Faceが2025年8月に公開したブログ記事では、**Model Context Protocol（MCP）**を使ってAIをこれらの研究ツールに接続し、自然言語だけで横断的な文献調査を自動化するアプローチが紹介されている。 3段階の抽象レイヤー：手作業→スクリプト→MCP ブログでは、研究発見（Research Discovery）の自動化を3段階の抽象レイヤーとして整理している。第1層：手動リサーチ最も原始的な方法。論文をarXivで探し、著者名でGitHubを検索し、引用文献を手でたどる。体系的な文献調査には向かず、複数の研究スレッドを同時追跡するのはほぼ不可能だ。第2層：スクリプト自動化 PythonスクリプトでAPIを叩き、メタデータを収集・整理する。手動よりはるかに速いが、API仕様の変更やレートリミット、パースエラーで無音のまま失敗しやすく、人間の監視が必須だ。第3層：MCP統合 MCPは同じPythonツールをAIシステムから自然言語経由で呼び出せるプロトコル。たとえば「過去6カ月に公開されたTransformerアーキテクチャ論文で、実装コードと学習済みモデルが公開されているものを探して」と指示するだけで、AIが複数ツールを組み合わせて情報を収集・統合・評価してくれる。この第3層は「ソフトウェア3.0」的な発想とも言え、自然言語が実装言語になる世界を体現している。セットアップ方法 Hugging Faceは「Research Tracker MCP」を公式に提供しており、設定は簡単だ。 huggingface.co/settings/mcp にアクセス「research-tracker-mcp」を検索して追加 Claude Desktop、Cursor、Claude Code、VS Codeなど使用するクライアントに合わせてセットアップ注意点：万能ではない MCPによる自動化にも限界はある。スクリプト自動化と同様、人間の監視なしではエラーが起きやすく、実装品質によって結果の精度が大きく変わる。手動→スクリプト→MCPという下層の仕組みを理解しているほど、より良い活用ができると著者は強調している。なお、MCPはAnthropicが策定したオープン標準で、日本でもClaude CodeやCursorユーザーを中心に急速に普及しつつある。研究者だけでなく、情報収集を日常的に行うエンジニアやアナリストにとっても実用性の高い仕組みだ。元記事: MCP for Research: How to Connect AI to Research Tools

本番環境対応のCUDAカーネルをゼロから構築する完全ガイド——Hugging Face「kernel-builder」の使い方

Hugging Face、本番対応CUDAカーネル構築ライブラリ「kernel-builder」を公開 Hugging Faceは2025年8月、カスタムCUDAカーネルを効率よく開発・配布するためのライブラリkernel-builderのガイドを公開した。AIモデルのパフォーマンスを最大限に引き出すには独自のGPUカーネルが有効だが、実際の本番環境向けに整備するのは難しい。kernel-builderはその課題を解決するために設計されている。 kernel-builderとは kernel-builderを使うと、ローカルで開発したカスタムカーネルを複数のGPUアーキテクチャ向けにビルドし、Hugging Face Hub上に公開できる。公開後は以下のように、誰でも簡単にカーネルを利用できる。元記事: From Zero to GPU: A Guide to Building and Scaling Production-Ready CUDA Kernels

NVIDIAが600万件の多言語推論データセットを公開——日本語も対応、オープンエコシステムを支援

NVIDIAが600万件の多言語推論データセットを公開 NVIDIAは2025年8月20日、**600万件規模の多言語推論データセット「Nemotron Post-Training Dataset V2」**を公開した。フランス語・スペイン語・ドイツ語・イタリア語・日本語の5言語に対応しており、オープンウェイトモデルの発展を支援することを目的としている。データセットの特徴と構築手法今回のデータセットは、既存の英語推論データをベースに5言語へ翻訳したものだ。注目すべきは翻訳アプローチで、ユーザーのプロンプトとモデルの回答は対象言語に翻訳しつつ、推論チェーン（Chain-of-Thought）は英語のまま保持するという設計を採用している。英語の事前学習で蓄積された知識を最大限に活かすための工夫だ。大規模言語モデル（LLM）による機械翻訳は近年めざましい進歩を遂げているが、合成データ生成においては独自の課題があることも明らかになった。NVIDIAの研究チームは以下の問題を指摘している。 LLMは一般的な機械翻訳テストセット（FLORESなど）と比べ、SFT（教師ありファインチューニング）データセットの翻訳においてハルシネーション（誤情報生成）が起きやすいオープンソースLLMの翻訳品質とハルシネーション率は、入力の長さが増すにつれて著しく低下するこれらの問題に対処するため、いくつかの品質管理メカニズムを導入した。テキストを改行単位で分割して1行ずつ翻訳すること、コードブロックや翻訳不要な行はスキップすること、特殊な括弧記号「〘〙」で翻訳結果を囲むフォーマットを強制して抽出精度を高めること、そしてfastTextによる言語識別でオフターゲットデータを除去することなどが実施されている。これらの結果、約55,567件（全多言語サンプルの約1.1%）が除外された。同時公開：Nemotron Nano 2 9B データセットと合わせて、新モデル**「NVIDIA Nemotron Nano 2 9B」**も発表された。エッジデバイスやRTX環境での動作を想定した小型・高効率モデルで、以下の特徴を持つ。項目詳細パラメータ数 90億（9B）アーキテクチャハイブリッド Transformer–Mamba（Mamba-2 + 少数のアテンション層）スループット同クラスの主要モデル比で最大6倍の高速トークン生成コスト削減「思考バジェット」の調整により推論コストを最大60%削減対象用途カスタマーサービス、サポートチャットボット、分析コパイロット、エッジデプロイライセンス nvidia-open-model-license ハイブリッドTransformer–Mambaアーキテクチャは、純粋なTransformerモデルと同等の精度を保ちながら高いスループットを実現できる点が特徴だ。モデルの重みはHugging Faceで公開されており、build.nvidia.comでAPIエンドポイントのデモも試用可能。NVIDIA NIMとしても近く提供される予定だ。日本語コミュニティへの意義日本語が対応言語に含まれた点は、国内の研究者や開発者にとって朗報だ。600万件規模の推論データセットが日本語で利用可能になることで、日本語対応の高性能推論モデルのファインチューニングがより容易になると期待される。NVIDIAはモデル重み・学習ツール・学習データをともに公開することで、オープンウェイトモデルエコシステム全体の底上げを図っている。元記事: NVIDIA Releases 6 Million Multi-Lingual Reasoning Dataset

Google、308MパラメータのオンデバイスEmbeddingモデル「EmbeddingGemma」を公開——100言語対応でMTEBランキング首位

GoogleがオンデバイスRAG向け埋め込みモデル「EmbeddingGemma」を公開 Googleは2025年9月4日、新しい多言語テキスト埋め込みモデル「EmbeddingGemma」を公開した。わずか308Mパラメータながら100以上の言語に対応し、モバイルデバイスでのRAG（検索拡張生成）パイプラインやAIエージェントへの組み込みを念頭に設計されている。特徴と性能 EmbeddingGemmaは、テキストの意味・感情・意図を高密度ベクトルに変換する埋め込みモデルの新世代だ。Hugging Face上での埋め込みモデルの月間ダウンロード数は2億回を超えており、セマンティック検索や推薦システム、コード検索など多様な用途で広く活用されている。本モデルの主な仕様は以下のとおり：パラメータ数：308M（量子化時のRAM消費は200MB以下）コンテキストウィンドウ：2,048トークン対応言語：100言語以上出力次元：768次元（512/256/128次元へのMatryoshka截断対応）ライセンス：オープンソース Massive Text Embedding Benchmark（MTEB）の多言語版であるMMTEBでは、500M以下のテキスト専用多言語モデルとして最高スコアを記録している。アーキテクチャ：デコーダをエンコーダに転換技術面での最大の特徴は、Gemma3のトランスフォーマーバックボーンをベースに双方向アテンション（Bidirectional Attention）を採用した点だ。従来のGemmaは因果的（一方向）アテンションを用いるデコーダ型LLMだが、EmbeddingGemmaは双方向アテンションによりエンコーダ型に転換されている。これにより、系列内の前後トークンを相互参照でき、埋め込みタスクでLLMを上回る性能を発揮する。トークン埋め込みはMean Poolingにより文章単位のベクトルに集約され、さらに2層の全結合層を通じて768次元の最終埋め込みが生成される。また、**Matryoshka Representation Learning（MRL）**で学習されており、768次元の出力を用途に応じて512・256・128次元に切り詰めることができる。ストレージやメモリの制約が厳しいエッジ環境での活用に有利だ。主要フレームワークとの対応 EmbeddingGemmaは以下の主要フレームワークからすぐに利用可能だ： Sentence Transformers（検索・分類・クラスタリング） LangChain / LlamaIndex / Haystack（RAGパイプライン構築） Transformers.js（ブラウザ・Node.js上でのオンデバイス推論） ONNX Runtime（クロスプラットフォーム推論） Text Embeddings Inference（高スループットサービング）ファインチューニングで専門分野での性能をさらに強化医療分野向けにMIRIAD（Medical Instruction and Retrieval Dataset）でファインチューニングしたsentence-transformers/embeddinggemma-300m-medicalは、医療論文からの関連パッセージ検索タスクにおいて、2倍規模のモデルをも上回る性能を示した。ドメイン特化型のファインチューニングと組み合わせることで、コンパクトなサイズ以上の実用価値を引き出せることが証明された形だ。日本語対応への期待 100言語対応を謳う本モデルには当然日本語も含まれており、オンプレミス環境やエッジデバイスでの日本語セマンティック検索や多言語ドキュメント検索への応用が期待される。200MB以下で動作するため、クラウドAPIのコストや遅延を避けたいエンタープライズ用途にも有望な選択肢となりそうだ。元記事: Welcome EmbeddingGemma, Google’s new efficient embedding model