NvidiaのジェンスンCEO「AGIはもう達成された」——しかしすぐに発言を修正

NvidiaのジェンスンCEO「AGIはもう達成された」——しかしすぐに発言を修正 Nvidia(エヌビディア)のCEOであるジェンスン・ファン(Jensen Huang)氏が、3月23日に公開されたLex Fridman(レックス・フリードマン)ポッドキャストの中で「私たちはすでにAGI(汎用人工知能)を達成したと思う」と発言し、AI業界に波紋を呼んでいる。 AGIとは何か AGI(Artificial General Intelligence/汎用人工知能)とは、人間と同等かそれを超える知的能力を持つAIを指す用語だが、その定義は専門家の間でも統一されていない。近年、OpenAIのサム・アルトマン氏やメタのマーク・ザッカーバーグ氏といったテック企業トップたちが「AGI」という表現を避け、独自の用語を作り出す動きが見られる。過度に期待感を煽るイメージを払拭したい意図があるとみられるが、実質的に意味するところはAGIと大差ないとの指摘も多い。 AGIはビジネス面でも重要な意味を持ち、OpenAIとMicrosoftの契約においても「AGI達成」の定義をめぐって多額の資金が絡む条項が存在すると報じられている。 「AGIは今だ」——ファン氏の発言 ポッドキャストのホストであるフリードマン氏は、AGIを「10億ドル以上の価値を持つテック企業を起業・成長・経営できるAIシステム」と定義した上で、ファン氏に「AGI実現まであと何年か——5年、10年、15年、20年?」と問いかけた。 ファン氏はこれに対し、「今だと思う。AGIはもう達成されていると思う」と答えた。 フリードマン氏が「その発言で多くの人が興奮するだろう」と返すと、ファン氏はオープンソースのAIエージェントプラットフォーム「OpenClaw」の急速な普及を例に挙げ、「人々が個々のAIエージェントを様々な用途に使い始めている。デジタルインフルエンサーや、たとえばたまごっちのようなソーシャルアプリが突然ヒットしても驚かない」とAIエージェント活用の広がりを強調した。 直後に発言を修正 ただし、ファン氏は同じ場でこの発言を一部撤回するような発言も行っている。「多くの人が数か月使って、それきりになることもある。10万のエージェントがNvidiaのような会社を作り上げる確率はゼロパーセントだ」と述べ、AGI達成の主張を慎重に言い直した形だ。 AGIをめぐる議論は技術的・哲学的に根深く、明確な定義なしには「達成」を語ること自体が難しい。ファン氏の発言は業界の楽観論を体現する一方で、その曖昧さも浮き彫りにしている。日本のAI研究者や産業界においても、AGI議論は今後ますます重要な論点になってきそうだ。 元記事: Nvidia CEO Jensen Huang says ‘I think we’ve achieved AGI’

March 24, 2026 · 1 min · 胡田昌彦

Claude Codeチートシート完全版 — キーボードショートカットからMCPサーバー設定まで網羅

Claude Code使いこなしのすべてが1ページに Anthropicが提供するターミナル統合型AIコーディングアシスタント「Claude Code」の全機能を網羅したチートシートが公開され、Hacker Newsで181ポイントを獲得するなど開発者コミュニティで大きな反響を呼んでいる。 キーボードショートカット Claude Codeには多くのショートカットが用意されている。基本操作として Ctrl+C で入力/生成のキャンセル、Ctrl+L で画面クリア、Ctrl+R で履歴の逆検索が使える。ユニークなのは Ctrl+B でタスクをバックグラウンド実行できる点で、重い処理を走らせながら別の指示を出すことが可能だ。Esc キーを2回押すと直前の操作を取り消す「Rewind」機能も便利だろう。 モード切り替えでは Shift+Tab でパーミッションモードをサイクル切り替え、Alt+T でThinking(推論)モードのオン/オフを即座に切り替えられる。 スラッシュコマンド / で始まるスラッシュコマンドも充実している。コンテキスト管理の /compact [focus] は長い会話を圧縮して重要な文脈だけを保持するもので、長時間の開発セッションで重宝する。新機能として追加された /effort [low|med|high] はモデルの推論深度を手動で制御でき、単純なタスクにOpusを全力投球させる無駄を省ける。 /btw <質問> は現在のコンテキストを消費せずにサイドクエスチョンを投げられる機能で、コストを抑えながら気になる点を確認できる実用的なコマンドだ。 MCPサーバー連携 Model Context Protocol(MCP)サーバーの追加は --transport http(リモートHTTP、推奨)、--transport stdio(ローカルプロセス)、--transport sse(リモートSSE)の3方式に対応。スコープはローカル・プロジェクト・ユーザーの3段階で管理でき、チームで共有する設定は .mcp.json にコミットして全員が同じ環境で使えるようにすることが推奨されている。 また新機能「Elicitation」により、MCPサーバーがタスク実行中にユーザーへ入力を要求できるようになり、よりインタラクティブなワークフロー構築が可能になった。 メモリとCLAUDE.md Claude Codeのメモリ機構は./CLAUDE.md(プロジェクト共有)、~/.claude/CLAUDE.md(個人全プロジェクト共通)、/etc/claude-code/(組織全体管理)の3層構造になっている。Auto Memory機能では ~/.claude/projects/<プロジェクト>/memory/ 配下に MEMORY.md とトピック別ファイルが自動管理され、セッションをまたいで文脈が継続する。 ワークフローのヒント 並行開発に便利なGit Worktrees統合では --worktree name オプションで機能ごとに隔離されたブランチを作成でき、複数のエージェントが干渉なく同時作業できる。コンテキスト上限(現在Opus 4.6でMaxプラン以上なら100万トークン)に近づくと自動コンパクトが発動し、CLAUDE.md の内容はコンパクション後も保持される仕様だ。 ヘッドレス/SDK利用では claude -p "クエリ" で非インタラクティブ実行が可能で、--max-budget-usd 5 でコストキャップを設定できる点はCI/CDパイプラインへの組み込みで特に有用だ。 Claude Codeは急速に機能が拡充されており、このチートシートは定期的に更新されているとのこと。普段使いのショートカットから高度なMCP連携まで、改めて全機能を把握し直すよい機会となりそうだ。 元記事: Claude Code Cheat Sheet ...

March 24, 2026 · 1 min · 胡田昌彦

DeepSeek V4、テキスト・画像・動画を統合するマルチモーダルAIとして間もなくリリースか——オープンモデル最強候補

DeepSeek V4、マルチモーダルAIとして間もなく登場か 中国のAI企業DeepSeekが開発する次世代モデル「V4」が、テキスト・画像・動画生成を単一アーキテクチャに統合したマルチモーダルAIシステムとして登場する見通しだ。フィナンシャル・タイムズなど複数の信頼性の高い情報源がその詳細を伝えている。 コーディング特化からマルチモーダルへ方針転換 2026年2月に明らかになった当初の情報では、V4はコーディング性能に特化したモデルとされていた。700億パラメータ超のアーキテクチャ、SWE-benchでの記録更新を狙った設計、Engramメモリによる最大100万トークンのコンテキストウィンドウ——これらが主な特徴として語られていた。 しかし3月に入って状況は大きく変わった。V4は今やコーディング専用モデルではなく、テキスト・画像・動画をひとつのモデルで生成できる統合マルチモーダルシステムとして位置づけられている。これはOpenAIの「GPT-4o」やGoogleの「Gemini 3」シリーズと真っ向から競合する設計だ。 オープンソースで公開されれば業界に激震 DeepSeek V4が注目される最大の理由は、MIT または Apache 2.0 ライセンスでのオープンウェイト公開が見込まれている点だ。もし実現すれば、画像・動画生成まで含む史上最強クラスのオープンソースマルチモーダル基盤モデルとなる。 OpenAIの「Sora」、GoogleのVeo 3、Runwayの「Gen-3」といった動画生成AIはいずれもクローズドなプロプライエタリシステムだ。これらに対抗できるオープンウェイトの選択肢が登場すれば、研究者や開発者はクローズドAPIへの依存なしにマルチモーダルアプリケーションを構築できるようになる。 統合アーキテクチャの技術的優位性 DeepSeek V4のマルチモーダル設計は、テキスト・画像・動画を別々のモデルに分離せず、単一フレームワーク内で統合的に扱う点が特徴だ。Gemini 3 Proなどが各モダリティに個別パイプラインを持つのとは異なるアプローチを採る。 この統合型設計の利点は「一貫性(コヒーレンス)」にある。テキストに添える画像を生成する際も、生成した動画にナレーションをつける際も、各モダリティが独立して動くのではなく共有された意味理解をもとに連携して動作する。 基盤技術として、2026年1月に発表されたアーキテクチャ革新——静的知識をシステムDRAMにオフロードしてスループット低下を3%未満に抑える「Engramメモリ」と、兆パラメータ規模の学習安定化を図る「Manifold制約ハイパーコネクション」——が引き続き採用される見込みだ。 ソフトローンチ戦略の可能性も 3月9日には「V4 Lite」が静かにリリースされたとの情報もあり、段階的なロールアウト戦略が取られている可能性がある。内部ベンチマークでは長文コーディングタスクでClaudeやChatGPT(GPT-4系)を上回る結果が出ているとも報告されているが、公式確認はまだ取れていない。 正式リリースの時期や最終的なスペックについては、引き続き動向を注視する必要がある。 元記事: DeepSeek V4 Multimodal Launch Imminent: Text, Image, and Video in One Open Model

March 24, 2026 · 1 min · 胡田昌彦

OpenAI、エンタープライズ向けAIエージェント基盤「Frontier」を正式発表——企業のAI業務統合を加速

OpenAI、企業向けAIエージェント基盤「Frontier」を正式発表 OpenAIは、エンタープライズ(大企業)向けに特化したAIエージェント構築・展開・管理プラットフォーム「OpenAI Frontier」を正式発表した。同プラットフォームは、企業が実務環境で活用できる独自のAIエージェントを開発・運用するための包括的な基盤を提供するもので、AIの業務統合を次のステージへと引き上げることを狙いとしている。 AIエージェント活用の「基盤」を企業に提供 これまで企業がAIを業務に組み込む場合、個別のAPIやモデルを組み合わせて独自システムを構築する必要があり、技術的なハードルが高かった。OpenAI Frontierは、そのような課題に対応するべく設計されており、エージェントの構築(Build)・展開(Deploy)・管理(Manage)の3フェーズを一貫してサポートするという。 企業は同プラットフォームを通じて、カスタマーサポートの自動化、社内ナレッジベースとの連携、業務フローの自律的な実行といった高度なAIエージェントを、自社のセキュリティポリシーやコンプライアンス要件に沿った形で構築・運用できるようになる。 日本企業への影響 日本においても、製造業・金融・医療・官公庁などでAI活用が急速に進んでいるが、エンタープライズ要件(セキュリティ、監査ログ、アクセス制御など)を満たす形でのAI導入はまだ発展途上だ。OpenAI Frontierのような管理基盤が整備されることで、企業のIT部門がより安心して本格的なAIエージェント導入に踏み切れる環境が整いつつある。 また、MicrosoftはOpenAIとの深い提携関係にあり、Azure OpenAI Serviceを通じた日本市場への展開も注目される。Frontierの機能がAzureエコシステムと統合されれば、日本企業にとってのアクセスしやすさはさらに向上すると見られる。 競合各社との競争激化 エンタープライズ向けAIエージェント基盤をめぐっては、GoogleのVertex AI AgentやAmazonのBedrock Agentsなど、主要クラウドベンダーも積極的に展開を進めている。OpenAIがFrontierとして独自プラットフォームを打ち出すことで、モデルプロバイダーとしての立場を超え、エンタープライズAI基盤のプレイヤーとしての地位を確立しようとする戦略的な意図が読み取れる。 AIエージェントが「試験的な導入フェーズ」から「業務の中核を担う存在」へと移行するなか、OpenAI Frontierはその転換点を象徴するプロダクトといえそうだ。今後の機能拡充や価格体系の詳細発表が注目される。 元記事: Introducing OpenAI Frontier

March 24, 2026 · 1 min · 胡田昌彦

OpenAI、GPT-5ベースのセキュリティAIエージェント「Aardvark」発表——脆弱性調査を自律実行

OpenAI、自律型セキュリティAIエージェント「Aardvark」を発表 OpenAIは、セキュリティ調査に特化したAIエージェント「Aardvark」(現在は「Codex Security」に改称)を発表した。GPT-5を基盤とし、脆弱性の発見から調査まで自律的に実行できるエージェントで、ChatGPT Enterprise・Business・Edu向けに研究プレビューとして公開されている。 セキュリティ分野へのAIエージェント進出 Aardvarkは、人間のセキュリティ研究者が行うような脆弱性調査プロセスを自律的にこなすことを目指して設計されている。コードの静的解析にとどまらず、実際の脆弱性パターンを追跡・分析し、潜在的なリスクを特定する能力を持つとされる。 AIエージェント(AI Agent)とは、与えられた目標に向けて自律的に計画・実行・判断を繰り返すAIシステムのことだ。従来のAIアシスタントが「質問に答える」受動的な役割に留まるのに対し、エージェントは自ら行動を起こし、複数ステップのタスクを完遂できる点が大きく異なる。 企業セキュリティチームへの実用価値 セキュリティエンジニアの慢性的な人材不足が続く現在、Aardvarkのようなエージェントは組織のセキュリティ態勢強化に大きく貢献する可能性がある。脆弱性スキャンやペネトレーションテスト(侵入テスト)の一部を自動化することで、人間の専門家はより高度な判断が求められる作業に集中できるようになる。 日本でも、経済産業省や内閣サイバーセキュリティセンター(NISC)がサイバーセキュリティ人材育成を急務と位置付けている中、AI支援によるセキュリティ自動化への関心は高まりつつある。 「研究プレビュー」としての慎重なアプローチ OpenAIが本ツールを「研究プレビュー」として限定公開している点は注目に値する。攻撃的なセキュリティ手法にも応用できるデュアルユース(二重用途)技術であるため、悪用リスクへの配慮が伺える。エンタープライズ契約ユーザーに対象を絞ることで、利用者の管理とフィードバック収集を慎重に進める方針とみられる。 AIエージェント時代のセキュリティ GitHubのCopilot、GoogleのProject Marinerなど、コーディング支援を超えた自律型AIエージェントの登場が相次いでいる。Aardvarkはその流れをセキュリティ領域に持ち込んだ先駆的な事例であり、AIが「使うツール」から「自ら動くパートナー」へと進化する転換点を象徴している。 OpenAIは今後、フィードバックをもとに機能拡充を進め、より広いユーザー層への展開を検討していると見られる。 元記事: Introducing Aardvark: OpenAI’s agentic security researcher

March 24, 2026 · 1 min · 胡田昌彦

ChatGPT無料ユーザーが2026年3月に実際に使えるモデルは何か——GPT-5.4の誤解を整理する

「GPT-5.4が無料で使える」は本当か? 公式ドキュメントから読み解く実態 2026年3月、OpenAIのモデルラインナップに「GPT-5.4」が登場したことで、「無料ユーザーも最新モデルが使えるようになった」という期待が広がっている。しかし公式ドキュメントを丁寧に読み解くと、実態はやや異なる。 無料プランで明確に使えるのはGPT-5.3 OpenAIのヘルプセンターが2026年3月時点で無料プランについて明示しているのは、GPT-5.3へのアクセスだ。具体的なルールも示されており、無料アカウントは5時間ごとに最大10メッセージをGPT-5.3で送信できる。上限を超えると、より軽量な「miniモデル」に自動切り替えとなり、制限がリセットされるまでその状態が続く。 この仕様が重要なのは、「GPT-5.4が存在する」という事実と「無料ユーザーがGPT-5.4を使える」という話が、まったく別の話だからだ。ChatGPTのプラットフォーム上にGPT-5.4が存在することは確かだが、無料プランで明文化されているモデルはあくまでGPT-5.3にとどまる。 GPT-5.4は有料プラン向け OpenAIの料金体系では、モデルの利用可能範囲が明確に区分されている。 モデル 無料 有料(一般) 上位プラン(Pro等) GPT-5.3 ◯(10回/5時間) ◯ ◯ GPT-5.4 Thinking ✗ ◯(モデル選択可) ◯ GPT-5.4 Pro ✗ 一部✗ ◯ GPT-5.4 Proについては、無料プランのみならず一部の低価格有料プランでも利用不可とされており、ProプランやそれEに準ずる上位プランが対象となっている。 なぜ混乱が生まれるのか 混乱の原因のひとつは、OpenAIのモデル命名体系の複雑さだ。GPT-5.3、GPT-5.4、GPT-5.4 Thinking、GPT-5.4 Pro——これらは似た名前を持ちながら、それぞれ異なる機能・価格帯に対応している。加えて、旧来のGPT-5.1系モデルが順次廃止されていく流れの中で、ユーザーが「最新モデルに移行した=無料で使える」と誤解しやすい状況が生まれている。 OpenAIが「GPT-5.4が存在する」と公式に認めている一方で、無料ユーザー向けの明確なドキュメントはGPT-5.3を中心に記述されている。GPT-5.4 Thinkingが内部的なルーティングとして無料ユーザーに一部適用されているかどうかは、現時点の公式ドキュメントからは確認できない。 日本のユーザーへの示唆 日本でもChatGPTの無料プランを活用するユーザーは多い。「最新モデルが無料になった」という情報をSNSやメディアで目にする機会も増えているが、実際には5時間に10回というGPT-5.3の制限が基本となる。より高度な推論機能(Thinking系)や高性能なPro版を日常的に活用したい場合は、有料プランへの移行を検討する必要がある。 AIツールの「無料で使える範囲」は、発表内容をそのまま受け取るのではなく、公式の料金・制限ドキュメントを確認する習慣が重要だ。 元記事: ChatGPT 5.4 free in March 2026: what free users actually get, what is not included

March 24, 2026 · 1 min · 胡田昌彦

小米がGPT-5.2に挑む1兆パラメータAI「MiMo-V2-Pro」を無料公開——コストは圧倒的に低く、性能は最前線級

スマホメーカーがAI最前線へ——小米「MiMo-V2-Pro」の衝撃 世界第3位のスマートフォンメーカーであり、電気自動車(EV)「SU7」「YU7」を展開する小米(シャオミ)が、生成AI最前線に本格参入した。同社が発表したMiMo-V2-Proは、総パラメータ数1兆(1T)を持つ大規模言語モデル(LLM)だが、その設計思想はチャット向け汎用モデルではなく「AIエージェントの頭脳」として最適化されている点が異色だ。 DeepSeek R1の立役者が率いる開発チーム 開発を主導するのは、DeepSeekの「R1」プロジェクトで中心的な役割を担ったFuli Luo氏。同氏は本モデルを「フロンティアへの静かな奇襲」と表現しており、純粋な会話ベンチマークではなく、ターミナル操作・コード実行・ツール連携といった「行動空間(Action Space)」での優位性を競争軸に据えている。 この方向性は小米のハードウェア事業と無関係ではない。IoTデバイスやEVで培ったリアルタイム判断・制御のノウハウを、デジタル環境全般に応用する試みとして位置付けられている。 MoEで1兆パラメータの「推論コスト問題」を解決 MiMo-V2-Proの技術的な肝はスパースなMixture-of-Experts(MoE)アーキテクチャだ。総パラメータは1兆だが、1回の推論(フォワードパス)で実際に動くのは約420億(42B)パラメータのみ。これにより、超大規模モデルの表現力を持ちながら、計算コストは40Bクラスに抑えられる。 OpenRouter経由のAPIコストは256Kトークンの範囲内で現在無料公開されており、GPT-5.2やClaude Opus 4.6と同等の性能をはるかに低コストで利用できる点が実務家には刺さる。 100万トークンのコンテキストを支える「ハイブリッドアテンション」 長大なコンテキスト処理にも工夫がある。標準的なTransformerアーキテクチャでは、コンテキスト長が伸びるにつれ計算量が二乗的に増加するという問題がある。MiMo-V2-Proは7:1のハイブリッドアテンション比率(前世代MiMo-V2-Flashの5:1から強化)を採用し、入力の約85%を「構造的把握」に、残り約15%を「精密な推論」に振り分けることで、最大100万トークンのコンテキストウィンドウを実現している。 これはログの蓄積・計画・状態更新など長大な情報系列を処理するエージェントワークフローに直結する特性だ。 さらにMulti-Token Prediction(MTP)レイヤーにより、1トークンずつの逐次生成を超えた複数トークンの同時予測が可能になり、エンタープライズ用途での応答速度向上にも貢献する。 日本市場へのインパクト 国内ではほぼ未報道のMiMo-V2-Proだが、エージェント型AI開発者や企業のAI基盤担当者にとって見逃せない存在だ。コード・ターミナル・複雑なオーケストレーション基盤を統合した長期タスク処理に特化した設計は、サプライチェーン管理・コード自動化・複数AIエージェントの協調制御といった実務シナリオとの親和性が高い。 オープンソース版の公開も「モデルが安定した段階で」検討されているとLuo氏は述べており、今後の動向は要注目だ。GPT・Claudeが当然視されてきたフロンティアに、コスト競争力を武器にした第三極が出現しつつある。 元記事: Inside Xiaomi’s MiMo-V2-Pro: A 1T-Parameter Agentic LLM Challenging GPT-5.2 on Cost and Capability

March 24, 2026 · 1 min · 胡田昌彦

エンタープライズAIが本番稼働へ——NVIDIAのAgent ToolkitがPoC時代の終焉を告げる

エンタープライズAIがPoC(概念実証)から本番運用へ NVIDIAは2026年3月に開催した年次カンファレンス「GTC 2026」において、エンタープライズ向けAIエージェントの標準化を目指すAgent Toolkitを発表した。Adobe、SAP、Salesforceをはじめとする50社超がすでに採用を表明しており、企業AIの本格展開を加速する節目となる発表として注目を集めている。 3つのコアコンポーネント Agent Toolkitは以下の3つの主要コンポーネントで構成されている。 OpenShell(セキュリティランタイム) エンタープライズ環境でAIエージェントを安全に実行するためのセキュリティランタイム。企業が最も懸念する「AIエージェントによる意図しない操作や情報漏洩」を防ぐ仕組みを提供する。金融・医療・製造など規制産業での本番導入を想定した設計だ。 AI-Q(リサーチエージェント) 複雑な調査・分析タスクを自律的にこなすリサーチエージェント。社内ドキュメントや外部データを横断的に検索・統合し、担当者が数時間かけて行っていた情報収集作業を大幅に短縮できるとされる。 Nemotronオープンモデル NVIDIAが独自に開発・公開するオープンな大規模言語モデル群。商用利用も可能な形でバンドルされており、クラウドAPIへの依存を減らしながらオンプレミスや専用クラウド環境でのAI活用を可能にする。 コスト50%削減とベンチマーク首位という二兎を得た NVIDIAの発表によれば、Agent Toolkitの導入によりエージェントクエリのコストを最大50%削減できるという。同時に精度面でも複数のベンチマークで首位を達成しており、「コストか精度か」というトレードオフを打ち破る結果を示している。 これは日本企業にとっても重要な意味を持つ。国内では生成AIの「PoC疲れ」が指摘されて久しく、実証実験から本番移行できない案件が積み上がっている。コストと精度の両立は、その最大のボトルネックを解消する可能性がある。 「パイロット時代の終わり」が意味するもの 50社超の採用表明は単なる関心表明ではなく、具体的な本番展開のコミットメントを含む。SAPはERPワークフローへの組み込み、SalesforceはCRM上での顧客対応エージェント展開を計画しているとされる。 エンタープライズAI市場では、MicrosoftのCopilot、GoogleのGemini for Workspaceとの競争が激化している。NVIDIAはGPUインフラという強みを活かしつつ、アプリケーション層にまで踏み込むことでプラットフォームとしての地位確立を狙う戦略を鮮明にした。 まとめ NVIDIAのAgent Toolkitは、エンタープライズAIの本番展開に必要な「セキュリティ」「エージェント機能」「オープンモデル」を一つのパッケージで提供する点が特徴だ。国内でもSAPやSalesforceのエコシステムを通じて間接的な影響が広がるとみられ、今後の国内大手ベンダーの対応動向が注目される。 元記事: Enterprise AI Goes Live: NVIDIA’s Agent Toolkit Signals the End of the Pilot Era

March 24, 2026 · 1 min · 胡田昌彦

iPhone 17 ProでなんとLLM 400Bが動作——オンデバイスAIの常識を覆すデモが話題に

iPhone 17 Proで400Bパラメータ級LLMが動作——オンデバイスAIの限界を更新 Apple製デバイス向けLLM推論プロジェクト「ANEMLL(Apple Neural Engine Machine Learning)」が、iPhone 17 Proで4000億(400B)パラメータ規模の大規模言語モデル(LLM)を動作させるデモ映像を公開し、開発者コミュニティで大きな反響を呼んでいる。Hacker Newsでは370ポイント以上を獲得し、200件超のコメントが集まった。 400Bとはどれほど巨大か 400Bパラメータというのは、現時点で公開されている最大クラスのオープンモデルと肩を並べる規模だ。たとえばMeta社のLlama 3.1の最大モデルが405Bであり、数年前まで「クラウド専用」の代名詞だった規模感である。これをデータセンターのGPUクラスタではなく、ポケットに入るスマートフォン1台で動かすという試みは、エッジAIの文脈において革命的な意味を持つ。 ANEMLLが活用するApple Neural Engine ANEMLLは、iPhoneおよびiPad・Mac搭載のApple Siliconに内蔵される「Apple Neural Engine(ANE)」を最大限活用するためのLLM推論フレームワークだ。ANEはCPU・GPUとは独立した専用演算ユニットであり、行列演算を高効率・低電力で処理できる。通常のLLMフレームワークがCPUやGPUを主に使うのに対し、ANEMLLはANEに最適化したモデル変換と推論パイプラインを独自に構築している。 今回のデモでは、4ビット量子化(INT4)などのモデル圧縮技術と、Apple Siliconの統合メモリアーキテクチャを組み合わせることで、超大規模モデルをオンデバイス推論可能にしていると考えられる。iPhone 17 Proは前世代から大幅に増強されたメモリ容量と改良されたANEを搭載しており、こうした試みを可能にするハードウェア基盤が整ってきた形だ。 プライバシーとレイテンシの観点から オンデバイスでLLMが動作することの意義は、単なる技術的な面白さにとどまらない。クラウドにテキストを送信せずに処理できることはプライバシー保護に直結し、ネットワーク遅延も排除できる。医療・法律・金融といった機密性の高い業務や、オフライン環境でのAI活用にも道が開ける。 日本国内でも個人情報保護法や各種業界ガイドラインの観点から「クラウドに社内データを送りたくない」というニーズは強い。大規模モデルのオンデバイス化が実用レベルに達すれば、エンタープライズ向けモバイルAIの設計思想そのものが変わりうる。 現時点での課題 Hacker Newsのコメント欄では「推論速度はどの程度か」「トークン生成レートが実用域に達しているか」を問う声が多く上がっている。400Bモデルを数ビット量子化しても必要なメモリ帯域幅は膨大であり、現状では応答速度に制約があることが予想される。デモがどの程度の実用性を示しているかは、続報を待つ必要がある。 とはいえ、わずか数年前には「スマートフォンでGPT-2クラスすら動かない」とされていた時代から、今や400B規模のデモが登場するまでに至った進化の速度は驚異的だ。ANEMLLの取り組みは、オンデバイスAIの可能性を再定義する一石として記憶されることになりそうだ。 元記事: iPhone 17 Pro Demonstrated Running a 400B LLM

March 23, 2026 · 1 min · 胡田昌彦

兄の整備工場のために「AIフロント係」を自作した話——RAG+音声AIで取り逃がし客をゼロに

月数十万円の機会損失を「AIフロント係」で解決する 兄が高級車専門の整備工場を経営しているが、毎週数百件もの電話に出られず、月に数千ドル相当の受注機会を逃していた。エンジンルームに頭を突っ込んでいる最中に電話が鳴り、出られなければ客は他店へ電話する。ブレーキ交換なら450ドル、エンジン修理なら2,000ドルの案件が、電話一本で消えていく。 そこで筆者が自作したのが、AIボイスエージェント「Axle(アクスル)」だ。車の車軸(axle)にちなんだ名前で、単なる汎用チャットボットではなく、工場の正確な料金・営業時間・ポリシーを把握した専用の音声受付システムである。 Part 1:AIの「脳」をRAGパイプラインで構築する 最初の課題は、AIがハルシネーション(事実に基づかない回答)なく正確に答えられるかだ。素のLLMに「ブレーキはいくら?」と聞かせると、実際は450ドルなのに200ドルと答えかねない。これは顧客の期待を裏切り、クレームに直結する。 これを防ぐために採用したのがRAG(Retrieval-Augmented Generation:検索拡張生成)だ。モデルに推測させるのではなく、実際の情報をナレッジベースとして与え、そこからのみ回答させる仕組みである。 実装ステップ ① ウェブサイトをスクレイピングしてナレッジベース化 サービスページや料金表をMarkdownファイルとして収集。サービス種別・料金・納期・営業時間・支払い方法・キャンセルポリシー・保証・代車有無・対応車種など、21以上のドキュメントを整備した。 ② MongoDB AtlasにベクトルDBとして格納 各ドキュメントをVoyage AI(voyage-3-large)で1024次元のベクトルに変換して格納。単なるキーワード一致ではなく「意味的な近さ」で検索できるため、「ブレーキ交換の値段は?」という問いかけが、文言が異なっていても正確にブレーキ料金ドキュメントを引き当てられる。 ③ Claude(Sonnet)で回答生成 取得したドキュメントをコンテキストとしてAnthropic Claude(claude-sonnet-4-6)に渡し、「ナレッジベースにある情報のみで答え、知らなければ折り返し連絡を申し出る」という厳格なシステムプロンプトで制御する。 この段階でターミナルから質問を入力すると、「オイル交換はいくら?」→「conventional(鉱物油)は45ドル、synthetic(化学合成油)は75ドルです。フィルター交換・液体補充・タイヤ空気圧チェック込みで約30分です」という正確な回答が返るようになった。 Part 2:実際の電話番号と接続する 次に、このAIを実際の電話回線につなぐためVapiを採用した。Vapiは電話番号の取得・音声認識(Deepgram)・音声合成(ElevenLabs)・リアルタイム関数呼び出しをすべて担う音声AIプラットフォームだ。 筆者はFastAPIでWebhookサーバーを構築。顧客が質問するとVapiがサーバーの/webhookエンドポイントにリクエストを送り、サーバーがRAGパイプライン経由でClaudeに問い合わせて回答を返す。Vapiはその回答を音声合成して顧客に話しかける、というフローだ。 技術スタックのまとめ 役割 採用技術 ナレッジベース検索 MongoDB Atlas Vector Search 埋め込みモデル Voyage AI(voyage-3-large) LLM Anthropic Claude(claude-sonnet-4-6) 音声インフラ Vapi(Deepgram + ElevenLabs) バックエンド FastAPI(Python) このようなRAG+音声AIの組み合わせは、中小規模の対人サービス業(飲食店・クリニック・不動産など)でも応用可能だ。電話対応の人手不足に悩む日本の事業者にとっても、参考になる実装アプローチといえる。 元記事: I built an AI receptionist for a mechanic shop

March 23, 2026 · 1 min · 胡田昌彦

Google、Gemini 3.1 Flash-Liteを公開——応答速度2.5倍・出力45%高速化でコスト重視の本番環境向けに

Google、Gemini 3.1 Flash-Liteを開発者向けAPIに正式公開 Googleは2026年3月3日、Gemini APIのリリースノートにて「Gemini 3.1 Flash-Lite Preview」の提供開始を発表した。これはGemini 3シリーズにおける初のFlash-Liteモデルであり、処理速度とコスト効率を最大化した設計が特徴となっている。 主要スペック:スピード重視の効率特化型 公開された情報によると、Gemini 3.1 Flash-Liteは以前のGeminiバージョンと比較して以下の改善を実現している。 応答速度(Time to First Token):2.5倍高速化 出力生成速度(Output Generation):45%高速化 この性能向上は、大量のリクエストをさばく必要があるプロダクション環境や、レイテンシが重視されるリアルタイムアプリケーションへの適用を強く意識したものだ。Googleは「コスト重視のユースケース向け高効率モデル」と位置づけており、API利用コストを抑えながらスケールアウトしたい開発者・企業に向いている。 Gemini APIをめぐる最近の動き 今回の発表に前後して、Gemini APIには複数の重要なアップデートが加えられている。 新機能の追加(2026年3月) Built-in Tools + Function Calling の組み合わせ機能(3月18日):Gemini組み込みツールとカスタム関数呼び出しを単一のAPIコールで同時利用できるようになった。エージェント型アプリケーション開発の幅が大きく広がる Grounding with Google Maps(3月18日):Gemini 3シリーズでのGoogle Maps連携グラウンディングが解禁 gemini-embedding-2-preview(3月10日):テキスト・画像・動画・音声・PDFをひとつの埋め込み空間にマッピングするマルチモーダル埋め込みモデルを初公開 廃止・終了スケジュール gemini-2.5-flash-lite-preview-09-2025:2026年3月31日にシャットダウン予定 gemini-2.0-flash / gemini-2.0-flash-lite 系:2026年6月1日にシャットダウン予定 Gemini 2.x系モデルのサポート終了が続いており、開発者はGemini 3系への移行計画を早めに立てておく必要がある。 日本の開発者への影響 国内でもAI機能の組み込みを進めるサービスは増加しており、APIコストとレスポンス速度はプロダクトの競争力に直結する。Gemini 3.1 Flash-Liteのような効率特化型モデルの登場は、大規模リクエストを扱うチャットボット・文書要約・コンテンツ生成パイプラインなどへの導入障壁を下げる可能性がある。 モデルの詳細スペックと開発者向けガイダンスはGoogle AI StudioおよびGemini APIドキュメントで確認できる。 元記事: Google Releases Gemini 3.1 Flash-Lite: 2.5× Faster Response, 45% Faster Output

March 23, 2026 · 1 min · 胡田昌彦

Claude Opus 4.6がSWE-Bench Verifiedで81.4%を達成——GPT-5.4・Gemini 3.1 Proとの三つ巴対決、勝者は「タスク次第」

3社の最新AIが28日で出揃った——「最強モデル」の概念が崩壊 2026年2月〜3月の28日間で、Anthropic・Google・OpenAIの3社がそれぞれのフラッグシップモデルを相次いでリリースした。Claude Opus 4.6(2月5日)、Gemini 3.1 Pro(2月19日)、GPT-5.4(3月5日)——いずれも100万トークンのコンテキストウィンドウを備え、しかし三者三様の「賭け」に出ている。 1年前であれば「総合最強」を名乗れるモデルが存在した。その時代は終わった。各モデルが異なるベンチマークで首位に立ち、ユーザーは「ブランド」ではなく「タスク」でモデルを選ぶ時代になっている。 コーディング領域:AnthropicのClaude Opus 4.6が制す ソフトウェアエンジニアリングの実力を測る SWE-Bench Verified では、Claude Opus 4.6が**81.4%**を記録し、Gemini 3.1 Proの80.6%をわずかに上回った。GPT-5.4はより難易度の高い「SWE-bench Pro」での比較を選択しており、直接比較では明らかにClaudeがリードしている。 さらに注目すべきは、Anthropicが公表した METR Time Horizon(自律的なエージェントタスクをどれだけ継続できるか)の数値だ。Claude Opus 4.6は14.5時間のタスクホライズンを達成。これは長時間の自律コーディングエージェントとして実用に耐えることを意味し、GitHub Copilotなどのコーディング支援ツールと競合するAIエージェント製品の選定基準として注目される。 推論・科学系:Gemini 3.1 Proが圧倒的 抽象的推論を測る ARC-AGI-2 でGemini 3.1 Proは**77.1%を記録した。前世代から31.1%ポイントという驚異的な向上幅だ。博士レベルの科学知識を問う GPQA Diamond では94.3%**と、現在公開されているスコアの中で最高値を叩き出している。 Googleが推論に注力した背景には、OpenAIとAnthropicがともに入力100万トークンあたり$5〜$15を課金するなか、Gemini 3.1 Proを**$2/M**という破格の価格設定で投入したという戦略がある。高性能かつ低コストという訴求で、大量処理を必要とするエンタープライズ用途を取り込む狙いが透けて見える。 PC操作・知識作業:GPT-5.4が人間を超えた OpenAIの最大の賭けは「コンピュータ操作(Computer Use)」のネイティブ対応だ。デスクトップ操作能力を評価する OSWorld-Verified でGPT-5.4は**75.0%**を記録。人間の専門家ベースライン72.4%を超えた——汎用AIが初めてPC操作で人間を上回った瞬間だ。Claude Opus 4.6も72.7%と肉薄しているが、ファーストムーバーの優位はOpenAIにある。 知識作業の生産性評価 GDPval でもGPT-5.4は**83.0%**とリードしており、弁護士・コンサルタント・アナリストなどホワイトカラー業務の自動化においてOpenAIが強みを持つ。 日本の開発者・企業への示唆 三モデルの比較から読み取れる実用的な選択指針をまとめると以下のとおりだ。 用途 推奨モデル コーディング・エージェント開発 Claude Opus 4.6 科学・学術・複雑な推論タスク Gemini 3.1 Pro PC操作自動化・業務プロセス自動化 GPT-5.4 コスト最優先の大量処理 Gemini 3.1 Pro 日本市場でも、GitHub CopilotやClaude Codeなどのコーディング支援ツールを評価・導入する企業が増えている。今回のベンチマーク結果は、特にソフトウェア開発チームの採用判断に直接影響を与えるだろう。 ...

March 23, 2026 · 1 min · 胡田昌彦

Google vs OpenAI「スーパーアプリ」戦争勃発——AI Studio全面刷新とChatGPT統合の全貌

GoogleとOpenAIが同日、「スーパーアプリ」構想を相次ぎ発表 2026年3月、GoogleとOpenAIがほぼ同じタイミングで、AI開発ツールの大規模統合計画を打ち出した。両社の動きは、単なる機能追加にとどまらず、開発者の「日常的な作業場所」をめぐる覇権争いの様相を呈している。 Google AI Studio、ただの「プロンプト遊び場」から脱却 Googleは「Google AI Studio」を全面刷新し、フルスタックのアプリ開発環境へと進化させた。これまでのAI Studioは、Geminiモデルを試すためのプレイグラウンドにとどまり、データベース接続やユーザー認証といった実用的な機能を持っていなかった。 新バージョンでは、GoogleのAntigravityコーディングエージェントが中核を担い、自然言語でアプリの要件を記述するだけでデプロイ可能なアプリが生成される。いわゆる「バイブコーディング(Vibe Coding)」——平易な英語で意図を伝えるとAIがコードを書いてくれる手法——の本格実装だ。 注目すべきは、Googleのデータベース・認証基盤であるFirebaseとの自動統合だ。アプリがユーザーアカウントやデータストレージを必要とする場合、AIが自動的に検知してセットアップまで行う。Google AI Studio責任者のLogan Kilpatrick氏によると、今後はGoogle Workspace(DriveやSheets)との統合、決済システムや外部データソースへの接続も予定されている。 Googleは合わせて、macOS向けのGeminiデスクトップアプリのテストも開始。ChatGPTやClaudeのデスクトップアプリに対抗する姿勢を明確にした。 OpenAIはChatGPT・Codex・Atlasを1本化、さらにAstralを買収 同日、OpenAIはChatGPT、Codex、Atlasの3サービスを統合した単一のデスクトップ「スーパーアプリ」を開発中であることを明らかにした。これまで用途別に分散していたAIツールを1つの窓口に集約する狙いだ。 さらに、Pythonエコシステムで広く使われているリンター「Ruff」や高速パッケージマネージャー「uv」を開発したAstral社の買収も発表した。PythonはAI開発の主要言語であり、開発ツールチェーンへの投資は、AIエンジニアの取り込みを強化する戦略とみられる。 Cursorは独自モデルで「Claude超え」を主張 AIコーディングツール「Cursor」も、新機能「Composer 2」を発表。自社開発のコーディング専用モデルが、コストをClaude Opus 4.6比で86%削減しつつ性能で上回ると主張している。大手AI企業だけでなく、専業ツールベンダーも独自モデル開発に乗り出しており、競争はさらに激化している。 日本の開発者への影響 これらのツールは日本の開発者にも直接関係する。Google AI Studioは無料枠でも利用可能であり、Firebase統合による迅速なプロトタイピングは個人開発者やスタートアップにとって大きな恩恵となりうる。一方、OpenAIのスーパーアプリ統合が完成すれば、コーディング・チャット・エージェントの切り替えなく一元的に扱える環境が整う。 AI開発ツールの「オールインワン化」という潮流は、2026年以降の開発体験を根本から変える可能性がある。 元記事: Anthropic Announces the Anthropic Institute – Research into Societal and Security Impacts of AI

March 23, 2026 · 1 min · 胡田昌彦

CloudflareがAI自律コードレビューエージェント「Bonk」を公開――Kimi K2.5ベース、小規模チームの開発フローに直接統合

Cloudflareが自律コードレビューエージェント「Bonk」を公開 Cloudflareは2026年3月、GitHub向けの自律コードレビューエージェント「Bonk」をリリースした。中国のAIスタートアップMoonshotが開発したKimi K2.5をベースモデルとして構築されており、専任のコードレビュアーを置けない小規模チームでも、既存の開発ワークフローにシームレスに統合できる点が特徴だ。 「インフラ企業」がAIエージェント提供者へ Bonkの登場は、CloudflareがCDN・セキュリティ企業の枠を超え、AIエージェントの提供者としても台頭していることを示す象徴的な動きだ。Pull Requestのレビュー依頼をトリガーとして自動起動し、コードの問題点や改善提案をコメントとして返す仕組みを持つとされる。 大手クラウド・インフラ企業がAIエージェントをプロダクトとして提供し始めるトレンドは、OpenAIやAnthropicといった純粋なAIラボとは異なる競争軸を生み出している。既存のインフラとの親和性を武器に、エンタープライズ市場への浸透を狙う構図だ。 AI業界全体の「静かな移行期」 Bonkがリリースされた2026年3月19日前後、OpenAI・Google DeepMind・Anthropic・Metaはいずれもフラッグシップモデルのリリースを行っていない。しかしこれは「停滞」ではなく、業界がモデル発表フェーズからデプロイメント・統合フェーズへ移行していることを示すサインだと見る向きが強い。 直近のリリースでは、OpenAIのGPT-5.4 miniが無料ユーザー向けのデフォルトとして急速に普及し、AnthropicのClaude(Sonnet系)はコーディングベンチマークで高評価を維持している。一方でDeepSeekの新バージョンが大規模コンテキストウィンドウを引っ提げて静かにテスト段階に入っているとも報じられている。 NVIDIAは「フィジカルAI」に照準 モデルリリースが一服する中、GTC 2026においてNVIDIAはフィジカルAI(物理空間と連携するAI)への大型投資を表明した。ヒューマノイドロボット向け基盤モデル「GR00T N1.7」や、Blackwellチップ向けに最適化されたハイブリッドモデル「Nemotron 3 Super」、通信大手Nokiaとの協業による「AI-RAN」など、テキスト処理にとどまらない実世界への展開を加速させている。 法的・規制面でも業界再編の動き 注目すべき動きとして、米国当局がAnthropicを「安全保障上の懸念」と指摘した法的局面で、競合にあたるOpenAI・Google・Microsoftの関係者が法廷文書でAnthropicを支持する異例の事態が発生した。AI業界の競争が「企業対企業」から「業界対規制当局」という新たな構図に移りつつあることを示す出来事として注目されている。 Bonkのような実用的なAIエージェントが大手インフラ企業から続々と登場し始めた今、開発現場でのAI活用は「実験」から「日常業務への統合」フェーズへと確実に移行している。 元記事: Cloudflare Releases ‘Bonk’ – Autonomous Code Review Agent Built on Kimi K2.5

March 23, 2026 · 1 min · 胡田昌彦

Alibaba「Qwen 3.5 Small」90億パラメータで1200億級モデルに匹敵──小型モデル革命が加速

90億パラメータが「巨人」に挑む──Qwen 3.5 Smallの衝撃 Alibabaが開発するオープンソースLLMシリーズ「Qwen(千問)」の最新モデルQwen 3.5 Smallが、AIコミュニティに大きな衝撃を与えている。パラメータ数わずか90億(9B)でありながら、科学・医学・工学の専門知識を問う難関ベンチマークGPQA(Graduate-Level Google-Proof Q&A)ダイヤモンドにおいて、1,200億(120B)パラメータ規模のモデルと同等の性能スコアを記録したのだ。 GPQAダイヤモンドとは何か GPQAダイヤモンドは、生物学・化学・物理学の博士課程レベルの問題で構成される評価セットで、Googleによる検索でも簡単には正解できないよう設計されている。現在、AIモデルの「真の推論能力」を測る指標として業界標準的な位置づけを獲得しており、このベンチマークでの高スコアは単純な暗記や検索ではなく、深い概念理解を示す証左とされる。 従来、このクラスのベンチマークで高得点を出すには、GPT-4oやClaude 3 OpusといったフロンティアモデルやMetaのLlama 3.1 405Bのような超大型モデルが必要とされていた。Qwen 3.5 Smallはその常識を覆した形だ。 なぜ小型モデルがここまで強くなれたのか 背景には、ポストトレーニング技術の急速な進化がある。2026年時点で主流となっているのは、従来のRLHF(人間フィードバックによる強化学習)に代わる新世代手法群だ。 GRPO(Group Relative Policy Optimization):グループ単位での相対評価による効率的な強化学習 DAPO(Direct Alignment from Preference Optimization):人間の選好データを直接活用した整合化 RLVR(Reinforcement Learning from Verifiable Rewards):検証可能な報酬信号による強化学習 これらの手法は、モデルの「思考プロセス」を洗練させることに特化しており、パラメータ数を増やさずとも推論品質を飛躍的に向上できる。いわば「筋肉量より神経効率」を鍛えるアプローチだ。 日本市場・エッジAIへの影響 Qwen 3.5 Smallのような高効率小型モデルの台頭は、日本の産業界にも直結する話題だ。クラウドAPIへの依存を減らし、オンプレミスやエッジデバイス上での高精度AI推論が現実的な選択肢となる。医療・製造・金融など、データのクラウド送信に制約がある分野での活用が一気に広がる可能性がある。 また、モデルの小型化はコスト削減にも直結する。GPU使用量の削減はカーボンフットプリントの低減にもつながり、サステナビリティの観点からも注目が集まっている。 「スケーリング則の終わり」か、「新たな次元」か かつてAI性能はパラメータ数とデータ量に比例するという「スケーリング則(Scaling Law)」が支配的だった。しかし、Qwen 3.5 Smallのような事例が相次ぐ今、業界の視点は「いかに大きくするか」から「いかに効率的に学ばせるか」へと完全にシフトしつつある。 AlibabaはQwenシリーズをオープンソースで公開しており、研究者や開発者が自由に活用・改良できる点も普及の加速要因となっている。小型・高性能・オープンという三拍子が揃ったモデルの登場は、AIの民主化という大きな潮流をさらに推し進めるだろう。 元記事: Qwen 3.5 Small (9B) Matches 120B-Scale Models on GPQA Diamond Benchmark

March 23, 2026 · 1 min · 胡田昌彦

GPT-5.4が100万トークンコンテキストと自律エージェント機能を引っさげてリリース——AI覇権争いが加速

2日間隔でのリリース——加速するAIモデル競争 OpenAIは2026年3月、GPT-5.4を正式リリースした。注目すべきはそのタイミングだ。GPT-5.3のリリースからわずか2日後という異例のスピードで、業界内ではGoogleとの競争激化による「駆け込みリリース」との見方が広まっている。 最大の目玉:ネイティブなコンピュータ操作(Computer Use) GPT-5.4の最大の新機能は、ネイティブコンピュータ使用(Computer Use)だ。これは単なる「テキスト生成」を超え、モデルがWebブラウザの操作、フォーム入力、アプリケーション実行といった実際の作業を自律的に行えることを意味する。これまで人間の手が必要だったマルチステップのワークフローを、AIが単独でこなす「エージェント型AI」の実用化が本格的に始まったといえる。 100万トークン超のコンテキストウィンドウ GPT-5.4はThinkingとProの2バリアントで提供される。Thinkingは段階的な推論に最適化された思考型モデル、Proは開発者・パワーユーザー向けの最高性能モデルだ。 両バリアントとも、入力コンテキストウィンドウが最大1,050,000トークン(約105万トークン)に拡張され、出力は最大128,000トークンを生成できる。日本語の技術文書や長大なコードベースでも、文脈を切らずに処理できる規模感だ。 ベンチマーク性能:Claude Opus 4.6を上回り、Gemini 3.1 Proと互角 独立ベンチマーク「Artificial Analysis Intelligence Index」(10項目の経済的実用タスクを重み付け平均)では、GPT-5.4 ProはClaude Opus 4.6を上回り、Gemini 3.1 Proと57点で同点タイに達した。特にコーディングとエージェント系タスクのサブインデックスではGPT-5.4がリードしている。 なお、OSWorldベンチマーク(PCの実際の操作タスクを評価)では人間ベースライン72.4%に対し75%を記録しており、コンピュータ操作能力の高さを裏付けている。 料金体系 ChatGPT Plus・Team・Proプランから利用可能。API利用時の料金は以下の通り。 モデル 入力(100万トークン) 出力(100万トークン) GPT-5.4 $2.50 $15 GPT-5.4 Pro $30 $180 フロンティアモデルの差は縮小中——重要なのは「自分のワークフロー」への適合 2026年初頭のAIモデル群を俯瞰すると、GPT-5.4・Gemini 3.1 Pro・Claude 4.6はいずれも過去のモデルと比較して格段に高い性能を持つ。しかし、実用的なタスクにおけるモデル間の差は縮小してきており、「どのモデルが最強か」よりも「自分のワークフローやコストに合うモデルはどれか」という視点が重要になってきている。 Google Workspaceとの深い統合を持つGemini 3.1 Proや、コーディング・エージェント系を得意とするGPT-5.4 Proなど、用途に応じた選択が今後のAI活用の鍵となりそうだ。 元記事: GPT-5.4 Launches with 1-Million-Token Context Window and Autonomous Multi-Step Workflows

March 23, 2026 · 1 min · 胡田昌彦

Hugging FaceがHub全体をGit LFSからXetストレージへ移行——100万ユーザーを無停止で静かに移行した方法

Hugging Face、Hub全体をGit LFSからXetへ——20PBの静かな大移行 AIモデルのホスティングプラットフォームとして世界最大規模を誇るHugging Faceが、Hubのストレージ基盤を従来のGit LFS(Large File Storage)から自社開発のXetへと移行完了したことを発表した。 移行の規模感 2025年1月に始まった移行プロジェクトは、わずか6ヶ月で以下の規模に達した。 移行済みリポジトリ数: 50万件超 移行データ量: 約20PB(ペタバイト) 利用ユーザー数: 100万人以上 報告されたGitHub Issue・フォーラム投稿: 数十件程度 これほどの規模の移行にもかかわらず、ユーザーからの問い合わせがほとんどなかったことは注目に値する。2025年5月には新規ユーザーおよび組織に対してXetがデフォルトストレージとして採用されている。 なぜGit LFSでは限界だったのか Git LFSはもともとソフトウェア開発用に設計されたファイルサイズ拡張の仕組みであり、数百GBから数TB級のAIモデルファイルを大量に扱うユースケースには設計思想が合わなかった。Xetはこれに対してコンテンツアドレス型ストレージ(CAS: Content Addressed Store)を採用し、ファイルをチャンク単位で管理することで重複排除・高速転送・並列ダウンロードを実現している。 無停止移行を支えた2つの仕組み 移行の成功を支えたのは、以下の2つの内部コンポーネントだ。 1. Git LFS Bridge 旧来のhuggingface_hubやhuggingface.jsなど、Xet非対応のクライアントが既存のAPIエンドポイント(/resolve)にアクセスした際、BridgeがXet側のチャンクデータをS3から再構成し、通常のLFSプロトコルと同じ形式のプリサインドURLとして返す。つまり、クライアント側でアップデートなしにシームレスにXet対応リポジトリのファイルへアクセスできる。 2. バックグラウンドコンテンツ移行 非対応クライアントがファイルをアップロードすると、まずLFSストレージに保存され、その後バックグラウンドで自動的にXetへ移行される。この仕組みにより、「一斉切り替え(ハードカットオーバー)」を避け、既存ワークフローを壊さずに段階的移行が実現できた。 設計の哲学 チームが最初に定めた原則は明快だった。 ハードカットオーバーは行わない XetとLFSファイルが1つのリポジトリに混在してよい 移行中もダウンロード・アップロードをロックしない これはユーザーへの影響ゼロを最優先にした判断であり、結果として多くのユーザーが移行に気づかないまま恩恵を受けることになった。 技術スタックの補足 XetのクライアントライブラリはRust製で実装されており、hf-xetとして提供されている。Xet対応クライアントはファイルをコンテンツ定義チャンキング(Content Defined Chunking)で分割してアップロードし、ダウンロード時はCASからチャンク範囲情報を取得してS3から直接再構成する。ファイルメタデータの管理にはDynamoDBが使われている。 今後の展開 Hugging Faceはこの移行をまだ「始まり」と位置づけており、今後数週間・数ヶ月でさらに積極的な移行を進めるとしている。日本のAI開発コミュニティにも広く普及しているHugging Face Hubだけに、大規模モデルのダウンロード速度改善など実質的なメリットが今後より顕著になってくるだろう。 元記事: Migrating the Hub from Git LFS to Xet

March 23, 2026 · 1 min · 胡田昌彦

GradioのMCPサーバーが大幅強化——ローカルファイル対応・リアルタイム進捗通知など5つの新機能

HuggingFaceが開発するオープンソースのAI Webアプリフレームワーク「Gradio」が、バージョン5.38.0においてMCP(Model Context Protocol)サーバー機能を大幅に強化した。GradioはHugging Face Spaces上で数千ものMCPサーバーをホストしており、LLMエージェントとの連携基盤として急速に普及しつつある。今回のアップデートで追加された5つの主要改善点を紹介する。 1. ローカルファイルのシームレスな対応 リモートのGradio MCPサーバーに画像・動画・音声ファイルを渡す際、従来はファイルを公開URLでアクセスできる場所にホストする必要があり、手間のかかる手動作業が発生していた。 Gradio 5.38.0では「File Upload MCPサーバー」が新たに追加され、エージェントがファイルを直接Gradioアプリにアップロードできるようになった。ファイル入力を必要とするツールがある場合、接続ドキュメントに自動でファイルアップロードサーバーの起動方法が表示される。 2. リアルタイムの進捗通知 画像生成や動画処理など、処理に時間がかかるAIタスクでは、完了まで待ち続けるしかなかった。新バージョンではGradioがMCPクライアントへ進捗通知をストリーミング配信するようになり、処理状況をリアルタイムに確認できる。MCPツール開発者向けのガイドも提供されており、独自ツールへの実装も容易だ。 3. OpenAPI仕様を1行でMCPに変換 既存のバックエンドAPIをLLMと連携させる際、これまでは各エンドポイントをMCPツールに手動でマッピングする必要があり、時間と手間がかかっていた。 新機能「gr.load_openapi」を使えば、OpenAPI(REST APIの機械可読仕様標準)のスキーマを指定するだけで、Gradioアプリが自動生成される。さらにmcp_server=Trueを指定して起動するだけで、既存APIがMCPサーバーに早変わりする。 元記事: Five Big Improvements to Gradio MCP Servers

March 23, 2026 · 1 min · 胡田昌彦

Hugging Face CLIが「hf」に刷新——より速く、より使いやすいコマンド体系へ

Hugging Face CLIが「hf」に生まれ変わった Hugging Faceは、同社のコマンドラインツール(CLI)を正式に huggingface-cli から hf へ改名したと発表した。長年にわたって開発者から待望されていたこの変更は、単なる名前の短縮にとどまらず、コマンド体系全体の整理・再設計を伴うものだ。 なぜ改名されたのか huggingface-cli というコマンド名は、日常的に打ち込むには冗長すぎるという不満が根強かった。それ以上に大きな問題は、アップロード、ダウンロード、キャッシュ管理、リポジトリ管理など機能が追加されるにつれ、コマンド体系が雑然としてしまっていた点にある。 新しいCLIは hf <resource> <action> という構文を採用。この「リソース → アクション」という予測可能な文法は、GitやDockerなど多くの開発者が慣れ親しんだパターンに倣ったものだ。コマンドの発見性が高まり、ヘルプを確認しながら直感的に操作を進められる。 インストールと基本的な使い方 最新版の huggingface_hub をインストールするだけで hf コマンドが使えるようになる。 元記事: Say hello to hf: a faster, friendlier Hugging Face CLI ✨

March 23, 2026 · 1 min · 胡田昌彦

PythonでMCPサーバーを実装:GradioとAIで作るバーチャル試着ショッピングアシスタント

GradioのMCP統合でLLMに「超能力」を与える Python開発者にとって、LLM(大規模言語モデル)に外部ツールを持たせる方法の選択肢が増えてきた。Hugging Faceが公開したブログ記事では、オープンソースライブラリ「Gradio」のMCP(Model Context Protocol)統合を活用し、LLMからHugging Face Hub上の何千ものAIモデルを直接呼び出せるようにする仕組みが紹介されている。 MCPサーバーをGradioで簡単に実装 GradioのMCP統合が注目される理由の一つは、その実装のシンプルさだ。主な特徴として以下が挙げられる。 Python関数の自動変換: Gradioアプリの各APIエンドポイントは、MCPツールとして自動的に変換される。関数のdocstringがツールの説明文やパラメータ定義として活用される リアルタイム進捗通知: 処理状況をMCPクライアントへストリーミング通知する機能が組み込み済みで、開発者側での実装が不要 ファイルアップロードの自動処理: 公開URLや複数のファイル形式に対応したアップロード処理もサポート 実装例:AIスタイリストで洋服を試着 ブログ記事では具体的なユースケースとして「AIショッピングアシスタント」が紹介されている。オンラインショッピングで服を選ぶ際の「試着の手間」をAIが代替するという発想だ。 このシステムは3つのコンポーネントで構成される。 IDM-VTON(拡散モデル): 既存の人物写真に対して、別の衣服を着ているように見せるバーチャル試着AIモデル。Hugging Face Spaceで公開されている Gradio: MCPサーバーとして機能し、LLMとIDM-VTONモデルをつなぐブリッジ役 VS Code AIチャット: 任意のMCPサーバーを追加できるVS Codeの組み込みAIチャットをUIとして利用 中核となるGradio MCPサーバーでは、vton_generationという関数を1つ定義するだけでよい。この関数は人物モデルの画像と衣服の画像を受け取り、IDM-VTONモデルを呼び出して試着結果の画像を生成する。 元記事: Implementing MCP Servers in Python: An AI Shopping Assistant with Gradio

March 23, 2026 · 1 min · 胡田昌彦

AI・テクノロジーの情報を発信しています

YouTube

AI・テクノロジーの最新トレンドを動画で配信中

note

技術コラム・深掘り記事を公開中