GradioのMCPサーバーが大幅強化——ローカルファイル対応・リアルタイム進捗通知など5つの新機能

HuggingFaceが開発するオープンソースのAI Webアプリフレームワーク「Gradio」が、バージョン5.38.0においてMCP(Model Context Protocol)サーバー機能を大幅に強化した。GradioはHugging Face Spaces上で数千ものMCPサーバーをホストしており、LLMエージェントとの連携基盤として急速に普及しつつある。今回のアップデートで追加された5つの主要改善点を紹介する。 1. ローカルファイルのシームレスな対応 リモートのGradio MCPサーバーに画像・動画・音声ファイルを渡す際、従来はファイルを公開URLでアクセスできる場所にホストする必要があり、手間のかかる手動作業が発生していた。 Gradio 5.38.0では「File Upload MCPサーバー」が新たに追加され、エージェントがファイルを直接Gradioアプリにアップロードできるようになった。ファイル入力を必要とするツールがある場合、接続ドキュメントに自動でファイルアップロードサーバーの起動方法が表示される。 2. リアルタイムの進捗通知 画像生成や動画処理など、処理に時間がかかるAIタスクでは、完了まで待ち続けるしかなかった。新バージョンではGradioがMCPクライアントへ進捗通知をストリーミング配信するようになり、処理状況をリアルタイムに確認できる。MCPツール開発者向けのガイドも提供されており、独自ツールへの実装も容易だ。 3. OpenAPI仕様を1行でMCPに変換 既存のバックエンドAPIをLLMと連携させる際、これまでは各エンドポイントをMCPツールに手動でマッピングする必要があり、時間と手間がかかっていた。 新機能「gr.load_openapi」を使えば、OpenAPI(REST APIの機械可読仕様標準)のスキーマを指定するだけで、Gradioアプリが自動生成される。さらにmcp_server=Trueを指定して起動するだけで、既存APIがMCPサーバーに早変わりする。 元記事: Five Big Improvements to Gradio MCP Servers

March 23, 2026 · 1 min · 胡田昌彦

Hugging Face CLIが「hf」に刷新——より速く、より使いやすいコマンド体系へ

Hugging Face CLIが「hf」に生まれ変わった Hugging Faceは、同社のコマンドラインツール(CLI)を正式に huggingface-cli から hf へ改名したと発表した。長年にわたって開発者から待望されていたこの変更は、単なる名前の短縮にとどまらず、コマンド体系全体の整理・再設計を伴うものだ。 なぜ改名されたのか huggingface-cli というコマンド名は、日常的に打ち込むには冗長すぎるという不満が根強かった。それ以上に大きな問題は、アップロード、ダウンロード、キャッシュ管理、リポジトリ管理など機能が追加されるにつれ、コマンド体系が雑然としてしまっていた点にある。 新しいCLIは hf <resource> <action> という構文を採用。この「リソース → アクション」という予測可能な文法は、GitやDockerなど多くの開発者が慣れ親しんだパターンに倣ったものだ。コマンドの発見性が高まり、ヘルプを確認しながら直感的に操作を進められる。 インストールと基本的な使い方 最新版の huggingface_hub をインストールするだけで hf コマンドが使えるようになる。 元記事: Say hello to hf: a faster, friendlier Hugging Face CLI ✨

March 23, 2026 · 1 min · 胡田昌彦

PythonでMCPサーバーを実装:GradioとAIで作るバーチャル試着ショッピングアシスタント

GradioのMCP統合でLLMに「超能力」を与える Python開発者にとって、LLM(大規模言語モデル)に外部ツールを持たせる方法の選択肢が増えてきた。Hugging Faceが公開したブログ記事では、オープンソースライブラリ「Gradio」のMCP(Model Context Protocol)統合を活用し、LLMからHugging Face Hub上の何千ものAIモデルを直接呼び出せるようにする仕組みが紹介されている。 MCPサーバーをGradioで簡単に実装 GradioのMCP統合が注目される理由の一つは、その実装のシンプルさだ。主な特徴として以下が挙げられる。 Python関数の自動変換: Gradioアプリの各APIエンドポイントは、MCPツールとして自動的に変換される。関数のdocstringがツールの説明文やパラメータ定義として活用される リアルタイム進捗通知: 処理状況をMCPクライアントへストリーミング通知する機能が組み込み済みで、開発者側での実装が不要 ファイルアップロードの自動処理: 公開URLや複数のファイル形式に対応したアップロード処理もサポート 実装例:AIスタイリストで洋服を試着 ブログ記事では具体的なユースケースとして「AIショッピングアシスタント」が紹介されている。オンラインショッピングで服を選ぶ際の「試着の手間」をAIが代替するという発想だ。 このシステムは3つのコンポーネントで構成される。 IDM-VTON(拡散モデル): 既存の人物写真に対して、別の衣服を着ているように見せるバーチャル試着AIモデル。Hugging Face Spaceで公開されている Gradio: MCPサーバーとして機能し、LLMとIDM-VTONモデルをつなぐブリッジ役 VS Code AIチャット: 任意のMCPサーバーを追加できるVS Codeの組み込みAIチャットをUIとして利用 中核となるGradio MCPサーバーでは、vton_generationという関数を1つ定義するだけでよい。この関数は人物モデルの画像と衣服の画像を受け取り、IDM-VTONモデルを呼び出して試着結果の画像を生成する。 元記事: Implementing MCP Servers in Python: An AI Shopping Assistant with Gradio

March 23, 2026 · 1 min · 胡田昌彦

OpenAIがオープンソースモデル「GPT OSS」を公開——117Bと21BのMoEモデル、Apache 2.0ライセンスで

OpenAI、待望のオープンソースモデル「GPT OSS」をリリース OpenAIが、オープンウェイト(重みを公開)のモデルファミリー「GPT OSS」を公開した。Hugging Faceのブログで発表されたこのリリースは、OpenAIがオープンソースエコシステムへ本格参入するという観点から、AI業界で大きな注目を集めている。 2種類のモデル構成 GPT OSSは以下の2モデルで構成される。 gpt-oss-120b:総パラメータ数117B(約1,170億)、アクティブパラメータ5.1B gpt-oss-20b:総パラメータ数21B(約210億)、アクティブパラメータ3.6B どちらも混合エキスパート(Mixture-of-Experts、MoE)アーキテクチャを採用しており、推論時に全パラメータを使用しないため、計算効率が高い。さらにMXFP4形式の4ビット量子化を適用することで、メモリ使用量を大幅に削減している。 大型モデルのgpt-oss-120bはNVIDIA H100(80GB VRAM)1枚に収まり、小型のgpt-oss-20bは16GBのメモリで動作する。これはコンシューマー向けGPUや、エッジ・オンデバイスでの活用を強く意識した設計だ。日本国内でも手元のGPUサーバーや開発用PCで動かせる可能性が広がる。 アーキテクチャの特徴 Token-choice MoEにSwiGLU活性化関数を組み合わせた構造 各アテンション層にRoPE(回転位置エンコーディング)を採用、コンテキスト長は128K フルコンテキストとスライディングウィンドウ(128トークン)のアテンション層を交互に配置 GPT-4oと同じトークナイザーを使用(Responses API互換の新トークンも追加) 推論能力(Chain-of-Thought)と推論努力レベルの調整に対応 Apache 2.0ライセンスと利用ポリシー ライセンスはApache 2.0を採用しており、商用利用・改変・再配布が原則として自由に行える。付随する利用ポリシーは「適用法規の遵守」を求めるにとどまり、Meta LlamaシリーズのようなユーザーカウントによるTierや、Mistralの各種制限と比べてもシンプルな内容となっている。 OpenAIは「AIの恩恵を広く利用可能にする」というミッションに沿ったリリースと位置づけており、プライベートデプロイや社内ローカル環境での活用ニーズに応える狙いがある。 推論・ファインチューニング環境 主要な推論フレームワークはすでに対応済みだ。 transformers(Hugging Face) vLLM llama.cpp ollama Hugging FaceのInference Providers経由でAPIアクセスも可能で、CerebrasなどのプロバイダーをPython・JavaScriptから利用できる。また、Azure・DellなどのパートナーへのデプロイメントもHugging Faceプラットフォーム上でサポートされている。 オープンソースAIの競争激化 Meta(Llama)、Mistral AI、Google(Gemma)などが先行するオープンソースモデル市場にOpenAIが参入したことで、競争はさらに活発化する見込みだ。特にApache 2.0という最も制約の少ないライセンスを選択した点は、企業・研究機関の双方にとって利用しやすい環境を整えるという強いメッセージとなっている。 モデルは現在Hugging Face Hub上で公開されており、すぐに試せる状態にある。 元記事: Welcome GPT OSS, the new open-source model family from OpenAI!

March 23, 2026 · 1 min · 胡田昌彦

複数GPU並列学習を簡単に組み合わせ可能に——HuggingFace「Accelerate ND-Parallel」詳解

大規模モデル訓練の複雑さを一気に解消 Hugging Faceは、マルチGPU環境での大規模モデル訓練を抜本的に簡略化する「Accelerate ND-Parallel」を発表した。データ並列(DP)、テンソル並列(TP)、コンテキスト並列(CP)、完全シャーディングデータ並列(FSDP)といった複数の並列化戦略を、わずか数行のコードで自由に組み合わせられる。 従来の課題:並列化戦略の組み合わせは職人技だった 数十億〜数百億パラメータ規模のLLM(大規模言語モデル)を複数GPUで訓練する場合、単一の並列化手法では対応しきれないケースが多い。たとえばデータ並列だけではGPUメモリの壁を突破できず、モデル並列だけでは通信オーバーヘッドが増大する。これらを効率よく組み合わせるには、高度な分散システムの知識が必要だった。 ParallelismConfig で並列度を宣言的に設定 ND-Parallelの核心は ParallelismConfig クラスだ。以下のように各並列化戦略の「次元数(degree)」を宣言するだけで、Accelerateが内部のデバイスメッシュを自動構築する。 元記事: Accelerate ND-Parallel: A guide to Efficient Multi-GPU Training

March 23, 2026 · 1 min · 胡田昌彦

Hugging Face、コード不要でデータセットをAI処理できる「AI Sheets」をオープンソースで公開

Hugging Face、ノーコードAIデータ処理ツール「AI Sheets」を公開 Hugging Faceは2025年8月8日、データセットの構築・変換・エンリッチメントをコードなしで実行できるオープンソースツール「AI Sheets」を公開した。スプレッドシートライクなUIで、Hugging Face Hub上の数千のオープンモデルやOpenAIのgpt-ossなどを活用したデータ処理パイプラインを手軽に構築できる。 スプレッドシート感覚でAIを活用 AI Sheetsの操作感はExcelやGoogle スプレッドシートに近い。新しい列を追加するとき、数式の代わりにプロンプトを書くだけでAIが処理を実行する。たとえば{{text}}のようにカラム名をテンプレート変数として埋め込むことで、各行のデータを参照した動的な処理が可能だ。 処理結果のセルを手動で編集・承認することで、その編集内容がプロンプトのFew-shotサンプルとして自動的に追加される仕組みも備える。いわばプロンプトを対話的にチューニングしながらデータセット全体に適用していく、という開発体験を提供する。 主なユースケース Hugging Faceが想定するユースケースは幅広い。 モデル比較(Vibe Test): 複数モデルの出力列を並べてLLM-as-a-Judgeで自動評価 プロンプト改善: 顧客リクエスト処理など実務シナリオのプロンプトを実データで反復改善 データ変換・クレンジング: 余分な句読点を除去する、フォーマットを統一するなど 分類・分析: テキストのカテゴリ分類や主要アイデアの抽出 データエンリッチメント: 住所から郵便番号を補完するなど(Webサーチ連携も可) 合成データ生成: プライバシー上の理由で実データが使えない場合の代替データ作成 ローカル実行とHub上での利用の両方に対応 インストール不要でブラウザから即試せるHugging Face Spaces版に加え、GitHubリポジトリからローカル環境にデプロイすることも可能だ。モデルはHugging Face Hub経由のInference Providersか、ローカルモデルを選択できる。 日本語データセット開発への応用も 日本国内でも、LLMの評価ベンチマーク作成や日本語コーパスのクリーニング、社内向け合成データ生成など、機械学習エンジニアやデータサイエンティストが直面する「データ準備」の工程を大幅に省力化できるツールとして注目される。コードを書かずにAIを活用したデータパイプラインを組めるため、MLエンジニア以外のドメイン専門家でも扱いやすい点が特徴だ。 ソースコードはGitHubで公開されており、オープンソースコミュニティからの貢献も受け付けている。 元記事: Introducing AI Sheets: a tool to work with datasets using open AI models!

March 23, 2026 · 1 min · 胡田昌彦

ExecuTorch 0.7でジェネレーティブAIが「3年前のスマホ」でも動く時代へ――Arm KleidiAIの自動最適化が変えるエッジAIの常識

「最新フラッグシップだけのもの」という常識が崩れる スマートフォン上でLLM(大規模言語モデル)を動かすと聞けば、最新ハイエンド機の強力なCPU・GPU・NPUを思い浮かべるのが自然だろう。しかし、Armと Meta が共同で進める ExecuTorch 0.7 の登場により、その前提が大きく揺らいでいる。発売から3〜5年が経過したAndroidデバイスや、シングルボードコンピュータの定番 Raspberry Pi 5 でさえ、Llama 3.2を実用的な速度で動かせるようになってきたのだ。 カギを握る「SDOT命令」――2015年から静かに普及していた技術 今回の躍進を支えるのが、SDOT(Signed Dot Product)命令だ。Armv8.2アーキテクチャで導入されたこの命令は、8ビット整数ベクトルのドット積演算を効率よく実行できる。LLMの推論処理の大半を占める行列乗算は、内部的に膨大なドット積の繰り返しで成り立っており、SDOTはまさにその中核を加速する。 SDOTは実は2015年から順次Arm CPUに搭載されており、現時点で 約30億台のArmベースデバイス が対応済み。全デバイスの72%がすでにこの命令をサポートしている計算になる。「最新チップ専用の機能」ではなく、手元にある大多数のスマートフォンに眠っていた能力だ。 KleidiAI × ExecuTorchで「設定不要の高速化」を実現 ArmのAIアクセラレーション層である KleidiAI は、XNNPack・MediaPipe・MNN・ONNX Runtime・llama.cppといった広く使われるEdge AIフレームワークに組み込まれ、開発者がコードを変更することなく性能向上を届けてきた。 そのKleidiAIが、次期 ExecuTorch 0.7ベータ版でデフォルト有効化 される。AndroidおよびクロスプラットフォームのアプリはExecuTorchとXNNPack経由でKleidiAIの最適化を自動的に享受でき、モデルの起動高速化・低レイテンシー・メモリフットプリント削減が「箱から出してすぐ」手に入る。 昨年公開の量子化Llama 3.2 1Bでは、I8MM機能(Armv8.6以降)を活用したInt4行列乗算の最適化により、Galaxy S24+においてKleidiAI非適用比で プリフィル性能が20%以上向上 した実績がある。数値に換算すると、プリフィル時に毎秒350トークン超、デコード時に毎秒40トークン超という水準で、未読メッセージの要約といったオンデバイスタスクをスムーズにこなせる性能だ。 日本市場への示唆 日本でも中古スマートフォン市場は拡大しており、数年前のAndroidデバイスを使い続けるユーザーは少なくない。ExecuTorch 0.7の登場は、こうしたデバイスでもプライバシー保護・オフライン動作・低遅延というオンデバイスAIの恩恵を受けられる可能性を広げる。IoT・産業機器向けにRaspberry Piを活用している現場にとっても、クラウドAPI不要で動くLLMの実装コストが大幅に下がることを意味する。 まとめ ArmのKleidiAIとExecuTorchの統合は、ジェネレーティブAIの「動作する土台」を一気に広げる可能性を秘めている。性能競争が続くハイエンド端末だけでなく、すでに世界中に出回っている数十億台のデバイスをAIの活用フィールドに変える動き——その第一歩として、ExecuTorch 0.7のリリースは注目に値する。 元記事: Arm & ExecuTorch 0.7: Bringing Generative AI to the masses

March 23, 2026 · 1 min · 胡田昌彦

AIを研究ツールに接続する「MCP for Research」— arXiv・GitHub・Hugging Faceを自然言語で横断検索

研究者の「プラットフォーム渡り歩き」問題をAIが解決 学術研究では、論文を探すだけでなく、その実装コードやデータセット、関連モデルを複数のプラットフォームで横断的に調べる作業が欠かせない。arXivで論文を見つけ、GitHubで実装を探し、Hugging Faceで学習済みモデルを確認する——この繰り返しが研究者の時間を大量に奪っていた。 Hugging Faceが2025年8月に公開したブログ記事では、Model Context Protocol(MCP)を使ってAIをこれらの研究ツールに接続し、自然言語だけで横断的な文献調査を自動化するアプローチが紹介されている。 3段階の抽象レイヤー:手作業→スクリプト→MCP ブログでは、研究発見(Research Discovery)の自動化を3段階の抽象レイヤーとして整理している。 第1層:手動リサーチ 最も原始的な方法。論文をarXivで探し、著者名でGitHubを検索し、引用文献を手でたどる。体系的な文献調査には向かず、複数の研究スレッドを同時追跡するのはほぼ不可能だ。 第2層:スクリプト自動化 PythonスクリプトでAPIを叩き、メタデータを収集・整理する。手動よりはるかに速いが、API仕様の変更やレートリミット、パースエラーで無音のまま失敗しやすく、人間の監視が必須だ。 第3層:MCP統合 MCPは同じPythonツールをAIシステムから自然言語経由で呼び出せるプロトコル。たとえば「過去6カ月に公開されたTransformerアーキテクチャ論文で、実装コードと学習済みモデルが公開されているものを探して」と指示するだけで、AIが複数ツールを組み合わせて情報を収集・統合・評価してくれる。 この第3層は「ソフトウェア3.0」的な発想とも言え、自然言語が実装言語になる世界を体現している。 セットアップ方法 Hugging Faceは「Research Tracker MCP」を公式に提供しており、設定は簡単だ。 huggingface.co/settings/mcp にアクセス 「research-tracker-mcp」を検索して追加 Claude Desktop、Cursor、Claude Code、VS Codeなど使用するクライアントに合わせてセットアップ 注意点:万能ではない MCPによる自動化にも限界はある。スクリプト自動化と同様、人間の監視なしではエラーが起きやすく、実装品質によって結果の精度が大きく変わる。手動→スクリプト→MCPという下層の仕組みを理解しているほど、より良い活用ができると著者は強調している。 なお、MCPはAnthropicが策定したオープン標準で、日本でもClaude CodeやCursorユーザーを中心に急速に普及しつつある。研究者だけでなく、情報収集を日常的に行うエンジニアやアナリストにとっても実用性の高い仕組みだ。 元記事: MCP for Research: How to Connect AI to Research Tools

March 23, 2026 · 1 min · 胡田昌彦

本番環境対応のCUDAカーネルをゼロから構築する完全ガイド——Hugging Face「kernel-builder」の使い方

Hugging Face、本番対応CUDAカーネル構築ライブラリ「kernel-builder」を公開 Hugging Faceは2025年8月、カスタムCUDAカーネルを効率よく開発・配布するためのライブラリkernel-builderのガイドを公開した。AIモデルのパフォーマンスを最大限に引き出すには独自のGPUカーネルが有効だが、実際の本番環境向けに整備するのは難しい。kernel-builderはその課題を解決するために設計されている。 kernel-builderとは kernel-builderを使うと、ローカルで開発したカスタムカーネルを複数のGPUアーキテクチャ向けにビルドし、Hugging Face Hub上に公開できる。公開後は以下のように、誰でも簡単にカーネルを利用できる。 元記事: From Zero to GPU: A Guide to Building and Scaling Production-Ready CUDA Kernels

March 23, 2026 · 1 min · 胡田昌彦

NVIDIAが600万件の多言語推論データセットを公開——日本語も対応、オープンエコシステムを支援

NVIDIAが600万件の多言語推論データセットを公開 NVIDIAは2025年8月20日、600万件規模の多言語推論データセット「Nemotron Post-Training Dataset V2」を公開した。フランス語・スペイン語・ドイツ語・イタリア語・日本語の5言語に対応しており、オープンウェイトモデルの発展を支援することを目的としている。 データセットの特徴と構築手法 今回のデータセットは、既存の英語推論データをベースに5言語へ翻訳したものだ。注目すべきは翻訳アプローチで、ユーザーのプロンプトとモデルの回答は対象言語に翻訳しつつ、推論チェーン(Chain-of-Thought)は英語のまま保持するという設計を採用している。英語の事前学習で蓄積された知識を最大限に活かすための工夫だ。 大規模言語モデル(LLM)による機械翻訳は近年めざましい進歩を遂げているが、合成データ生成においては独自の課題があることも明らかになった。NVIDIAの研究チームは以下の問題を指摘している。 LLMは一般的な機械翻訳テストセット(FLORESなど)と比べ、SFT(教師ありファインチューニング)データセットの翻訳においてハルシネーション(誤情報生成)が起きやすい オープンソースLLMの翻訳品質とハルシネーション率は、入力の長さが増すにつれて著しく低下する これらの問題に対処するため、いくつかの品質管理メカニズムを導入した。テキストを改行単位で分割して1行ずつ翻訳すること、コードブロックや翻訳不要な行はスキップすること、特殊な括弧記号「〘〙」で翻訳結果を囲むフォーマットを強制して抽出精度を高めること、そしてfastTextによる言語識別でオフターゲットデータを除去することなどが実施されている。これらの結果、約55,567件(全多言語サンプルの約1.1%)が除外された。 同時公開:Nemotron Nano 2 9B データセットと合わせて、新モデル「NVIDIA Nemotron Nano 2 9B」も発表された。エッジデバイスやRTX環境での動作を想定した小型・高効率モデルで、以下の特徴を持つ。 項目 詳細 パラメータ数 90億(9B) アーキテクチャ ハイブリッド Transformer–Mamba(Mamba-2 + 少数のアテンション層) スループット 同クラスの主要モデル比で最大6倍の高速トークン生成 コスト削減 「思考バジェット」の調整により推論コストを最大60%削減 対象用途 カスタマーサービス、サポートチャットボット、分析コパイロット、エッジデプロイ ライセンス nvidia-open-model-license ハイブリッドTransformer–Mambaアーキテクチャは、純粋なTransformerモデルと同等の精度を保ちながら高いスループットを実現できる点が特徴だ。モデルの重みはHugging Faceで公開されており、build.nvidia.comでAPIエンドポイントのデモも試用可能。NVIDIA NIMとしても近く提供される予定だ。 日本語コミュニティへの意義 日本語が対応言語に含まれた点は、国内の研究者や開発者にとって朗報だ。600万件規模の推論データセットが日本語で利用可能になることで、日本語対応の高性能推論モデルのファインチューニングがより容易になると期待される。NVIDIAはモデル重み・学習ツール・学習データをともに公開することで、オープンウェイトモデルエコシステム全体の底上げを図っている。 元記事: NVIDIA Releases 6 Million Multi-Lingual Reasoning Dataset

March 23, 2026 · 1 min · 胡田昌彦

Google、308MパラメータのオンデバイスEmbeddingモデル「EmbeddingGemma」を公開——100言語対応でMTEBランキング首位

GoogleがオンデバイスRAG向け埋め込みモデル「EmbeddingGemma」を公開 Googleは2025年9月4日、新しい多言語テキスト埋め込みモデル「EmbeddingGemma」を公開した。わずか308Mパラメータながら100以上の言語に対応し、モバイルデバイスでのRAG(検索拡張生成)パイプラインやAIエージェントへの組み込みを念頭に設計されている。 特徴と性能 EmbeddingGemmaは、テキストの意味・感情・意図を高密度ベクトルに変換する埋め込みモデルの新世代だ。Hugging Face上での埋め込みモデルの月間ダウンロード数は2億回を超えており、セマンティック検索や推薦システム、コード検索など多様な用途で広く活用されている。 本モデルの主な仕様は以下のとおり: パラメータ数:308M(量子化時のRAM消費は200MB以下) コンテキストウィンドウ:2,048トークン 対応言語:100言語以上 出力次元:768次元(512/256/128次元へのMatryoshka截断対応) ライセンス:オープンソース Massive Text Embedding Benchmark(MTEB)の多言語版であるMMTEBでは、500M以下のテキスト専用多言語モデルとして最高スコアを記録している。 アーキテクチャ:デコーダをエンコーダに転換 技術面での最大の特徴は、Gemma3のトランスフォーマーバックボーンをベースに双方向アテンション(Bidirectional Attention)を採用した点だ。従来のGemmaは因果的(一方向)アテンションを用いるデコーダ型LLMだが、EmbeddingGemmaは双方向アテンションによりエンコーダ型に転換されている。これにより、系列内の前後トークンを相互参照でき、埋め込みタスクでLLMを上回る性能を発揮する。 トークン埋め込みはMean Poolingにより文章単位のベクトルに集約され、さらに2層の全結合層を通じて768次元の最終埋め込みが生成される。 また、Matryoshka Representation Learning(MRL)で学習されており、768次元の出力を用途に応じて512・256・128次元に切り詰めることができる。ストレージやメモリの制約が厳しいエッジ環境での活用に有利だ。 主要フレームワークとの対応 EmbeddingGemmaは以下の主要フレームワークからすぐに利用可能だ: Sentence Transformers(検索・分類・クラスタリング) LangChain / LlamaIndex / Haystack(RAGパイプライン構築) Transformers.js(ブラウザ・Node.js上でのオンデバイス推論) ONNX Runtime(クロスプラットフォーム推論) Text Embeddings Inference(高スループットサービング) ファインチューニングで専門分野での性能をさらに強化 医療分野向けにMIRIAD(Medical Instruction and Retrieval Dataset)でファインチューニングしたsentence-transformers/embeddinggemma-300m-medicalは、医療論文からの関連パッセージ検索タスクにおいて、2倍規模のモデルをも上回る性能を示した。ドメイン特化型のファインチューニングと組み合わせることで、コンパクトなサイズ以上の実用価値を引き出せることが証明された形だ。 日本語対応への期待 100言語対応を謳う本モデルには当然日本語も含まれており、オンプレミス環境やエッジデバイスでの日本語セマンティック検索や多言語ドキュメント検索への応用が期待される。200MB以下で動作するため、クラウドAPIのコストや遅延を避けたいエンタープライズ用途にも有望な選択肢となりそうだ。 元記事: Welcome EmbeddingGemma, Google’s new efficient embedding model

March 23, 2026 · 1 min · 胡田昌彦

mmBERT登場:ModernBERTが1800言語以上に対応した多言語エンコーダモデルへ進化

mmBERT:1800言語以上に対応した最先端多言語エンコーダモデル Johns Hopkins大学のCLSP(Center for Language and Speech Processing)チームが、新しい多言語エンコーダモデル「mmBERT」を発表した。ModernBERTアーキテクチャをベースに、1800言語以上のテキスト3兆トークン以上で学習した本モデルは、従来の多言語モデルの中でも特に普及しているXLM-Rを初めて性能・速度の両面で上回る成果を達成している。 膨大な多言語学習データと革新的なサンプリング戦略 mmBERTの学習データは、3つの主要なオープンソースWebクロールデータセットを中心に構成されている。 DCLM / Filtered DCLM:高品質な英語コンテンツ。従来の多言語モデルより高い割合(最大18%)で英語データを使用し、英語性能の基盤とした。 FineWeb2:1800言語以上の多言語Webコンテンツ。幅広い言語族・文字体系をカバーする。 FineWeb2-HQ:FineWeb2から高リソース言語20言語を絞り込んだ高品質サブセット。 さらに、コードリポジトリ(StarCoder)、学術コンテンツ(ArXiv)、参照資料(Wikipedia)、コミュニティフォーラム(StackExchange)など多様な専門コーパスも組み込まれている。 データ設計の最大の革新は「プログレッシブ言語インクルージョン戦略」だ。学習を3フェーズに分け、フェーズが進むごとに言語間のサンプリング分布をより均一に近づけながら対応言語を段階的に拡大する。事前学習では60言語、中間学習で110言語、最終フェーズでFineWeb2に収録された全1833言語をカバーする。これにより、低リソース言語データを無駄なく効果的に活用できる。 アーキテクチャと3段階学習レシピ モデルアーキテクチャはModernBERT-baseと同じく22層・中間次元1152を採用しているが、多言語テキストの処理精度を高めるためにトークナイザをGemma 2のものに変更している。パラメータ数はベースモデルが非埋め込みパラメータ1.1億(語彙サイズ拡大により合計3.07億)、スモールモデルが非埋め込み4,200万(合計1.4億)。 学習は3フェーズで構成されており、2.3兆トークンの事前学習から始まり、中間学習・減衰フェーズへと進む過程でデータ品質と言語多様性のバランスを最適化している。 XLM-Rを超えた性能と日本語を含む多言語対応 BERT系の多言語エンコーダとして長らく業界標準だったXLM-Rを、性能・推論速度の両方で上回った点は注目に値する。低リソース言語への対応強化は、日本語以外の東アジア・東南アジア諸言語や少数言語コミュニティにとっても恩恵が大きい。 日本の開発者・研究者にとっても、多言語テキスト分類、情報検索(RAG)、クロスリンガルNLPタスクへの応用が期待できる。モデルはHugging Faceで公開されており、すぐに試せるサンプルコードも提供されている。 元記事: mmBERT: ModernBERT goes Multilingual

March 23, 2026 · 1 min · 胡田昌彦

軽量VLMがGUI操作AIに進化——Hugging Faceが「Smol2Operator」の全訓練レシピを公開

軽量VLMがGUI操作AIに進化——Hugging Faceが「Smol2Operator」の訓練レシピを全公開 Hugging Faceは、ビジョン言語モデル(VLM)をGUI自動操作エージェントへと段階的に育て上げる手法「Smol2Operator」を発表し、訓練コード・データセット・モデルをすべてオープンソースとして公開した。 GUIエージェントとは何か GUI(グラフィカルユーザーインターフェース)自動化とは、AIがスクリーンショットを「見て」、ボタンのクリックやテキスト入力といった操作を自律的に行う技術だ。モバイル・デスクトップ・Webの各プラットフォームをまたいで動作できれば、RPA(ロボティック・プロセス・オートメーション)の次世代形態として業務効率化に大きく貢献すると期待されている。国内でも業務自動化ニーズは高く、この分野の進展は注目に値する。 ベースモデルはたった2.2B 今回のアプローチでは、GUIへの接地(グラウンディング)能力をまったく持たないSmolVLM2-2.2B-Instructをベースモデルとして採用した。パラメータ数が2.2Bと小規模であるにもかかわらず、2段階の教師あり微調整(SFT)により、高レベルの指示を低レベルのGUI操作に変換できるエージェントへと成長させることに成功した。 2段階訓練プロセス 訓練は以下の2フェーズで構成される。 フェーズ1:知覚能力の習得 スクリーンショット内のUI要素を正確に認識・位置特定する「グラウンディング」能力を獲得させる段階。評価指標にはGUI理解ベンチマーク「ScreenSpot-v2」を用い、画像解像度や座標系の影響も詳細に分析した。 フェーズ2:認知・推論能力の向上 UI要素の認識にとどまらず、タスクの意図を理解して一連の操作を計画・実行できる「エージェント的推論」を付与する段階。AGUVISの研究成果とデータセットを活用し、段階的にモデルを強化した。 異種データ統合の課題を解決 複数のGUI自動化データセットを横断して学習させる際の大きな障壁が、アクション表現の非統一性だ。データセットごとに関数名・パラメータ名・操作の分類体系が異なるため、そのままでは統合的な訓練ができない。Smol2Operatorはこの問題を統一アクションスペースへの変換ツール(Action Space Converter)で解決し、高品質な訓練データを生成するパイプラインも合わせて公開している。 再現性を重視したフルオープンソース公開 Hugging Faceが今回特に強調しているのが、「最先端性能を目指すのではなく、プロセス全体を再現可能な形で示すこと」という姿勢だ。訓練レシピ・データ処理ツール・変換済みデータセット(smolagents/aguvis-stage-1、smolagents/aguvis-stage-2)・最終モデルがすべて公開されており、研究者や開発者が独自のGUIエージェント開発の出発点として活用できる。 ソースコードはGitHub(huggingface/smol2operator)で公開中。 元記事: Smol2Operator: Post-Training GUI Agents for Computer Use

March 23, 2026 · 1 min · 胡田昌彦

Swift Transformers 1.0リリース — Apple Silicon向けローカルLLM統合ライブラリが安定版に

Swift Transformers がバージョン1.0に到達 Hugging Faceは、Apple Silicon向けローカルLLM統合ライブラリ「swift-transformers」のバージョン1.0を正式リリースした。2年前の初公開以来、Apple開発者コミュニティで広く活用されてきた同ライブラリが、初のメジャーバージョンとして安定版を迎えた。 swift-transformersとは swift-transformers は、iPhoneを含むApple Siliconプラットフォーム上でローカルモデルを扱う際の摩擦を減らすことを目的としたSwiftライブラリだ。Core MLやMLX単独では補えない、ローカル推論に必要なコンポーネントを提供している。 主な構成要素は以下の3つ。 Tokenizers — 言語モデルへの入力準備を担うモジュール。チャットテンプレートやエージェント向けユースケースにも対応。PythonやRust向けの同名ライブラリで培ったノウハウをSwiftに移植したもの。 Hub — Hugging Face Hubとのインターフェース。モデルのダウンロード・キャッシュ・バックグラウンドでの再開可能ダウンロード・オフラインモードなどに対応する。 Models / Generation — Core ML形式に変換済みのLLMを扱うラッパー。変換済みモデルの推論実行を簡単にするためのモジュール。 v1.0の主な変更点 バージョン1.0では、Tokenizers と Hub が独立したトップレベルモジュールとして分離された。これまではパッケージ全体に依存する必要があったが、今後は必要なモジュールだけを選んでインポートできる。 また、Swift向けJinjaライブラリの新バージョンもリリースされた。開発者のJohn Mai氏との共同作業で実現したもので、チャットテンプレート処理の速度が数桁単位で向上したとされる。 コミュニティでの活用事例 同ライブラリはすでに著名なプロジェクトで採用されている。 mlx-swift-examples(Apple提供)— LLMやVLM(ビジョン言語モデル)をMLXで動かすためのライブラリ群 WhisperKit(argmax)— Apple Silicon向けに高度に最適化されたオープンソースの音声認識フレームワーク FastVLM(Apple)および各種アプリデモ 今後の方向性 Hugging Faceは今後、MLX対応とエージェント用途に注力する方針を示している。iOSやmacOS上でのローカルAIエージェント構築が現実的になりつつある中、日本のApple開発者にとっても注目度の高い動向といえる。 v1.0のリリースノートおよびマイグレーションガイドはGitHubリポジトリで公開されている。 元記事: Swift Transformers Reaches 1.0 – and Looks to the Future

March 23, 2026 · 1 min · 胡田昌彦

NVIDIA、日本文化を理解するAI開発向け合成データセット「Nemotron-Personas-Japan」を公開——600万件のペルソナをCC BY 4.0で提供

NVIDIAが日本特化の合成ペルソナデータセットを公開 NVIDIAは、日本の人口統計・地理的分布・文化的特性を反映した合成データセット「Nemotron-Personas-Japan」をHugging Face上で公開した。CC BY 4.0ライセンスで提供されており、商用・非商用を問わず自由に利用できる。 なぜ今、日本語の合成ペルソナデータが必要なのか LLM(大規模言語モデル)の学習データの大半は英語であり、日本語をはじめとする非英語圏の開発者は、高品質なデータ確保に長年悩まされてきた。また、実在の個人データを利用する場合、日本の個人情報保護法(PIPA)への対応が複雑なハードルとなる。 Nemotron-Personas-Japanはこれらの課題を同時に解決する。合成データであるため個人を特定できる情報(PII)を一切含まず、かつ国勢調査や労働統計といった公的データに基づいて生成されているため、日本社会の実態を忠実に反映している。 データセットの規模と内容 600万件のペルソナ(100万レコード × 6ペルソナ) 1レコードあたり22項目(ペルソナ関連6項目+統計ベースのコンテキスト16項目) 総トークン数約14億(うちペルソナ関連が約8.5億) 約95万件の固有名(合成データとして前例のない多様性) 1,500以上の職種カテゴリー 職業・スポーツ・芸術・旅行・料理などの多様なペルソナタイプ 生成には、NVIDIAのエンタープライズ向け合成データ生成マイクロサービス「NeMo Data Designer」を使用。Jinja2テンプレート、Pydanticによる検証、構造化出力、自動リトライなどの仕組みを組み合わせた複合AIパイプラインで構築されている。 日本文化への細かな配慮 単なる統計の機械的反映に留まらず、AIトレーニング上の課題を意識した設計がなされている点が特徴だ。 教育歴:国の統計では一括分類される学歴区分を細分化し、多様な教育経路を表現 職業:統計上の分類に加え、事業主や専門職などの追加カテゴリーを収録 ライフステージ:学生・退職者・失業者など、統計では目立ちにくい層も明示的にモデル化 デジタルデバイド:年齢層ごとのデジタルリテラシー格差を反映 文化的特性:日本社会固有の規範や慣習を組み込み、地域文化への理解を高める 利用シーン データセットはNemotronをはじめとするオープンソースLLMとシームレスに連携するよう設計されており、以下のような用途への活用が想定される。 マルチターン会話データの合成生成 文化的配慮が可能なドメイン特化型AIアシスタントの開発 地方・都市間、年齢層間、教育水準間でのモデル公平性検証 日本語対応チャットボットやAIエージェントのファインチューニング ソブリンAIへの布石 本データセットは、NVIDIAが推進する「ソブリンAI(Sovereign AI)」——各国・地域が自国文化と言語に根ざしたAIを自律的に開発・運用できる体制の構築——を支援するグローバルコレクションの第一弾と位置付けられている。米国向けの「US Personas」データセットに続く取り組みであり、今後も各地域向けの展開が予定されている。 データセットはHugging Faceから以下のコードで即座に取得できる。 元記事: Nemotron-Personas-Japan: ソブリン AI のための合成データセット

March 23, 2026 · 1 min · 胡田昌彦

Intel Core Ultra上でQwen3-8Bエージェントを最大1.4倍高速化——深度プルーニングで推測デコーディングを強化

Intel、ローカルAIエージェント向けQwen3-8Bを最大1.4倍高速化 Intelのエンジニアチームは、Hugging Faceのブログにて、Intel® Core™ Ultra(開発コード名:Lunar Lake)の内蔵GPUを使ってQwen3-8Bの推論を最大1.4倍高速化する手法を発表した。OpenVINO.GenAIを基盤に、推測デコーディング(Speculative Decoding)と独自のレイヤー刈り込み(深度プルーニング)技術を組み合わせた成果だ。 Qwen3-8Bとエージェント用途 Qwen3-8Bは、Alibaba Cloudが開発したQwenファミリーの最新モデルで、ツール呼び出し・多段階推論・長文コンテキスト処理などエージェント向けの能力を標準で備える。Hugging Faceのsmolagents、QwenAgent、AutoGenといったフレームワークと組み合わせることで、幅広いAIエージェントアプリケーションを構築できる。 チャットボットと異なり、エージェントアプリケーションはモデルが「思考過程」をトークンとして出力しながら動作するため、トークン消費量が多く、推論速度がユーザー体験に直結するという特性がある。ローカルPC(AIPC)で高品質なエージェントを動かすには、いかに推論を高速化するかが課題だ。 推測デコーディングによる1.3倍高速化 まず基盤として、4ビット量子化されたQwen3-8BのOpenVINOモデルをLunar Lake内蔵GPUで動作させ、ベースラインを測定した。 その上で適用したのが推測デコーディングだ。この手法では、軽量な「ドラフトモデル」が複数のトークン候補を一度に生成し、それを大型の「ターゲットモデル」が一括検証することで、自己回帰的な生成ループのオーバーヘッドを削減できる。今回はQwen3-0.6Bをドラフトモデル、Qwen3-8Bをターゲットモデルとして組み合わせ、平均1.3倍の高速化を達成した。 コードはopenvino_genaiのLLMPipelineにdraft_model引数を渡すだけで利用できるシンプルな実装だ。 深度プルーニングでさらに1.4倍へ 推測デコーディングの高速化率は、ドラフトモデルの速度と精度のバランスに依存する。そこでIntelは、ドラフトモデルそのものを軽量化するアプローチを採用した。 具体的には、各レイヤーブロックの出力を角距離(Angular Distance)で評価し、モデルの精度への寄与が小さいブロックを特定して除去する。プルーニング後はファインチューニングで精度を回復させる。この手法により、Qwen3-0.6Bをさらに小型化しつつ品質を維持することに成功し、最終的に1.4倍の高速化を実現した。 smolagentsでのローカルエージェント実装 高速化された推論パイプラインは、Hugging Faceのsmolagentsと組み合わせることで、インターネット接続不要のローカルAIエージェントとして動作する。プライバシーを重視するユースケースや、クラウドAPIのレイテンシが問題になるシナリオでの活用が期待される。 日本への示唆 国内でもAIPC向けのローカルLLM活用は注目されており、Intel Core Ultra搭載機は多数流通している。今回の手法はOSSとして公開されており、OpenVINOモデルのダウンロードリンクも提供されているため、既存のハードウェアで今すぐ試せるのが大きな利点だ。エンタープライズ向けのオンプレミスAIエージェント構築にも応用できる技術として注目したい。 元記事: Accelerating Qwen3-8B Agent on Intel® Core™ Ultra with Depth-Pruned Draft Models

March 23, 2026 · 1 min · 胡田昌彦

Starlette 1.0リリース — ClaudeスキルでLLM対応の最新コードを生成する方法

Starlette 1.0、ついにリリース Python非同期Webフレームワーク「Starlette」がついにバージョン1.0に到達した。FastAPIの土台として広く使われながらも、その存在が陰に隠れがちだったStarletteにとって、これは大きなマイルストーンだ。 StarletteはKim Christieが2018年に開発を開始し、Python ASGIフレームワークの新世代を代表する存在となった。FlaskとDjangoを非同期ネイティブで融合させたような設計で、KimはDjango REST Frameworkの作者でもあることから、その親しみやすさも納得できる。多くのアプリをFlask風に単一のPythonファイルで書けるのが特徴だ。 2025年9月には、長年貢献してきたMarcelo Trylesinkiにリポジトリの管理が移管され、スポンサーシップを受けやすい体制が整えられた。 主な破壊的変更:lifespanの採用 0.x系からの主な変更点は、起動・終了処理の仕組みだ。従来の on_startup / on_shutdown パラメーターが廃止され、非同期コンテキストマネージャを使った lifespan 機構に置き換わった。 元記事: Experimenting with Starlette 1.0 with Claude skills

March 23, 2026 · 1 min · 胡田昌彦

マスク氏、TelaとSpaceX向け自社チップ製造施設「Terafab」構想を発表——実現性には疑問符も

マスク氏、自社チップ製造施設「Terafab」を構想——テスラ・SpaceXのAI需要に対応 イーロン・マスク氏は先週末、テキサス州オースティン市内で開催されたイベントにおいて、テスラとSpaceXが共同で半導体製造施設を建設する野心的な計画を発表した。マスク氏がこの施設を「Terafab」と命名していることが、公開された写真から確認されている。建設予定地はテスラのオースティン本社および「ギガファクトリー」の近隣とされている。 なぜ自前の半導体製造が必要なのか マスク氏が自社製造に踏み切る背景には、急増するAIおよびロボティクス向けの計算需要がある。氏は「半導体メーカーは我々が必要とするスピードでチップを製造してくれない。Terafabを建設するか、チップを持てないかの2択だ。チップが必要だから、建設する」と述べた。 日本でも生成AIの普及に伴いGPUの調達難が続いており、NVIDIAのH100/H200系チップを中心に需給ひっ迫が問題視されている。テスラやSpaceXが社内で半導体製造を内製化しようとする動きは、こうした業界全体のチップ不足を象徴する出来事といえる。 計画の規模と課題 マスク氏が掲げる目標は壮大だ。地球上では年間100〜200ギガワットの計算能力をサポートするチップを製造し、さらに宇宙空間では1テラワット規模の計算インフラを構築するという。 ただし、具体的なタイムラインは示されていない。また、Bloombergも指摘しているように、マスク氏には半導体製造の専門的なバックグラウンドがない。加えて、同氏はこれまでもテスラの自動運転完全実現やFSDの普及時期、SpaceXの有人火星飛行計画などで繰り返し「過大公約(overpromising)」を行ってきた歴史がある。 半導体製造は高度な専門知識と莫大な設備投資が求められる産業であり、TSMCやSamsungといった既存プレーヤーが長年かけて築いた製造技術の壁は非常に高い。Terafabが現実のものとなるかどうか、業界の注目が集まっている。 元記事: Elon Musk unveils chip manufacturing plans for SpaceX and Tesla

March 23, 2026 · 1 min · 胡田昌彦

CursorがAIコーディングモデル「Composer 2」の基盤に中国製Kimiを使用していたと認める

CursorのComposer 2、実は中国製モデルが基盤だった AIコーディングツールとして急成長を遂げているCursorが、今週リリースした新モデル「Composer 2」をめぐって物議を醸している。同社は当初、Composer 2を「フロンティアレベルのコーディング知性」と謳って発表したが、実際には中国企業Moonshot AIのオープンソースモデル「Kimi 2.5」を基盤として構築されていたことが明らかになった。 X(旧Twitter)のユーザーが暴露 きっかけはX上のユーザー「Fynn」による指摘だった。Fynnは、Composer 2が「追加の強化学習を施しただけのKimi 2.5にすぎない」と主張し、モデルIDにKimiを示すコードが含まれている証拠を提示した。「せめてモデルIDを変名しろよ」と皮肉も込めてポストしたこの指摘は、瞬く間にテック界隈で拡散した。 Moonshot AIはアリババとHongShan(旧Sequoia China)が出資する中国企業であり、そのモデルを米国スタートアップが流用していたという事実は少なからぬ注目を集めた。 Cursorは認めつつも「大部分は独自トレーニング」と主張 これに対し、CursorのVP(開発者教育担当)であるLee Robinsonは「そうです、Composer 2はオープンソースのベースモデルからスタートしました」と認めた。ただし、「最終モデルの計算リソースのうち、ベースモデルに使ったのは約4分の1にすぎず、残りは独自トレーニングに費やした」と説明し、各種ベンチマークでのComposer 2の性能はKimi 2.5と「大きく異なる」と強調した。 また、Kimi公式アカウントもX上でCursorを祝福する投稿を行い、今回の利用がFireworks AI経由の「認定商業パートナーシップ」に基づくものだと説明した。「Kimi-k2.5が基盤を提供できたことを誇りに思う」とも述べ、ライセンス上の問題はないとしている。 なぜ最初から開示しなかったのか 問題となるのは、Cursorが発表時にKimiとの関係を一切開示しなかった点だ。Cursorは昨秋に23億ドルの資金調達ラウンドを完了し、企業評価額は293億ドル(約4.4兆円)に達する。また年間収益換算で20億ドル超を達成したとも報じられており、そのような資金力を持つ企業がモデルをゼロから作らなかったことへの批判だけでなく、中国製モデルを基盤としたことへの政治的センシティビティも背景にある。 米中間でAI開発の「主導権争い」が激化する中、DeepSeekの躍進が昨年シリコンバレーに衝撃を与えたことは記憶に新しい。中国製モデルの採用を公表することへのためらいが、今回の情報開示の遅れにつながったとの見方もある。 共同創業者のAman Sangerも「最初のブログ記事でKimiのベースモデルに言及しなかったのは失敗だった。次のモデルでは修正する」と率直に認めた。 オープンソースエコシステムの現実 今回の件は、AIモデル開発においてオープンソースの活用が一般的になってきていることを改めて示している。商用製品がオープンソースのベースモデルを活用すること自体は珍しくないが、その出所を適切に開示することが信頼構築の観点から不可欠であることも浮き彫りとなった。日本でも多くのAIサービスが同様の構造を持つ可能性があり、モデルの出自に対する透明性への関心が今後さらに高まりそうだ。 元記事: Cursor admits its new coding model was built on top of Moonshot AI’s Kimi

March 23, 2026 · 1 min · 胡田昌彦

GDC 2026レポート:会場はAI一色なのに、開発者たちは「絶対に使わない」

AIだらけの会場、でもゲームにAIなし——GDC 2026の奇妙な矛盾 毎年ゲーム開発者が集まる業界最大のカンファレンス「GDC(Game Developers Conference)Festival of Gaming」2026年版が開催された。今年の会場を一言で表すなら「AI祭り」だった。しかし、ふたを開けてみると、実際にゲームを作っている開発者たちの声は真逆だった。 会場を埋め尽くすAIベンダー 展示フロアでは、生成AIを活用したツールが並んだ。AIで動作するNPC(ノンプレイヤーキャラクター)の生成、チャット入力だけでゲームまるごとを作るツール、テンセント(Tencent)のAIが生み出したピクセルアートのファンタジー世界のデモなど、10分プレイするだけでも体験できた。レイザー(Razer)のブリーフィングでは、シューティングゲームのQA(品質保証)作業を自動化するAIアシスタントが披露され、Googleディープマインド(DeepMind)の研究者によるAI生成のプレイアブル空間についての講演は立ち見が出るほどの盛況ぶりだった。 しかし、開発者たちは「絶対に使わない」 ところが、記者が実際に話したゲーム開発者のほぼ全員が、自分のプロジェクトへのAI活用を否定した。インディーゲーム『The Melty Way』の開発者ガブリエル・パケット氏はこう語る。「人間の思考ってものすごく美しいと思う。なんでそれを使わないんですか?」 この感覚は多くの開発者に共通していた。特にインディー開発者の間では、AIを使うことで「人間が作った」という本質的な価値が損なわれるという意識が根強い。 GDCが実施した最新調査でも、回答者の52%が「生成AIはゲーム業界に悪影響を与えている」と回答。この割合は2025年の30%、2024年の18%から急上昇しており、反感は年々強まっている。すでに「AIフリー」を明示してゲームを販売するインディー開発者も増えてきた。 「人の手の感触」へのこだわり インディーの名作『Tunic』や『Chicory: A Colorful Tale』を送り出したパブリッシャー兼スタジオ「Finji」の共同創業者アダム・サルツマン氏とレベッカ・サルツマン氏は、自社作品の核心を「特定の人物の指紋が感じられること」と表現する。「見せた瞬間に何か分かるんだけど、実際にプレイするとすべての期待を裏切ってくる」(レベッカ氏)。この哲学は生成AI活用と真っ向から対立する。Finjiのゲームに生成AIを使う可能性を問われたアダム氏の答えは明快だった。「絶対にない」 AI推進派との温度差 一方、業界の別の側面ではAI推進論も根強い。Google Stadiaの立ち上げに携わり、ソニーでPlayStation NowやPlayStation Homeの開発経験を持つGoogle Cloud幹部ジャック・ブーザー氏は「生成AIは私の30年近いゲーム業界キャリアで目撃してきた中で最大の変革だ」と断言する。開発サイドではデバッグやQA、アイデア出しへの活用、プレイヤーサイドではゲームの個別カスタマイズへの応用など、楽観的な展望も語られた。 Nvidia(エヌビディア)のDLSS 5が公開デモで既存ゲームキャラクターの顔を「AIっぽいノイズ感のある描写」に変えてしまったことで広がった否定的反応も、小規模開発者のAI離れに拍車をかけているとみられる。 GDC 2026は、ゲーム業界が抱えるAIをめぐる深い矛盾を可視化した場となった。ベンダーや大企業が推し進めるAIの波と、実際にゲームを作るクリエイターたちの「人の手」へのこだわり——この溝は2026年現在、むしろ広がりつつある。 元記事: AI was everywhere at gaming’s big developer conference — except the games

March 23, 2026 · 1 min · 胡田昌彦

AI・テクノロジーの情報を発信しています

YouTube

AI・テクノロジーの最新トレンドを動画で配信中

note

技術コラム・深掘り記事を公開中