生成AI | ebisuda.net

Black Forest LabsのFLUX.2がDiffusersに対応——32Bパラメータの新アーキテクチャで画像生成が進化

FLUX.2とは何か Black Forest Labs（BFL）が新たにリリースした画像生成モデル「FLUX.2」が、Hugging FaceのDiffusersライブラリに対応した。前作のFLUX.1シリーズとは異なり、アーキテクチャをゼロから再設計した完全新規モデルであり、単純な後継版や置き換えとして位置付けられていない点に注意が必要だ。 FLUX.2はテキストプロンプトによる生成だけでなく、画像を参照入力として複数枚受け取りながら出力を生成する画像ガイド生成にも対応している。生成と編集の両用途をカバーする設計となっている。アーキテクチャの主な変更点テキストエンコーダーの刷新 FLUX.1では2つのテキストエンコーダーを使用していたが、FLUX.2ではMistral Small 3.1に一本化された。これによりプロンプト埋め込みの計算が大幅にシンプルになり、最大512トークンまでのシーケンス長をサポートする。また、単一レイヤーの出力ではなく中間レイヤーの出力を積み重ねる手法を採用しており、表現力の向上が期待される。 DiTブロック構成の変化 FLUX.2はFLUX.1と同様にマルチモーダル拡散トランスフォーマー（MM-DiT）＋並列DiTの構成を踏襲しているが、いくつかの重要な変更が加えられている。時間・ガイダンス情報の共有化: 各トランスフォーマーブロックが個別のモジュレーションパラメータを持つFLUX.1と異なり、FLUX.2ではダブルストリーム・シングルストリームそれぞれのブロック群でこれらを共有するバイアスパラメータの完全廃止: アテンション層・フィードフォワード層を含むすべての層でbiasパラメータを使用しない設計に完全並列トランスフォーマーブロック: シングルストリームブロックで、アテンションのQKV投影とFF入力投影を統合した完全並列構造を採用シングルストリームブロックの割合が増大 FLUX.1[dev]-12Bがダブルストリーム19ブロック・シングルストリーム38ブロックだったのに対し、FLUX.2[dev]-32BはダブルストリームをわずかA8ブロックに絞り、シングルストリームを48ブロックに拡大している。総パラメータに占めるシングルストリームの割合はFLUX.1の約46%からFLUX.2では約73%へと大幅に増加した。推論に必要なVRAM FLUX.2の最大の課題はそのハードウェア要件だ。大規模なDiTとMistral3 Smallの組み合わせにより、オフロードなしでの推論には80GB超のVRAMが必要となる。Diffusersのドキュメントでは、CPUオフロードや量子化を活用した一般的なGPU環境向けの推論方法も解説されており、コンシューマー向けGPUでの利用も一定程度可能とされている。 LoRAファインチューニングへの対応 Diffusersの対応によりLoRAを用いたファインチューニングも可能となった。カスタムスタイルの学習や特定ドメインへの特化といった用途に活用できる。まとめ FLUX.2は画像生成・編集モデルとして技術的に大きな前進を示しているが、32Bという巨大なモデルサイズはリソース面でのハードルも高い。Diffusersへの統合により推論の敷居は下がったものの、実用的な活用には引き続きハイエンドなGPU環境が求められる。オープンソースの画像生成モデルとして、研究・開発コミュニティにおけるFLUX.2の動向に今後も注目したい。元記事: Diffusers welcomes FLUX-2

OpenAI CodexがHugging Face Skillsと連携——AIモデルのファインチューニングをエージェントに丸投げできる時代へ

CodexがHugging Face Skillsと統合——ML実験をエージェントに委任する新時代 OpenAIのAIコーディングエージェント「Codex」が、Hugging Faceのスキルリポジトリ「HF Skills」と統合され、機械学習モデルのトレーニングから評価・公開までをエンドツーエンドで自動化できるようになった。Hugging Faceが2025年12月に公式ブログで発表した。何ができるのか HF Skillsを使うことで、Codexは以下のタスクを自律的にこなせる。言語モデルのファインチューニングおよびRLアライメント（強化学習による調整） Trackioを通じたリアルタイムのトレーニングメトリクスの確認と対応チェックポイントの評価と結果に基づく判断実験レポートの自動生成 GGUFフォーマットへのエクスポートとモデルの量子化（ローカル実行向け） Hugging Face Hubへのモデル公開例えば「Qwen3-0.6BをデータセットでファインチューニングしてHubに公開して」と一言伝えるだけで、Codexがデータセットの検証・適切なハードウェアの選択・学習スクリプトの生成・ジョブの投稿・進捗監視まで一気に処理する。おもちゃではない、本番レベルの技術スタックこの統合が注目される理由の一つは、対応する学習手法の本格度だ。教師ありファインチューニング（SFT）、直接選好最適化（DPO）、検証可能な報酬を用いた強化学習（RLVR）など、現在の生成AIの最前線で使われる手法に対応している。モデルサイズも0.5Bから7Bパラメータまでをカバーし、複数手法を組み合わせたマルチステージパイプラインも構築可能だ。 Claude CodeやGemini CLIとも互換興味深いのは、HF Skillsが特定のエージェントに縛られていない点だ。CodexはAGENTS.mdファイルを使ってスキルを読み込む仕組みを採用しており、Claude CodeのSkillsやGemini CLIとも互換性を持つ。異なるAIエージェントが同じスキルリポジトリを共有できるという設計は、エージェント間の相互運用性を高めるうえで重要な方向性を示している。日本のMLエンジニアへの影響国内でもLLMのファインチューニングへの関心は高まっており、Hugging Face上での日本語モデルの開発も活発だ。今回の統合により、実験の設計から結果レポートの確認まで「エージェントに委任して、人間はレビューに集中する」というワークフローが現実的になる。Hugging Face ProまたはTeam/Enterpriseプランへの加入が必要だが、個人開発者から企業のMLチームまで活用の幅は広い。 CodexとHF Skillsを組み合わせた活用は、AIモデル開発のハードルを下げ、より多くのエンジニアが最先端のトレーニング手法を試せる環境を整えつつある。元記事: Codex is Open Sourcing AI models

NVIDIAがCES 2026で発表——DGX SparkとReachy Miniで「デスクの上のR2-D2」を実現

NVIDIAがCES 2026で「自分だけのAIロボット」を実現するデモを披露 NVIDIAは2026年1月5日に開催されたCES 2026において、パーソナルAIスーパーコンピューター DGX Spark と小型ロボット Reachy Mini を組み合わせたエージェントデモを公開した。CEOのジェンスン・フアン氏がキーノートで直接デモを行い、デスクに置いた小型ロボットとリアルタイムで会話・協業できる様子を見せた。「机の上のR2-D2」というビジョンこのデモのコンセプトは、クラウドに依存せず手元のハードウェアでデータをプライベートに処理しながら動作する「パーソナルAIバディ」だ。DGX Sparkのローカル処理能力を使うことで、会話内容や取り扱うデータを外部サーバーに送ることなくエージェントを動かせる点が特徴となっている。使用されている主なコンポーネントデモで用いられた技術スタックは以下の通りだ。推論モデル: NVIDIA Nemotron 3 Nano（ローカル動作時は約65GBのディスク容量が必要）視覚モデル: NVIDIA Nemotron Nano 2 VL（ビジョン・ランゲージモデル、約28GB）音声合成: ElevenLabsのTTSモデルエージェント基盤: NVIDIA NeMo Agent Toolkit ロボット: Reachy Mini（実機またはシミュレーター） NeMo Agent ToolkitはLangChain・LangGraph・CrewAIといった既存のエージェントフレームワークとも連携でき、モデルの差し替えやルーティングロジックの変更が容易な疎結合アーキテクチャが採用されている。トークン使用効率やレイテンシーのプロファイリング・自動チューニング機能も内蔵している。完全オープンな構成が鍵既存のクローズドなパーソナルアシスタントとの最大の違いは、モデル・プロンプト・ツール・ロボットの動作すべてをユーザーが制御できる点だ。Reachy Miniはカメラ（視覚）・スピーカー（発話）・アクチュエーター（動作）を持ち、Pythonから直接制御できるため、既存のエージェントスタックへの統合が容易となっている。デプロイ方法も柔軟で、DGX Sparkなどのローカルハードウェアで動かす他に、NVIDIA BrevやHugging Face Inference Endpointsを使ったクラウドGPU上への展開、またはNVIDIAやHugging Faceのサーバーレスモデルエンドポイントへのリクエスト送信も選択できる。日本のAI開発者への示唆 Reachy Miniは現在Hugging Face上でも情報が公開されており、ソースコードを参照しながら同様の構成を自前で再現できる。エッジAIとロボティクスの融合という観点では、国内でも製造・介護・教育といった分野への応用が期待されるアーキテクチャパターンといえるだろう。NVIDIAがハードウェア・モデル・フレームワークをすべてオープンに揃えてきたことで、個人や中小規模チームがフィジカルAIエージェントを開発するハードルは大きく下がっている。元記事: NVIDIA brings agents to life with DGX Spark and Reachy Mini

NVIDIA「Cosmos Reason 2」登場——ロボットや自律AIに高度な推論能力を、オープンモデルのフィジカルAI分野で首位獲得

NVIDIAがフィジカルAI向け推論モデルの最新版を公開 NVIDIAは、物理世界を対象とするAI（フィジカルAI）向けのオープン推論ビジョン言語モデル（VLM）最新版「Cosmos Reason 2」を公開した。前バージョンを精度面で大きく上回り、「Physical AI Bench」および「Physical Reasoning」の両ベンチマークリーダーボードでオープンモデル首位を獲得している。ビジョン言語モデルの課題——「推論」の壁を越えるビジョン言語モデルは、画像内の物体認識やパターン検出などのタスクで急速に進化してきた。しかし、複数ステップの計画立案や不確実な状況への適応、新しい場面への対応といった、人間なら自然にこなせるタスクは依然として苦手とされてきた。 Cosmos Reasonシリーズは、こうした「推論のギャップ」を埋めることを目的として設計されている。Cosmos Reason 2は、ロボットやAIエージェントが物体の動きを時空間的に把握し、物理法則や常識・事前知識を活用しながら複雑な問題をステップごとに解決できるよう設計されている。主な強化ポイント時空間理解の向上：空間・時間の認識精度とタイムスタンプの精度が改善 2種類のモデルサイズ：2Bおよび8Bパラメータのモデルを用意し、エッジデバイスからクラウドまで柔軟に展開可能視覚的空間理解の拡張：2D/3D点位置推定、バウンディングボックス座標、軌跡データ、OCR（光学文字認識）をサポート長文コンテキストの強化：入力トークン数が前版の16Kから256Kへと大幅拡大 Cosmos Cookbookレシピ：多様なユースケースへの適応を支援するサンプルコードを提供実際の活用シーン動画解析AIエージェント膨大な映像データからインサイトを抽出する用途では、Cosmos Reason 2はOCR対応に加え、2D/3D点位置推定やマーク認識などの機能を新たに提供する。Salesforceは、Cobaltロボットが撮影した映像を「Agentforce」と組み合わせて職場の安全管理・コンプライアンス確認に活用する取り組みを進めている。自動運転向けデータアノテーション Uberは、自動運転車（AV）の訓練データ向けに、正確で検索可能な映像キャプション生成にCosmos Reason 2の活用を探っている。共同開発されたファインチューニングレシピによると、BLEU スコアが10.6%改善（0.113→0.125）、LingoQAスコアが13.8%向上（63.2%→77.0%）するなど、自動運転領域への高いドメイン適応性が示されている。ロボットの計画・行動制御ロボット向けビジョン言語アクション（VLA）モデルの「頭脳」として、次の行動だけでなく軌跡座標の出力にも対応。より緻密で計画的な動作制御が可能になった。日本市場・製造業への示唆製造ラインや物流倉庫でのロボット活用が進む日本においても、物理世界を深く理解した推論型AIは大きな可能性を持つ。特に映像による品質検査や異常検知、ロボットアームの精密制御への応用が期待される。Cosmos Reason 2はHugging Faceでオープンに公開されており、国内企業も含めた幅広い開発者がアクセス可能だ。元記事: NVIDIA Cosmos Reason 2 Brings Advanced Reasoning To Physical AI

Microsoft、差分アテンションの第2世代「Differential Transformer V2」を発表——カスタムカーネル不要で高速推論を実現

Microsoftが差分アテンション第2世代を発表——推論速度を標準Transformerと同等に MicrosoftのUnifiedLanguage Modelチーム（Tianzhu Ye、Li Dong、Yutao Sun、Furu Wei）は、大規模言語モデル（LLM）のアテンション機構を改良した**Differential Transformer V2（DIFF V2）**を発表した。 Differential Transformerとは差分アテンション（Differential Attention）は、Microsoftが提唱したアテンション機構で、「2つのSoftmaxアテンションの差分を取る」という独自のアプローチでノイズを打ち消し、重要なコンテキストへの集中力を高める技術だ。第1世代（DIFF V1）は精度面で優れた結果を示していたが、デコード速度の低下とカスタムアテンションカーネルの必要性という2つの課題を抱えていた。 DIFF V2の核心——KVヘッドを増やさずクエリヘッドを2倍に DIFF V2が採用した設計の要点は、クエリヘッド数を2倍にしつつ、キーバリュー（KV）ヘッド数はそのまま維持するという点にある。 LLMの推論（デコード）フェーズはメモリ帯域幅に律速されるため、KVキャッシュのサイズが速度を左右する。DIFF V2はKVヘッドを増やさないことで、標準Transformerと同等のデコード速度を実現した。DIFF V1ではバリューキャッシュを2回ロードする必要があり速度低下が生じていたが、DIFF V2ではこの問題が解消されている。差分演算では、同じGQA（Grouped Query Attention）グループに属する2つのクエリヘッドの出力から差し引く仕組みを採用。このグループ内でキーとバリューが共有されることが、性能面で重要な役割を果たしている。カスタムカーネル不要でFlashAttentionと完全互換 DIFF V1では差分アテンションの実装にカスタムCUDAカーネルが必要だったが、DIFF V2ではクエリ・キー・バリューのヘッド次元が揃っているため、標準的なFlashAttentionカーネルをそのまま利用できる。NVIDIAのHシリーズ・Bシリーズ（Hopper/Blackwell世代）GPUでの事前学習においても、スループット低下はほぼ無視できる水準に抑えられているという。また、DIFF V1で採用されていたRMSNormによる後処理や複雑なλ計算を廃し、シグモイド関数を使ったシンプルなλ推定（トークンごと・ヘッドごとに入力Xから動的に射影）に置き換えた。これにより実装が大幅に簡素化された。長文脈処理にはYOCOとの組み合わせを推奨長シーケンスのプリフィリング（初期コンテキスト処理）については、YOCO（You Only Cache Once）と組み合わせることを研究チームは推奨している。YOCOはGemma 3nでも採用されており、シーケンス長に対するプリフィリング計算量を線形に抑える技術だ。実装・コードの公開コードはMicrosoftのGitHubリポジトリ（microsoft/unilm）で公開されており、Hugging Face Blogでも詳細な解説と数式が読める。差分アテンションの改良版として、実際のLLM開発への応用が現実的な選択肢となってきた。日本のAI研究者・エンジニアにとっても、標準的な開発環境でそのまま試せる実用的な技術として注目に値する。元記事: Differential Transformer V2

エンタープライズAIエージェントはなぜ失敗するのか——IBMとUCバークレーが「MAST」で根本原因を解明

AIエージェントは「なぜ」失敗するのか、ようやく答えが出た AIエージェントのベンチマーク評価は長らく「成功率」という1つの数値に集約されてきた。しかしその数値は「失敗した」という事実を伝えるだけで、「なぜ失敗したか」は教えてくれない。IBMリサーチとUCバークレーの研究チームは、このブラックボックス問題に正面から取り組み、その結果を公開した。 ITBench × MASTによる診断アプローチ研究チームが活用したのは2つのフレームワークだ。 ITBenchはSRE（サイト信頼性エンジニアリング）、セキュリティ、FinOpsの自動化タスクを対象とした業界標準ベンチマークで、Kubernetesの障害診断やクラウドコスト最適化など、実務に近い長期タスクをエージェントに課す。 **MAST（Multi-Agent System Failure Taxonomy）**は、複雑なマルチエージェントシステムの失敗モードを体系的に分類するフレームワーク。1,600件超のトレースを分析して導出されたもので、単なるエラーログではなく「どの判断プロセスで何が崩壊したか」を構造化して記述できる。今回の研究では、Gemini-3-Flash、Kimi-K2、GPT-OSS-120Bという3クラスのモデルに対して310件のITBench SREトレースをMASTで注釈付けし、失敗パターンを比較分析した。 3つの主要な発見 1. フロンティアモデルは「局所的に」失敗する Gemini-3-Flashのような最先端モデルは、1トレースあたり平均2.6の失敗モードに留まり、失敗は比較的孤立している。典型的なボトルネックは「検証フェーズ」——タスクを完了したと判断する段階での誤りだ。 2. 大規模オープンモデルは「連鎖的に」崩壊する GPT-OSS-120Bでは1トレースあたり5.3の失敗モードが観測された。初期の推論ミスがコンテキストを汚染し、その後のステップで幻覚（ハルシネーション）が雪だるま式に増加する「カスケード障害」が特徴的だ。 3. 最大の失敗予測因子は「自己採点」モデルの種類を問わず、最も強力な失敗予測因子は**FM-3.3（不正確な検証）**だった。エージェントはしばしば、実際には問題が解決されていないにもかかわらず「タスク完了」を宣言してしまう。自分の宿題を自分で採点させることの危険性が数値で示された形だ。 Kimi-K2には特有の問題もあった。タスク完了の認識に問題があり、「早期終了（+46%増）」と「終了条件の未認識（+43%増）」が突出して多く、解決直前で諦めるか、逆に無限ループに陥るケースが頻発した。実装への提言研究チームはこれらの知見から、エージェント設計者向けの具体的な対策を提示している。検証の外部化：LLMに自己評価させるな。終了前にツールによるハードな証拠を必須とせよ終了制御をモデルの外に置く：ループ検出器や有限状態機械（FSM）を明示的に実装し、同一アクションの繰り返しを制御する曖昧な入力への対処を一級市民に：入力が不明瞭な場合、「明確化を求めるか読み取り専用で進む」という分岐をエージェントグラフに組み込むエンタープライズAI開発への示唆この研究が重要なのは、「成功したか否か」の先にある問いを提示している点だ。「何が壊れ、どこで壊れ、どの介入が最も効果的か」——これこそが本番環境でのエージェント開発に必要な評価観点であり、MASTはその答えを導き出す実践的な枠組みとして今後の標準となり得る。 ITBenchのデータセットとMASTの注釈データはHugging Faceで公開されており、GitHubでもコードが利用可能だ。エンタープライズ向けAIエージェントを設計・評価している開発者にとって、必読の研究成果といえる。元記事: IBM and UC Berkeley Diagnose Why Enterprise Agents Fail Using IT-Bench and MAST

GGMLとllama.cppがHugging Faceに参画——ローカルAIの長期的発展を目指す

GGMLとHugging Faceが統合——ローカルAIの未来を共に築くローカルLLM推論エンジンとして世界中の開発者に愛用されている「llama.cpp」の開発元であるGGMLが、AI/MLプラットフォーム大手のHugging Face（HF）にチームとして参画することが2026年2月に発表された。GGMLの創設者であるGeorgi Gerganov氏とそのチームが合流し、llama.cppの開発を継続しながら、HFのリソースと連携していく。 llama.cppとは llama.cppは、MetaのLLaMAモデルをはじめとする大規模言語モデル（LLM）をCPUやGPU上でローカル実行するためのC/C++製推論エンジンだ。量子化技術を駆使することで、一般的なPCやMacでも高性能なAI推論を可能にし、クラウドサービスに依存しないプライバシー重視の利用スタイルを実現している。日本でも個人開発者や企業のオンプレミスAI活用で広く使われている。何が変わるのか HF側が強調するのは、「変わらないこと」の重要性だ。Gerganov氏とチームは引き続きllama.cppの開発・メンテナンスに100%の時間を注ぎ、技術的な方向性やコミュニティ運営についての完全な自律性を保つ。プロジェクトは従来通り100%オープンソースで継続される。 HFが提供するのは、長期的かつ持続可能なリソースだ。これにより、ボランティア主体のOSSプロジェクトにありがちな「メンテナーの疲弊」リスクを軽減し、指数関数的に進化するローカルAIの波に対応した継続的な開発が可能になる。技術的なシナジー HFにはllama.cppのコアコントリビューターがすでに在籍しており、今回の統合はきわめて自然な流れだという。技術的には、HFのtransformersライブラリ（モデル定義のデファクトスタンダード）とllama.cppの連携をさらに深め、新しいモデルをllama.cppへ「ほぼワンクリック」で移植できる仕組みの整備が進む見込みだ。さらに、GGMLベースのソフトウェア全体のパッケージングとユーザー体験の改善も重点課題として挙げられている。ローカル推論がクラウド推論の本格的な代替となりつつある今、一般ユーザーがモデルを簡単にデプロイ・実行できる環境の整備が急務とされている。オープンソース超知能へのビジョン両者が共有するビジョンは「オープンソースの超知能（Superintelligence）をあらゆる人がアクセスできるものにする」というものだ。デバイス上で最大限効率的に動作する推論スタックの構築を通じて、AIの民主化をさらに推し進めることが長期目標として掲げられている。ローカルAIの普及は、データプライバシーの観点から特に医療・法務・金融などの分野で関心が高い日本市場にとっても重要な動きだ。今後のllama.cppの進化と普及加速に注目したい。元記事: GGML and llama.cpp join HF to ensure the long-term progress of Local AI

GPUのアイドル時間を60%削減——16のオープンソースRLライブラリから学ぶ非同期強化学習の設計

同期RLの「壁」——GPUが60%の時間アイドル状態になる問題 LLM（大規模言語モデル）のポストトレーニングに強化学習（RL）を活用する手法が急速に普及しているが、従来の同期型RL訓練には深刻なボトルネックが存在する。 32Bパラメータのモデルで32Kトークンのロールアウト（モデルの出力生成）を1バッチ処理すると、推論だけで数時間かかることがある。その間、学習用GPUは完全にアイドル状態だ。日本語でいえば「データが来るのをひたすら待っている状態」である。この非効率を解消するために生まれたのが非同期RLアーキテクチャだ。解決策：推論と学習を分離する非同期RLの核心的なアイデアはシンプルだ。推論専用GPUプールと学習専用GPUプールを分離する両者をロールアウトバッファ（モデル出力の一時保管領域）で接続するモデルの重みを非同期に転送することで、どちらの側も相手を待たないようにするこの設計により、推論と学習が並行して動き続け、GPU稼働率が大幅に改善される。 16ライブラリを7軸で徹底比較 Hugging Faceのチームは、この非同期RLパターンを実装した16のオープンソースライブラリを以下の7軸で調査・比較した。比較軸内容オーケストレーション分散処理の制御方式ロールアウトバッファ出力データの保管設計重み同期プロトコルモデルパラメータの転送方法ステールネス管理古いデータサンプルの扱い方部分ロールアウト対応未完了出力の処理 LoRAサポート軽量ファインチューニングへの対応分散学習バックエンド並列化方式主要な調査結果オーケストレーションはRayが独占：調査した16ライブラリのうち8つがRayを採用。分散MLの事実上の標準となっている。重み転送はNCCLブロードキャストが主流：NVIDIA Collective Communications Library（NCCL）のブロードキャスト方式がデフォルトとして広く使われている。ステールネス管理の多様性：古いデータをシンプルに破棄するものから、重要度サンプリング補正（importance-sampling correction）という高度な手法まで、各ライブラリの対応はまちまちだ。 LoRAサポートはまだ限定的：LoRA（Low-Rank Adaptation）による効率的なファインチューニングへの対応は、現状では少数のライブラリにとどまる。 MoEサポートが次の差別化要因：Mixture of Experts（MoE）アーキテクチャの分散学習対応が、今後のライブラリ選定における重要な判断軸になりつつある。DeepSeek v3のようなMoEモデルの台頭がこのトレンドを加速している。今後の課題：推論と学習のミスマッチ報告書では今後の設計課題も挙げられている。特に注目されるのが訓練・推論ミスマッチ問題だ。MoEモデルでは、学習時に使うレイヤーと推論時に使うレイヤーが異なるため、重み同期の設計が複雑になる。また、マルチエージェント協調進化やプロセス報酬モデル（推論の途中ステップに報酬を与える手法）の台頭により、同期のタイミング設計がさらに困難になっている。 TRL（Transformer Reinforcement Learning）の設計方針 Hugging FaceはTRLの非同期トレーナーに以下の原則を採用すると発表した。オーケストレーションの軽量化：複雑な依存関係を避けシンプルに保つトークン単位のバージョン管理付き有界キュー：ダブルバッファリングなし NCCLパック転送による重み同期：転送効率を最大化エージェント型ワークロード向けの部分ロールアウトサポート LLMの推論能力強化（いわゆる「思考するAI」）がトレンドとなる中、非同期RLアーキテクチャの設計は今後のAI開発の基盤技術として重要性を増している。フルの比較表は原文で公開されており、ライブラリ選定の参考になるだろう。元記事: Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries

H CompanyがHolotron-12Bを公開——ハイブリッドSSMアーキテクチャで推論スループット2倍超を実現したコンピューターユースAIエージェント

H CompanyがHolotron-12Bを公開——高スループット推論を実現したコンピューターユースエージェントモデルフランスのAIスタートアップH Companyは2026年3月17日、マルチモーダルコンピューターユースモデル「Holotron-12B」をHugging Faceで公開した。NVIDIAが公開したオープンモデル「Nemotron-Nano-2 VL」をベースに、H Company独自のデータセットでポストトレーニングを施した本モデルは、エージェント向けの高スループット推論を主目的として設計されている。なぜ作ったのか——エージェント特化の思想現在主流のマルチモーダルモデルの多くは、静的な画像認識や指示への追従を最適化対象としている。これに対してHolotron-12Bは、コンピューターを実際に操作するAIエージェント（コンピューターユースエージェント）のポリシーモデルとして機能することを目指している。エージェントは「知覚→判断→行動」を繰り返しながらインタラクティブな環境で動作するため、長いコンテキストや複数画像を効率よく処理できる能力が求められる。ハイブリッドSSMアーキテクチャが鍵本モデルの推論効率を支えるのが、NemotronアーキテクチャのハイブリッドSSM（State-Space Model）と注意機構の組み合わせだ。純粋なTransformerベースのモデルでは、トークン数が増えるにつれてKVキャッシュが線形に増大し、長文脈処理がVRAMのボトルネックとなる。これに対しSSMはシーケンス長に依存しない定数サイズの状態を保持するだけでよいため、メモリフットプリントが大幅に削減される。この特性がマルチ画像・長文脈のエージェントワークロードに特に効果的に働く。ベンチマーク結果——スループット2倍超 WebVoyagerベンチマーク（並列ワーカー100件）での評価では、**単一H100 GPU + vLLM（v0.14.1）**の構成で以下の結果が得られた。モデル最大トークンスループット Holo2-8B（従来モデル） 5,100 tokens/s Holotron-12B 8,900 tokens/s 並列リクエスト数が増加するにつれてHolo2-8Bのスループットが頭打ちになるのに対し、Holotron-12Bは安定してスケールし続ける。同じハードウェア上でより大きな実効バッチサイズを処理できることが、この差を生んでいる。用途と今後の展開 H Companyは、高スループットが求められるデータ生成・アノテーション・オンライン強化学習などのワークロードでの活用を想定している。また同社はNVIDIA Inceptionプログラムのメンバーであり、NVIDIAとの協業が本モデルの実現を後押しした。モデルの重みとドキュメントはHugging Faceで公開されており、vLLMを通じて推論可能だ。コンピューターユースエージェントの実用化に向けた重要な一歩となる本モデルに、今後も注目したい。元記事: Holotron-12B - High Throughput Computer Use Agent

Hugging Faceオープンソース現状報告 Spring 2026：ユーザー1300万人・モデル200万件突破、地殻変動が続くAIエコシステム

オープンソースAIエコシステムが急拡大――ユーザー・モデル・データセットが軒並み倍増 Hugging Faceは2026年3月17日、プラットフォーム上のオープンソースAIエコシステムの現状をまとめたレポート「State of Open Source on Hugging Face: Spring 2026」を公開した。同レポートは競争環境、地理的分布、技術トレンド、新興コミュニティの動向を多角的に分析したもので、2025年中頃に発表された前回レポートの続編にあたる。 2025年を通じて、Hugging Faceのユーザー数は1300万人に到達。公開モデル数は200万件超、公開データセット数は50万件超と、いずれも前年比で約2倍の伸びを記録した。特に注目すべきは、単にモデルを「使う」だけでなく、ファインチューニング済みモデルやアダプター、ベンチマーク、アプリケーションといった派生成果物を「作る」ユーザーが増えている点だ。オープンソースAIへの関与が消費から能動的な参加へとシフトしている。エコシステムは集中構造――上位0.01%が全ダウンロードの約半数を占める一方、エコシステムの内部は高度に集中している。Hugging Face上のモデルの約半数は累計ダウンロード数が200件未満にとどまる。対照的に、最もダウンロードされた上位200モデル（全体の0.01%）が全ダウンロード数の**49.6%**を占めるという実態が明らかになった。ただし、特定の言語・ドメイン・課題領域に特化したコミュニティは、全体的なダウンロード数が少なくても継続的な活用が見られる。オープンソースAIは「単一の市場」ではなく、重なり合う複数のサブエコシステムの集合体として理解するべきだとレポートは指摘する。 Fortune 500の30%超が参入――大企業・スタートアップともにオープンモデルを活用企業の参入も著しい。Fortune 500企業の30%以上がHugging Faceに認証済みアカウントを持つようになった。スタートアップ企業はオープンウェイトモデルをデフォルトコンポーネントとして採用するケースが増えており、たとえばThinking MachinesはTinkerモデルをオープンウェイトのみで構築。VS CodeやCursorといった人気IDEもオープン・クローズド双方のモデルをサポートしている。 Airbnbなど米国の老舗企業もオープンエコシステムへの関与を深めており、2025年を通じて組織向けサブスクリプションへのアップグレードも増加した。Big Tech各社の中ではNVIDIAが最も積極的な貢献者として突出している。オープンソースソフトウェア全般の研究では、オープン成果物が生み出す下流の経済価値はその制作コストを大きく上回るとされており、AIの領域でも同様の力学が生じつつある。クローズドシステムのみに依存する組織はコスト増とデプロイ・カスタマイズの柔軟性低下に直面するリスクがある。地理的分布――米中二強体制が続くなか、中国モデルの存在感が急上昇過去4年間の総ダウンロード数を地域別に見ると、米国と中国が上位を占め、英国・ドイツ・フランスがそれに続く。ただしモデル全ダウンロードの約半数は、明確な地理的拠点を持たない個人ユーザーや分散型組織によるものだ。 DeepSeekをはじめとする中国発モデルの急台頭は、オープンソースAI開発の地政学的な多極化を示す象徴的な出来事として世界から注目されており、日本のAI開発者・研究者にとっても選択肢の広がりとして恩恵をもたらす可能性がある。今回のレポートは、オープンソースAIが「技術的選択肢のひとつ」から「産業インフラの基盤」へと変貌しつつあることを改めて示している。元記事: State of Open Source on Hugging Face: Spring 2026

1日以内でドメイン特化の埋め込みモデルを構築する方法——NVIDIAが公開したRAG改善レシピ

RAGシステムの「あるある」な落とし穴を解消する RAG（Retrieval-Augmented Generation）システムを構築した経験があれば、誰もが一度はこの壁にぶつかる。汎用の埋め込みモデル（Embedding Model）は「インターネット全般」を理解するように訓練されているため、契約書、製造ログ、独自の化学式、社内分類体系といったドメイン固有の文書では微妙なニュアンスを捉えきれない。 NVIDIAは2026年3月、この問題を解決する完全なオープンソースパイプラインをHugging Face Blogにて公開した。シングルGPU・1日以内のトレーニング時間で、汎用埋め込みモデルをドメイン特化モデルへと変換できる。しかも手動ラベリングは一切不要だ。合成データ生成で学習コストを劇的に削減埋め込みモデルのファインチューニングには、通常、数千件の「（クエリ、関連文書）ペア」が必要となる。しかしこのデータを手動で作成するのは高コストで時間がかかり、アノテーターの主観バイアスも入り込みやすい。 NVIDIAのアプローチでは、LLM（nvidia/nemotron-3-nano-30b-a3b）を活用して自社ドキュメントから自動的に高品質な合成QAペアを生成する。NeMo Data Designerが四段階のSDG（Synthetic Data Generation）パイプラインを実行し、以下を含む学習データセットを自動構築する：ハードネガティブマイニング：対照学習（Contrastive Learning）の精度を高めるために、単純な「無関係文書」ではなく、紛らわしいが不正解の文書を負例として活用マルチホップクエリ：複数ドキュメントをまたぐ推論が必要なクエリを生成し、埋め込みの質を向上実証済みの性能改善 NVIDIA自身の公開ドキュメントで検証した結果、Recall@10とNDCG@10の両指標で10%以上の改善が確認された。また、AtlassianはこのレシピをJIRAデータセットに適用し、Recall@60を0.751から0.951へ、26%改善することに成功した。いずれもシングルGPUでの実行結果だ。使用するOSSコンポーネントコンポーネント役割 NeMo Data Designer 合成データ生成 NeMo Automodel 埋め込みモデルトレーニング BEIR 情報検索評価 NeMo Export-Deploy ONNX/TensorRT変換 NVIDIA NIM 本番推論サービング前提条件と動作環境ベースモデルにはLlama-Nemotron-Embed-1B-v2（パラメータ数10億）を使用。品質と推論コストのバランスを重視した選定だ。動作には以下が必要となる：ドメイン文書のディレクトリ（.txt、.md等）有効なNVIDIA APIキー（build.nvidia.comで無料取得可能） NVIDIA Ampere世代以降のGPU、VRAM 80GB以上（A100/H100で検証済み） VRAM 80GBというハードルはやや高めだが、クラウド環境（AWS、Azure、GCPのA100/H100インスタンス）を使えば手軽に試せる。日本企業でも、社内ナレッジベースや製造データを活用したRAGシステムの精度向上に直接応用できる技術だ。 NVIDIAの公開ドキュメントから生成した合成トレーニングデータセットもHugging Face上で公開されており、すぐに試せる状態になっている。元記事: Build a Domain-Specific Embedding Model in Under a Day

量子コンピュータが医療問題を解決できるか？500万ドルをかけた世界初の実証コンペが決着へ

量子コンピュータが医療の難問に挑む——500万ドルコンペが最終局面へ英国オックスフォード郊外にある国立量子コンピューティングセンター（NQCC）の実験室に、ルービックキューブほどの小さな装置が置かれている。その中では、100個のセシウム原子がレーザー光によってグリッド状に浮遊している。原子と光だけで構築されたこの量子コンピュータを所有するのは、米コロラド州のスタートアップ「Infleqtion」。同社は来週、この装置の能力で500万ドル（約7億5000万円）の賞金をつかみ取ろうとしている。「Quantum for Bio」コンペとはこのコンペは、非営利組織「Wellcome Leap」が主催する「Quantum for Bio（Q4Bio）」だ。30ヶ月にわたる量子アルゴリズム開発競争の末、6チームが最終ステージへ進出した。目的はシンプルかつ野心的——現在の量子コンピュータが、エラーが多く大規模化も途上にある現状でも、実際の医療・健康課題に貢献できることを証明することだ。賞金は2段階構造になっている。 200万ドル賞: 50量子ビット（qubit）以上のマシンで、医療上有意義なアルゴリズムを実行したすべてのチームに授与 500万ドルグランプリ: 100量子ビット以上を使い、従来の古典コンピュータでは解けない実世界の医療問題を解決したチームに授与量子ビット（qubit）とは量子コンピュータの基本処理単位で、古典的なビットと異なり重ね合わせ状態を利用できる。参加チームの手応えノッティンガム大学の計算化学者Jonathan D. Hirst氏は「200万ドル賞は十分射程内にある」と自信を見せる。スタンフォード大学のGrant Rotskoff氏のチームは、生体細胞のエネルギー源であるATP分子の量子特性を研究しており、同賞の基準を「明確にクリアしている」と語る。一方でグランプリについては、「本当にギリギリの挑戦」（Rotskoff氏）と慎重な見方が多い。量子コンピューティングの現状を踏まえると、賞金がWellcome Leapの口座に残り続ける可能性も否定できないと、内部関係者は指摘する。注目される「量子×古典ハイブリッド」アプローチ量子コンピュータの真価は、原子や光子といった量子力学に従う微小な物質を使い、古典コンピュータでは到底モデル化できない複雑な現実世界のプロセスをシミュレートすることにある。新材料の開発、創薬、肥料生産などの化学プロセス改善への応用が期待されている。しかし現実はまだ険しい。量子的な物体（原子など）を制御することは極めて難しく、大規模で安定したマシンの実現には膨大な技術的ハードルが残る。今回のコンペを通じて浮かび上がってきた現実解は、量子コンピュータと古典コンピュータを組み合わせた量子古典ハイブリッドだ。単独の古典コンピュータを上回る性能を、ハイブリッドで実現するというアプローチが主流になりつつある。日本への示唆日本でも量子コンピュータの研究開発は国家プロジェクトとして推進されており、理化学研究所や富士通、東芝などが独自マシンの開発を進めている。今回のQ4Bioコンペの結果は、「量子コンピュータは何ができて何ができないのか」という問いに対する、世界初の厳格な実証データとなる。その意味で、日本の研究者・企業にとっても重要なベンチマークになり得る。審査は来週、米カリフォルニア州マリナデルレイで実施される予定。多くのコンペ作業は未公開でNDA（秘密保持契約）に守られており、真の実力判定は審査員のみが下せる状況だ。量子コンピューティング分野が「過大評価」と「過小評価」の間で揺れ続けるなか、この結果は業界全体の方向性を左右する一石になるかもしれない。元記事: Can quantum computers now solve health care problems? We’ll soon find out.

FitbitのAIヘルスコーチが医療記録を読み込めるように——Googleが新機能を発表

FitbitのAIコーチが医療記録と連携——Google、ウェアラブル×医療データの融合へ Googleは2026年3月、FitbitのAIヘルスコーチに医療記録を読み込む機能を追加すると発表した。来月から米国のFitbitユーザーを対象にプレビュー提供が始まり、検査結果・服薬情報・受診履歴といった医療データとウェアラブルデバイスの計測データを組み合わせて、より精度の高い健康アドバイスが提供される。具体的にどう変わる？ Google ヘルスインテリジェンス部門のプロダクトマネジメントディレクターであるFlorence Thng氏は、公式ブログでその活用例を説明している。「コレステロールについて一般的な情報を答えるのではなく、『コレステロールを改善するにはどうすれば？』と質問すると、AIコーチが過去の検査値や傾向をまとめ、医療履歴とウェアラブルデータに基づいたパーソナライズされた情報を提供できるようになります」さらに今後数ヶ月以内に、ユーザーが医療記録やAIの要約をリンクまたはQRコードで家族やかかりつけ医と「安全に共有」できる機能も追加される予定だ。データのプライバシーは？ Googleは、医療記録を広告目的には使用しないと明言。ユーザーがデータの利用・共有・削除を自分でコントロールできると強調している。一方で、ブログ末尾には小さく注意書きがあり、「Fitbitは医療記録を診断・治療・治癒・予防・疾患管理を目的として使用するものではない」と明示。健康に関する変更を行う前に専門家に相談するよう呼びかけている。睡眠トラッキングも大幅改善今回のアップデートでは、睡眠トラッキング機能も強化されている。Googleは「これまでで最も大きなアップデート」と位置づけており、睡眠計測の精度が15%向上。実際に眠っている時間と、眠ろうとしているだけの時間をより正確に識別できるようになるという。この機能は「数日以内」にプレビュー公開が始まり、睡眠スコアの改善版は数週間後に提供される。ヘルスAIの覇権争いが激化今回の動きは、AIを活用した健康・ウェルネス分野でのビッグテックの競争激化を反映している。Amazon、OpenAI、Microsoftも同様に、医療データの活用で個人化されたヘルスケア体験を提供しようと取り組んでいる。スマートリングのOuraやフィットネストラッカーのWhoop（フープ）も専用のチャットボットでパーソナライズされたアドバイスを提供しており、AnthropicやOpenAIも自社AIと医療データの連携を積極的に推進している。規制面での課題も一方で、AIヘルス製品は規制当局——特に米FDA（食品医薬品局）——から厳しい監視を受ける可能性がある。厳格なプライバシー法が適用されるEUでは、多くのAI医療製品がいまだ提供されていない状況だ。日本でも個人情報保護法や医療情報の取り扱いに関する規制があり、こうした機能が国内展開される際には対応が必要になるとみられる。専門家は、とくに生殖医療データなど高度に機密性の高い情報の取り扱いには慎重であるよう警告している。 Fitbitの医療記録連携機能は現時点で米国のみのプレビュー提供であり、日本での展開時期は未定だ。元記事: Fitbit’s AI health coach will soon be able to read your medical records

Adobe Firefly、自前の作品でAIをトレーニングできる「カスタムモデル」を公開ベータ提供開始

Adobeは2026年3月19日、AI画像生成サービス「Adobe Firefly」において、ユーザー自身のアセットでモデルをトレーニングできる「Firefly カスタムモデル（Firefly Custom Models）」の公開ベータを開始した。カスタムモデルとは Firefly カスタムモデルは、クリエイターやブランドが保有する既存の画像群をもとにAIをトレーニングし、特定の画風やキャラクターデザインを学習させる機能だ。一度トレーニングすると、そのモデルを繰り返し利用して新たなコンテンツを生成できるため、「毎回ゼロから作り直す」必要がなくなる。 Adobeによると、このカスタムモデルは以下のような視覚的要素を保持した画像生成が可能だという。線の太さ（ストロークウェイト）カラーパレット照明スタイルキャラクターの特徴イラスト・写真・キャラクターデザインなど幅広いジャンルに対応しており、複数のプロジェクトやキャンペーンにわたって一貫したビジュアルアイデンティティを維持したい企業やクリエイターに特に有用だ。プライバシーと著作権への配慮カスタムモデルはデフォルトで**非公開（プライベート）**となっており、トレーニングに使用した画像がAdobeの汎用Fireflyモデルの学習データとして使われることはない。これはブランド資産や未公開作品を学習に使う際の大きな安心材料となる。また、著作権保護の観点から、トレーニング前にユーザーは「必要な権利と許諾を有していること」を確認する同意モーダルへの承認が必須となっている。さらにFireflyは、アップロードされた画像に対してコンテンツ真正性イニシアティブ（CAI: Content Authenticity Initiative）の認証情報を自動チェックする。CAIを通じてAI学習へのオプトアウトを設定したクリエイターの作品は、Fireflyが自動検出して学習対象から除外される仕組みだ。背景：Adobeの「倫理的AI」戦略 AdobeはFireflyのモデルを、ライセンス取得済みコンテンツとパブリックドメイン素材のみで学習させていることを強調しており、著作権侵害のリスクが指摘される競合サービスとの差別化を図ってきた。今回のカスタムモデル機能もその戦略の延長線上にある。本機能は昨年のAdobe Max（2025年）でプライベートベータとして発表されていたが、今回の公開ベータ開始により誰でも試せるようになった。大量のビジュアルコンテンツを継続的に制作する必要があるメディア企業・ゲーム会社・EC事業者などにとって、実用的なワークフロー改善ツールとなる可能性がある。元記事: Adobe’s AI image generator can now be trained on your own art

トランプ政権、州のAI規制を禁止する新方針を発表——「AI覇権」優先で規制は最小限に

トランプ政権がAI規制の立法指針を発表、州規制を封じ込めトランプ政権は2026年3月20日（米国時間）、AIに関する新たな立法指針を議会に向けて公表した。7つの項目からなるこの青写真は、連邦政府によるAI規制を最小限に抑え、各州が独自にAI関連法を制定することを禁止するよう求める内容だ。「AI覇権」を妨げる規制は不要との立場最大の焦点は、州単位でのAI規制の封じ込めだ。指針では、各州の法律がアメリカの「AI覇権（global AI dominance）戦略」を阻害するものであれば、連邦法で規制できるよう議会に求めている。これは、これまでカリフォルニア州など複数の州が独自に推進してきたAI規制の動きに正面から対立するものだ。ただし、この指針はあくまで議会への提言にとどまり、実際に法律として効力を持つには議会での立法化が必要となる。未成年者保護には超党派的な配慮一方で、未成年者の保護については共和・民主両党から支持を得やすい内容が盛り込まれた。2025年5月に成立した「Take It Down Act」（AIによる非合意の性的画像の拡散を禁止する法律）に続き、AI プラットフォームへのアクセスにおける年齢確認の義務化を提案。未成年者のデータを使ったAIモデルの学習制限や、ターゲット広告への制約なども含まれている。ディープフェイク（Deepfake）対策としては、本人の許可なくAI生成した音声・容姿・識別可能な特徴を商業利用や無断配布することを規制する「連邦肖像権法」の創設を検討するよう求める条項も含まれた。ただし、パロディ・報道・風刺などの表現の自由に該当するケースについては「明確な例外規定を設けるべき」としている。著作権問題は司法に委ねる方針生成AI開発において国際的に議論が続く「著作物を使ったAI学習の適法性」については、「フェアユース（fair use）に該当するかどうかは裁判所が判断すべき問題」として、議会は関与しないよう求めた。政権自体はフェアユースに該当するとの立場を示しつつも、「反対意見も存在する」と認めた上で司法への一任を選択した形だ。また、AI を悪用した詐欺やなりすまし被害の増加に対応するため、既存の法執行手段の強化も提言。AI インフラによる電力需要の急増抑制や、若年層向けのAIスキル教育の推進についても言及している。日本への示唆 EUが包括的なAI規制法（AI Act）を施行する中、アメリカが「規制より競争」を鮮明にした今回の指針は、国際的なAIガバナンスの議論に大きな影響を与えそうだ。日本もAI規制の方向性を模索している段階であり、主要国の動向として注視が必要だ。元記事: Trump takes another shot at dismantling state AI regulation

Geminiのタスク自動化を実機検証——遅くて不格好、でも確かに「未来」を感じた

GeminiがアプリをAI操作——ベータ機能「タスク自動化」を実機で5日間テスト GoogleのAIアシスタント「Gemini」に、スマートフォンアプリを自律的に操作する新機能「タスク自動化（Task Automation）」が追加された。現在はPixel 10 ProとSamsung Galaxy S26 Ultraを対象にベータ提供中で、UberやUber Eats、DoorDashなど一部のライドシェア・フードデリバリーサービスに対応している。 The Vergeのシニアレビュアー、アリソン・ジョンソン氏が5日間にわたって実機テストを行ったレポートが公開された。その評価は「遅くて不格好、でも圧倒的に印象的」という一言に集約される。実際に使うとどうなる？ユーザーがGeminiに「夕食を注文して」と指示すると、GeminiはUber Eatsなどのアプリを自動で起動・操作し、メニュー選択から注文確認画面まで進める。画面下部にはGeminiが何をしているかを示すテキストが表示され、「チキンテリヤキコンボの2ポーション目を選択中」といった状態をリアルタイムで確認できる。注目すべきは、Geminiがアプリの文脈を動的に解釈する能力だ。注文時にメニューが「ハーフポーション単位」でしか選べない構成だったとき、Geminiは自動的に2つのハーフを選んで1人前を構成した。一方、画面上に明確に表示されていた「グリーンズ（野菜）」のサイドメニューを見つけるのに手間取るなど、AIらしい不自然なつまずき方もある。今回のテストでは、夕食の注文完了まで約9分かかった。ユーザーが自分で操作すれば1〜2分で済む作業だが、これはバックグラウンドで動作しながら他の作業と並行できることを前提に設計されている。安全設計：最後の確認は人間が行うこの機能の重要な設計思想として、Geminiは「確認・決済」の最終ステップを自動実行しない。注文内容をユーザーに確認させてから完了させる仕組みだ。テスト中にGeminiが勝手に注文を完了させてしまうケースはなかったという。失敗するケースも見られたが、そのほとんどは開始後1〜2分以内。位置情報の許可を求められたり、配達先が以前使ったアメリカの住所のままになっていたりといった、アプリ側の初期状態に起因するものが多かった。日本市場への示唆現時点での対応サービスはUber系とDoorDashに限られており、日本国内で主流の出前館やmenuには未対応。また提供端末もPixel 10 ProとGalaxy S26 Ultraに限定されている。ただし、この技術的アプローチは業界全体に影響を与える可能性がある。AppleのSiriやサムスンのGalaxy AI、そして国内スマートフォン向けAI機能の方向性にも波及することが予想される。ジョンソン氏は「基調講演でも管理されたデモでもなく、実際のスマートフォンで本物のAIアシスタントが動作するのを初めて見た」と評価する。まだ実用的とは言えないが、AIエージェントがスマートフォン操作を代替する未来の最初の実装として、注目に値する機能だ。元記事: Gemini task automation is slow, clunky, and super impressive

生成AIの「クールエイド」は優生学の味がする——ドキュメンタリー『Ghost in the Machine』が暴くAIの暗い起源

生成AIの熱狂の裏側に潜む「優生学」の影 2024年にOpenAIがテキストから動画を生成するモデル「Sora」を一般公開したとき、映像ディレクターのヴァレリー・ヴィーチもその一人として興味を持ち、AI生成コンテンツを共有するオンラインコミュニティに参加した。しかし彼女がそこで目にしたのは、衝撃的な光景だった。明示的に指示していないにもかかわらず、AIは人種差別的・性差別的なコンテンツを次々と生成した。さらに驚いたのは、AI熱狂者たちがそうした「毒」を吐き出すシステムを全く問題視していなかったことだ。この体験がヴィーチを生成AIの実験から遠ざけ、同時に新たな探求へと駆り立てた——それが現在公開中のドキュメンタリー『Ghost in the Machine』（Independent Lens）だ。「人工知能」という言葉自体がマーケティング用語ヴィーチが最初に切り込むのは、「人工知能（Artificial Intelligence）」という言葉そのものだ。「AIという言葉を使うなら、その意味をきちんと理解しなければならない。実はこの言葉、何の意味もない。マーケティング用語だし、ずっとそうだった」とヴィーチはインタビューで語る。「AI」という語は1956年、計算機科学者のジョン・マッカーシーが研究資金を獲得するために作った造語だ。本作はこの事実を一つの通過点に過ぎないとして扱い、物語の起点をさらに100年近くさかのぼる。ビクトリア朝の優生学から現代の機械学習へ本作が掘り起こすのは、チャールズ・ダーウィンのいとこにあたるフランシス・ゴルトン（Francis Galton）だ。ゴルトンは19世紀後半に優生学（Eugenics）を創始した人物で、「劣等な」（すなわち非白人の）人種を排除することで人類を「改善」できるという、今日では完全に否定された人種差別的思想を体系化した。ゴルトンは学術的にも一定の功績を残しているが、ヴィーチはその白人至上主義的信念が当時の社会科学全体に深く影響を与えたという事実を矮小化すべきではないと強調する。特に重要なのがゴルトンの教え子・カール・ピアソン（Karl Pearson）との関係だ。ゴルトンが多次元モデリングの手法を開発したのは、アフリカ人女性とヨーロッパ人女性の「魅力度」を測定しようとしたことがきっかけだった。ピアソンはこの手法を継承・発展させ、**ロジスティック回帰（Logistic Regression）**を含む統計的ツール群を開発した。このロジスティック回帰こそ、現代の機械学習を支える根幹技術の一つである。なぜ今、この歴史を掘り起こすのか『Ghost in the Machine』が問いかけるのは、AI加速主義者たちが唱える「もうすぐ社会に恩恵をもたらす」という約束ではない。現在の技術がなぜこういう動作をするのか、その歴史的背景を理解させることにある。日本でも生成AIの導入が急速に進む中、ツールの便利さだけに目を向けず、その設計思想や学習データに潜む偏見・差別をどう扱うかは、開発者・利用者双方に突きつけられた問いだ。ヴィーチの作品は、熱狂の中で見落とされがちなその問いを、歴史の視点から鋭く照らし出している。元記事: The gen AI Kool-Aid tastes like eugenics

AIへの最善投資は「エネルギー技術」かもしれない——データセンター電力不足が生む新たな投資機会

AIブームの陰で進む「電力危機」ベンチャーキャピタルはここ5年間でAIスタートアップに5,000億ドル超を投資してきた。しかし今、最も賢明なAI投資先は「エネルギー技術」かもしれない——気候変動投資調査機関Sightline Climateの最新レポートがそう示唆している。同社が追跡する190ギガワット分のデータセンタープロジェクトのうち、現在実際に建設中なのはわずか5ギガワットにとどまる。2025年には全体の約36%がタイムラインの遅延を経験しており、最大の原因が「電力へのアクセス」だ。昨年稼働したのはわずか6ギガワット分。遅延の連鎖は最終的に、AIを業務に活用する一般企業にも影響を及ぼす可能性がある。 2030年までに電力消費175%増の試算ゴールドマン・サックスによると、AIによるデータセンターの電力消費は2030年までに175%増加すると予測されている。これは現代では前例のない電力不足を引き起こしており、全米で電気料金の上昇を招いている。トランプ政権もこの危機を認識しており、テック企業に対して独自の発電設備の構築か、より高い料金の負担、あるいはその両方を求めている。もっとも、多くの大手テック企業はすでに自前の電力調達計画を進めていた。 GoogleやAmazonが進める「脱グリッド」戦略 Google、Amazon、Metaなどの大手テック企業は、電力網（グリッド）への依存を減らすべく積極的に動いている。Googleがミネソタ州で進める新データセンターはその好例だ。風力・太陽光に加え、Form Energyが開発した容量30ギガワット時の「100時間対応グリッドスケール蓄電池」を組み合わせる設計となっている。また、電力会社Xcel Energyと協力して新しい料金体系を設計し、新技術の普及促進を目指している。日本でも、大規模データセンターの電力確保は喫緊の課題として浮上しており、再生可能エネルギーや蓄電技術への関心が急速に高まっている。エネルギー技術スタートアップに熱い視線電力問題の解決を目指すスタートアップも続々と登場している。Amperesand、DG Matrix、Heron Powerは新しい電力変換技術を開発中。一方、Camus、GridBeyond、Textureは電力フロー管理ソフトウェアの構築を進めている。グリッドの老朽化とガスタービンなど発電設備の不足が代替エネルギー源への道を開いており、投資家の目線は今、AIそのものからAIを支えるエネルギーインフラへと移りつつある。電力不足という構造的課題が解消されるまでには長い時間がかかる見込みであり、エネルギー技術分野は今後も有望な投資機会であり続けると見られている。 ※出典: The best AI investment might be in energy tech 元記事: The best AI investment might be in energy tech

トランプ政権のAI規制方針、州法を連邦法で上書きへ——子どもの安全責任は保護者に

トランプ政権、AI規制を連邦一元化へ——州の規制権限を大幅制限トランプ政権は2026年3月、米国のAI政策を統一する立法フレームワークを公表した。最大の特徴は、各州が独自に制定してきたAI規制法を連邦法で「プリエンプション（優先適用）」し、事実上無効化する点だ。ホワイトハウスの声明は「このフレームワークが機能するには、全米で統一的に適用される必要がある。州法がバラバラに乱立すれば、米国のイノベーションとグローバルなAI競争における主導権が損なわれる」と主張している。イノベーション優先、規制は最小限にフレームワークは7つの主要目標を掲げており、いずれもAIの革新と普及拡大を前面に押し出している。「最小限の負担で国家標準を設ける」という考え方は、ホワイトハウスAI担当のデービッド・サックス氏（ベンチャーキャピタリスト）が推進する「アクセラレーショニスト」的思想と一致する。規制の根拠となる独立した監督機関や、AIが引き起こす新たな被害への法的責任フレームワークは今回の方針には含まれておらず、批判的な声も上がっている。未成年者保護は「親の責任」注目すべき点として、未成年者の安全に関してフレームワークは「AI企業は性的搾取や未成年者への被害リスクを低減する機能を実装すべき」と述べるにとどまり、具体的な法的義務や罰則は設けていない。実質的な安全確保の責任は保護者に委ねられる形となっている。州の権限はどこまで残るか州が引き続き行使できる権限は、詐欺防止・子ども保護に関する一般法、ゾーニング規制、州自身によるAI利用に限定される。AI開発そのものの規制は「本質的に州際問題であり、国家安全保障・外交政策と紐付いている」として、州の管轄から外される。また、「AIモデルを悪用した第三者の違法行為についてAI開発者を罰してはならない」という免責規定も盛り込まれており、プラットフォーム企業にとっては事業リスクの大幅な低減につながる。米国の動向が日本にも影響米国はAI規制の国際的な基準形成においても大きな影響力を持つ。欧州のEU AI Actが義務と罰則を重視する規制アプローチを採る中、米国が「イノベーション優先・軽規制」路線を明確にしたことで、国際的なAIガバナンスの方向性に関する議論が一層複雑化する可能性がある。日本も独自のAI戦略を策定する上で、この動向を注視する必要があるだろう。なお、ニューヨーク州の「RAISE Act」やカリフォルニア州の「SB-53」など、大規模AIモデルの安全プロトコル公開を求める先進的な州法との衝突も今後の焦点となる。 ※出典: Trump’s AI framework targets state laws, shifts child safety burden to parents — TechCrunch AI 元記事: Trump’s AI framework targets state laws, shifts child safety burden to parents

WordPress.comがAIエージェントによる記事執筆・公開に対応——ウェブコンテンツの自動化時代が本格到来

WordPress.comがAIエージェントによる自律的なサイト運営を解禁ウェブホスティングの巨人 WordPress.com が、AIエージェントによるコンテンツ作成・管理機能を正式に導入した。これにより、AIが記事の下書き・編集・公開から、コメントの承認・返信、カテゴリやタグの整理、alt テキストや SEO メタデータの修正まで、ウェブサイト運営の大部分を担えるようになる。サイトオーナーは自然言語でAIエージェントに指示を出すだけでよく、技術的な知識がなくてもウェブサイトを立ち上げ・維持できる。ハードルが大幅に下がる一方、「人間が書かない」コンテンツがウェブ上に増加するという懸念も避けられない。 MCPがつなぐAIとWordPress 今回の機能拡張は、昨年秋に導入された MCP（Model Context Protocol）サポートの延長線上にある。MCPはAnthropic が提唱する新興標準規格で、アプリケーションがLLM（大規模言語モデル）にコンテキストを提供するための共通インタフェースだ。従来のMCP統合では、AIアシスタントがサイトのコンテンツや設定・アナリティクスを「読む」だけだった。今回の更新で、書き込み・構造変更まで可能になった。対応クライアントは Claude Desktop、ChatGPT、Cursor、VS Code など、MCP に対応した主要ツールが網羅されている。有効化は wordpress.com/mcp から機能をトグルするだけで、利用したい機能を個別に選択できる。安全策と透明性 AIによる変更はすべて Activity Log に記録される。また、AIが生成した投稿はデフォルトで下書き保存され、公開にはユーザーの承認が必要だ。AIエージェントはサイトのテーマ・デザイン（カラー、フォント、余白、ブロックパターン）を事前に読み取り、既存のデザインと整合するコンテンツを生成する仕組みになっている。ウェブの43%が動く意味 WordPressは全インターネットサイトの 43%超を支えるプラットフォームだ。WordPress.com の管理ホスティング部分はその一部にすぎないが、それでも月間 200億ページビュー・4億900万ユニークビジターを抱える巨大な存在である。この規模のプラットフォームがAIエージェントによる自動公開を標準機能として提供することは、ウェブコンテンツの質と量、そして「誰がコンテンツを書くのか」という根本的な問いに新たな局面をもたらす。Meta が AI同士が投稿し合うSNS「Moltbook」を買収し、Anthropic がAIブログの実験を行うなど、AIによるコンテンツ生成の社会実装は着実に加速している。日本においても、WordPress を利用する個人ブログや企業サイトは多く、今後この機能が日本語コンテンツ生成にどう活用されるか注目される。 ※出典: WordPress.com now lets AI agents write and publish posts, and more 元記事: WordPress.com now lets AI agents write and publish posts, and more