生成AI | ebisuda.net

mmBERT登場：ModernBERTが1800言語以上に対応した多言語エンコーダモデルへ進化

mmBERT：1800言語以上に対応した最先端多言語エンコーダモデル Johns Hopkins大学のCLSP（Center for Language and Speech Processing）チームが、新しい多言語エンコーダモデル「mmBERT」を発表した。ModernBERTアーキテクチャをベースに、1800言語以上のテキスト3兆トークン以上で学習した本モデルは、従来の多言語モデルの中でも特に普及しているXLM-Rを初めて性能・速度の両面で上回る成果を達成している。膨大な多言語学習データと革新的なサンプリング戦略 mmBERTの学習データは、3つの主要なオープンソースWebクロールデータセットを中心に構成されている。 DCLM / Filtered DCLM：高品質な英語コンテンツ。従来の多言語モデルより高い割合（最大18%）で英語データを使用し、英語性能の基盤とした。 FineWeb2：1800言語以上の多言語Webコンテンツ。幅広い言語族・文字体系をカバーする。 FineWeb2-HQ：FineWeb2から高リソース言語20言語を絞り込んだ高品質サブセット。さらに、コードリポジトリ（StarCoder）、学術コンテンツ（ArXiv）、参照資料（Wikipedia）、コミュニティフォーラム（StackExchange）など多様な専門コーパスも組み込まれている。データ設計の最大の革新は「プログレッシブ言語インクルージョン戦略」だ。学習を3フェーズに分け、フェーズが進むごとに言語間のサンプリング分布をより均一に近づけながら対応言語を段階的に拡大する。事前学習では60言語、中間学習で110言語、最終フェーズでFineWeb2に収録された全1833言語をカバーする。これにより、低リソース言語データを無駄なく効果的に活用できる。アーキテクチャと3段階学習レシピモデルアーキテクチャはModernBERT-baseと同じく22層・中間次元1152を採用しているが、多言語テキストの処理精度を高めるためにトークナイザをGemma 2のものに変更している。パラメータ数はベースモデルが非埋め込みパラメータ1.1億（語彙サイズ拡大により合計3.07億）、スモールモデルが非埋め込み4,200万（合計1.4億）。学習は3フェーズで構成されており、2.3兆トークンの事前学習から始まり、中間学習・減衰フェーズへと進む過程でデータ品質と言語多様性のバランスを最適化している。 XLM-Rを超えた性能と日本語を含む多言語対応 BERT系の多言語エンコーダとして長らく業界標準だったXLM-Rを、性能・推論速度の両方で上回った点は注目に値する。低リソース言語への対応強化は、日本語以外の東アジア・東南アジア諸言語や少数言語コミュニティにとっても恩恵が大きい。日本の開発者・研究者にとっても、多言語テキスト分類、情報検索（RAG）、クロスリンガルNLPタスクへの応用が期待できる。モデルはHugging Faceで公開されており、すぐに試せるサンプルコードも提供されている。元記事: mmBERT: ModernBERT goes Multilingual

軽量VLMがGUI操作AIに進化——Hugging Faceが「Smol2Operator」の全訓練レシピを公開

軽量VLMがGUI操作AIに進化——Hugging Faceが「Smol2Operator」の訓練レシピを全公開 Hugging Faceは、ビジョン言語モデル（VLM）をGUI自動操作エージェントへと段階的に育て上げる手法「Smol2Operator」を発表し、訓練コード・データセット・モデルをすべてオープンソースとして公開した。 GUIエージェントとは何か GUI（グラフィカルユーザーインターフェース）自動化とは、AIがスクリーンショットを「見て」、ボタンのクリックやテキスト入力といった操作を自律的に行う技術だ。モバイル・デスクトップ・Webの各プラットフォームをまたいで動作できれば、RPA（ロボティック・プロセス・オートメーション）の次世代形態として業務効率化に大きく貢献すると期待されている。国内でも業務自動化ニーズは高く、この分野の進展は注目に値する。ベースモデルはたった2.2B 今回のアプローチでは、GUIへの接地（グラウンディング）能力をまったく持たないSmolVLM2-2.2B-Instructをベースモデルとして採用した。パラメータ数が2.2Bと小規模であるにもかかわらず、2段階の教師あり微調整（SFT）により、高レベルの指示を低レベルのGUI操作に変換できるエージェントへと成長させることに成功した。 2段階訓練プロセス訓練は以下の2フェーズで構成される。フェーズ1：知覚能力の習得スクリーンショット内のUI要素を正確に認識・位置特定する「グラウンディング」能力を獲得させる段階。評価指標にはGUI理解ベンチマーク「ScreenSpot-v2」を用い、画像解像度や座標系の影響も詳細に分析した。フェーズ2：認知・推論能力の向上 UI要素の認識にとどまらず、タスクの意図を理解して一連の操作を計画・実行できる「エージェント的推論」を付与する段階。AGUVISの研究成果とデータセットを活用し、段階的にモデルを強化した。異種データ統合の課題を解決複数のGUI自動化データセットを横断して学習させる際の大きな障壁が、アクション表現の非統一性だ。データセットごとに関数名・パラメータ名・操作の分類体系が異なるため、そのままでは統合的な訓練ができない。Smol2Operatorはこの問題を統一アクションスペースへの変換ツール（Action Space Converter）で解決し、高品質な訓練データを生成するパイプラインも合わせて公開している。再現性を重視したフルオープンソース公開 Hugging Faceが今回特に強調しているのが、「最先端性能を目指すのではなく、プロセス全体を再現可能な形で示すこと」という姿勢だ。訓練レシピ・データ処理ツール・変換済みデータセット（smolagents/aguvis-stage-1、smolagents/aguvis-stage-2）・最終モデルがすべて公開されており、研究者や開発者が独自のGUIエージェント開発の出発点として活用できる。ソースコードはGitHub（huggingface/smol2operator）で公開中。元記事: Smol2Operator: Post-Training GUI Agents for Computer Use

Swift Transformers 1.0リリース — Apple Silicon向けローカルLLM統合ライブラリが安定版に

Swift Transformers がバージョン1.0に到達 Hugging Faceは、Apple Silicon向けローカルLLM統合ライブラリ「swift-transformers」のバージョン1.0を正式リリースした。2年前の初公開以来、Apple開発者コミュニティで広く活用されてきた同ライブラリが、初のメジャーバージョンとして安定版を迎えた。 swift-transformersとは swift-transformers は、iPhoneを含むApple Siliconプラットフォーム上でローカルモデルを扱う際の摩擦を減らすことを目的としたSwiftライブラリだ。Core MLやMLX単独では補えない、ローカル推論に必要なコンポーネントを提供している。主な構成要素は以下の3つ。 Tokenizers — 言語モデルへの入力準備を担うモジュール。チャットテンプレートやエージェント向けユースケースにも対応。PythonやRust向けの同名ライブラリで培ったノウハウをSwiftに移植したもの。 Hub — Hugging Face Hubとのインターフェース。モデルのダウンロード・キャッシュ・バックグラウンドでの再開可能ダウンロード・オフラインモードなどに対応する。 Models / Generation — Core ML形式に変換済みのLLMを扱うラッパー。変換済みモデルの推論実行を簡単にするためのモジュール。 v1.0の主な変更点バージョン1.0では、Tokenizers と Hub が独立したトップレベルモジュールとして分離された。これまではパッケージ全体に依存する必要があったが、今後は必要なモジュールだけを選んでインポートできる。また、Swift向けJinjaライブラリの新バージョンもリリースされた。開発者のJohn Mai氏との共同作業で実現したもので、チャットテンプレート処理の速度が数桁単位で向上したとされる。コミュニティでの活用事例同ライブラリはすでに著名なプロジェクトで採用されている。 mlx-swift-examples（Apple提供）— LLMやVLM（ビジョン言語モデル）をMLXで動かすためのライブラリ群 WhisperKit（argmax）— Apple Silicon向けに高度に最適化されたオープンソースの音声認識フレームワーク FastVLM（Apple）および各種アプリデモ今後の方向性 Hugging Faceは今後、MLX対応とエージェント用途に注力する方針を示している。iOSやmacOS上でのローカルAIエージェント構築が現実的になりつつある中、日本のApple開発者にとっても注目度の高い動向といえる。 v1.0のリリースノートおよびマイグレーションガイドはGitHubリポジトリで公開されている。元記事: Swift Transformers Reaches 1.0 – and Looks to the Future

NVIDIA、日本文化を理解するAI開発向け合成データセット「Nemotron-Personas-Japan」を公開——600万件のペルソナをCC BY 4.0で提供

NVIDIAが日本特化の合成ペルソナデータセットを公開 NVIDIAは、日本の人口統計・地理的分布・文化的特性を反映した合成データセット「Nemotron-Personas-Japan」をHugging Face上で公開した。CC BY 4.0ライセンスで提供されており、商用・非商用を問わず自由に利用できる。なぜ今、日本語の合成ペルソナデータが必要なのか LLM（大規模言語モデル）の学習データの大半は英語であり、日本語をはじめとする非英語圏の開発者は、高品質なデータ確保に長年悩まされてきた。また、実在の個人データを利用する場合、日本の**個人情報保護法（PIPA）**への対応が複雑なハードルとなる。 Nemotron-Personas-Japanはこれらの課題を同時に解決する。合成データであるため個人を特定できる情報（PII）を一切含まず、かつ国勢調査や労働統計といった公的データに基づいて生成されているため、日本社会の実態を忠実に反映している。データセットの規模と内容 600万件のペルソナ（100万レコード × 6ペルソナ） 1レコードあたり22項目（ペルソナ関連6項目＋統計ベースのコンテキスト16項目）総トークン数約14億（うちペルソナ関連が約8.5億）約95万件の固有名（合成データとして前例のない多様性） 1,500以上の職種カテゴリー職業・スポーツ・芸術・旅行・料理などの多様なペルソナタイプ生成には、NVIDIAのエンタープライズ向け合成データ生成マイクロサービス「NeMo Data Designer」を使用。Jinja2テンプレート、Pydanticによる検証、構造化出力、自動リトライなどの仕組みを組み合わせた複合AIパイプラインで構築されている。日本文化への細かな配慮単なる統計の機械的反映に留まらず、AIトレーニング上の課題を意識した設計がなされている点が特徴だ。教育歴：国の統計では一括分類される学歴区分を細分化し、多様な教育経路を表現職業：統計上の分類に加え、事業主や専門職などの追加カテゴリーを収録ライフステージ：学生・退職者・失業者など、統計では目立ちにくい層も明示的にモデル化デジタルデバイド：年齢層ごとのデジタルリテラシー格差を反映文化的特性：日本社会固有の規範や慣習を組み込み、地域文化への理解を高める利用シーンデータセットはNemotronをはじめとするオープンソースLLMとシームレスに連携するよう設計されており、以下のような用途への活用が想定される。マルチターン会話データの合成生成文化的配慮が可能なドメイン特化型AIアシスタントの開発地方・都市間、年齢層間、教育水準間でのモデル公平性検証日本語対応チャットボットやAIエージェントのファインチューニングソブリンAIへの布石本データセットは、NVIDIAが推進する「ソブリンAI（Sovereign AI）」——各国・地域が自国文化と言語に根ざしたAIを自律的に開発・運用できる体制の構築——を支援するグローバルコレクションの第一弾と位置付けられている。米国向けの「US Personas」データセットに続く取り組みであり、今後も各地域向けの展開が予定されている。データセットはHugging Faceから以下のコードで即座に取得できる。元記事: Nemotron-Personas-Japan: ソブリン AI のための合成データセット

Intel Core Ultra上でQwen3-8Bエージェントを最大1.4倍高速化——深度プルーニングで推測デコーディングを強化

Intel、ローカルAIエージェント向けQwen3-8Bを最大1.4倍高速化 Intelのエンジニアチームは、Hugging Faceのブログにて、Intel® Core™ Ultra（開発コード名：Lunar Lake）の内蔵GPUを使ってQwen3-8Bの推論を最大1.4倍高速化する手法を発表した。OpenVINO.GenAIを基盤に、推測デコーディング（Speculative Decoding）と独自のレイヤー刈り込み（深度プルーニング）技術を組み合わせた成果だ。 Qwen3-8Bとエージェント用途 Qwen3-8Bは、Alibaba Cloudが開発したQwenファミリーの最新モデルで、ツール呼び出し・多段階推論・長文コンテキスト処理などエージェント向けの能力を標準で備える。Hugging Faceのsmolagents、QwenAgent、AutoGenといったフレームワークと組み合わせることで、幅広いAIエージェントアプリケーションを構築できる。チャットボットと異なり、エージェントアプリケーションはモデルが「思考過程」をトークンとして出力しながら動作するため、トークン消費量が多く、推論速度がユーザー体験に直結するという特性がある。ローカルPC（AIPC）で高品質なエージェントを動かすには、いかに推論を高速化するかが課題だ。推測デコーディングによる1.3倍高速化まず基盤として、4ビット量子化されたQwen3-8BのOpenVINOモデルをLunar Lake内蔵GPUで動作させ、ベースラインを測定した。その上で適用したのが推測デコーディングだ。この手法では、軽量な「ドラフトモデル」が複数のトークン候補を一度に生成し、それを大型の「ターゲットモデル」が一括検証することで、自己回帰的な生成ループのオーバーヘッドを削減できる。今回はQwen3-0.6Bをドラフトモデル、Qwen3-8Bをターゲットモデルとして組み合わせ、平均1.3倍の高速化を達成した。コードはopenvino_genaiのLLMPipelineにdraft_model引数を渡すだけで利用できるシンプルな実装だ。深度プルーニングでさらに1.4倍へ推測デコーディングの高速化率は、ドラフトモデルの速度と精度のバランスに依存する。そこでIntelは、ドラフトモデルそのものを軽量化するアプローチを採用した。具体的には、各レイヤーブロックの出力を角距離（Angular Distance）で評価し、モデルの精度への寄与が小さいブロックを特定して除去する。プルーニング後はファインチューニングで精度を回復させる。この手法により、Qwen3-0.6Bをさらに小型化しつつ品質を維持することに成功し、最終的に1.4倍の高速化を実現した。 smolagentsでのローカルエージェント実装高速化された推論パイプラインは、Hugging Faceのsmolagentsと組み合わせることで、インターネット接続不要のローカルAIエージェントとして動作する。プライバシーを重視するユースケースや、クラウドAPIのレイテンシが問題になるシナリオでの活用が期待される。日本への示唆国内でもAIPC向けのローカルLLM活用は注目されており、Intel Core Ultra搭載機は多数流通している。今回の手法はOSSとして公開されており、OpenVINOモデルのダウンロードリンクも提供されているため、既存のハードウェアで今すぐ試せるのが大きな利点だ。エンタープライズ向けのオンプレミスAIエージェント構築にも応用できる技術として注目したい。元記事: Accelerating Qwen3-8B Agent on Intel® Core™ Ultra with Depth-Pruned Draft Models

Starlette 1.0リリース — ClaudeスキルでLLM対応の最新コードを生成する方法

Starlette 1.0、ついにリリース Python非同期Webフレームワーク「Starlette」がついにバージョン1.0に到達した。FastAPIの土台として広く使われながらも、その存在が陰に隠れがちだったStarletteにとって、これは大きなマイルストーンだ。 StarletteはKim Christieが2018年に開発を開始し、Python ASGIフレームワークの新世代を代表する存在となった。FlaskとDjangoを非同期ネイティブで融合させたような設計で、KimはDjango REST Frameworkの作者でもあることから、その親しみやすさも納得できる。多くのアプリをFlask風に単一のPythonファイルで書けるのが特徴だ。 2025年9月には、長年貢献してきたMarcelo Trylesinkiにリポジトリの管理が移管され、スポンサーシップを受けやすい体制が整えられた。主な破壊的変更：lifespanの採用 0.x系からの主な変更点は、起動・終了処理の仕組みだ。従来の on_startup / on_shutdown パラメーターが廃止され、非同期コンテキストマネージャを使った lifespan 機構に置き換わった。元記事: Experimenting with Starlette 1.0 with Claude skills

マスク氏、TelaとSpaceX向け自社チップ製造施設「Terafab」構想を発表——実現性には疑問符も

マスク氏、自社チップ製造施設「Terafab」を構想——テスラ・SpaceXのAI需要に対応イーロン・マスク氏は先週末、テキサス州オースティン市内で開催されたイベントにおいて、テスラとSpaceXが共同で半導体製造施設を建設する野心的な計画を発表した。マスク氏がこの施設を「Terafab」と命名していることが、公開された写真から確認されている。建設予定地はテスラのオースティン本社および「ギガファクトリー」の近隣とされている。なぜ自前の半導体製造が必要なのかマスク氏が自社製造に踏み切る背景には、急増するAIおよびロボティクス向けの計算需要がある。氏は「半導体メーカーは我々が必要とするスピードでチップを製造してくれない。Terafabを建設するか、チップを持てないかの2択だ。チップが必要だから、建設する」と述べた。日本でも生成AIの普及に伴いGPUの調達難が続いており、NVIDIAのH100/H200系チップを中心に需給ひっ迫が問題視されている。テスラやSpaceXが社内で半導体製造を内製化しようとする動きは、こうした業界全体のチップ不足を象徴する出来事といえる。計画の規模と課題マスク氏が掲げる目標は壮大だ。地球上では年間100〜200ギガワットの計算能力をサポートするチップを製造し、さらに宇宙空間では1テラワット規模の計算インフラを構築するという。ただし、具体的なタイムラインは示されていない。また、Bloombergも指摘しているように、マスク氏には半導体製造の専門的なバックグラウンドがない。加えて、同氏はこれまでもテスラの自動運転完全実現やFSDの普及時期、SpaceXの有人火星飛行計画などで繰り返し「過大公約（overpromising）」を行ってきた歴史がある。半導体製造は高度な専門知識と莫大な設備投資が求められる産業であり、TSMCやSamsungといった既存プレーヤーが長年かけて築いた製造技術の壁は非常に高い。Terafabが現実のものとなるかどうか、業界の注目が集まっている。元記事: Elon Musk unveils chip manufacturing plans for SpaceX and Tesla

CursorがAIコーディングモデル「Composer 2」の基盤に中国製Kimiを使用していたと認める

CursorのComposer 2、実は中国製モデルが基盤だった AIコーディングツールとして急成長を遂げているCursorが、今週リリースした新モデル「Composer 2」をめぐって物議を醸している。同社は当初、Composer 2を「フロンティアレベルのコーディング知性」と謳って発表したが、実際には中国企業Moonshot AIのオープンソースモデル「Kimi 2.5」を基盤として構築されていたことが明らかになった。 X（旧Twitter）のユーザーが暴露きっかけはX上のユーザー「Fynn」による指摘だった。Fynnは、Composer 2が「追加の強化学習を施しただけのKimi 2.5にすぎない」と主張し、モデルIDにKimiを示すコードが含まれている証拠を提示した。「せめてモデルIDを変名しろよ」と皮肉も込めてポストしたこの指摘は、瞬く間にテック界隈で拡散した。 Moonshot AIはアリババとHongShan（旧Sequoia China）が出資する中国企業であり、そのモデルを米国スタートアップが流用していたという事実は少なからぬ注目を集めた。 Cursorは認めつつも「大部分は独自トレーニング」と主張これに対し、CursorのVP（開発者教育担当）であるLee Robinsonは「そうです、Composer 2はオープンソースのベースモデルからスタートしました」と認めた。ただし、「最終モデルの計算リソースのうち、ベースモデルに使ったのは約4分の1にすぎず、残りは独自トレーニングに費やした」と説明し、各種ベンチマークでのComposer 2の性能はKimi 2.5と「大きく異なる」と強調した。また、Kimi公式アカウントもX上でCursorを祝福する投稿を行い、今回の利用がFireworks AI経由の「認定商業パートナーシップ」に基づくものだと説明した。「Kimi-k2.5が基盤を提供できたことを誇りに思う」とも述べ、ライセンス上の問題はないとしている。なぜ最初から開示しなかったのか問題となるのは、Cursorが発表時にKimiとの関係を一切開示しなかった点だ。Cursorは昨秋に23億ドルの資金調達ラウンドを完了し、企業評価額は293億ドル（約4.4兆円）に達する。また年間収益換算で20億ドル超を達成したとも報じられており、そのような資金力を持つ企業がモデルをゼロから作らなかったことへの批判だけでなく、中国製モデルを基盤としたことへの政治的センシティビティも背景にある。米中間でAI開発の「主導権争い」が激化する中、DeepSeekの躍進が昨年シリコンバレーに衝撃を与えたことは記憶に新しい。中国製モデルの採用を公表することへのためらいが、今回の情報開示の遅れにつながったとの見方もある。共同創業者のAman Sangerも「最初のブログ記事でKimiのベースモデルに言及しなかったのは失敗だった。次のモデルでは修正する」と率直に認めた。オープンソースエコシステムの現実今回の件は、AIモデル開発においてオープンソースの活用が一般的になってきていることを改めて示している。商用製品がオープンソースのベースモデルを活用すること自体は珍しくないが、その出所を適切に開示することが信頼構築の観点から不可欠であることも浮き彫りとなった。日本でも多くのAIサービスが同様の構造を持つ可能性があり、モデルの出自に対する透明性への関心が今後さらに高まりそうだ。元記事: Cursor admits its new coding model was built on top of Moonshot AI’s Kimi

GDC 2026レポート：会場はAI一色なのに、開発者たちは「絶対に使わない」

AIだらけの会場、でもゲームにAIなし——GDC 2026の奇妙な矛盾毎年ゲーム開発者が集まる業界最大のカンファレンス「GDC（Game Developers Conference）Festival of Gaming」2026年版が開催された。今年の会場を一言で表すなら「AI祭り」だった。しかし、ふたを開けてみると、実際にゲームを作っている開発者たちの声は真逆だった。会場を埋め尽くすAIベンダー展示フロアでは、生成AIを活用したツールが並んだ。AIで動作するNPC（ノンプレイヤーキャラクター）の生成、チャット入力だけでゲームまるごとを作るツール、テンセント（Tencent）のAIが生み出したピクセルアートのファンタジー世界のデモなど、10分プレイするだけでも体験できた。レイザー（Razer）のブリーフィングでは、シューティングゲームのQA（品質保証）作業を自動化するAIアシスタントが披露され、Googleディープマインド（DeepMind）の研究者によるAI生成のプレイアブル空間についての講演は立ち見が出るほどの盛況ぶりだった。しかし、開発者たちは「絶対に使わない」ところが、記者が実際に話したゲーム開発者のほぼ全員が、自分のプロジェクトへのAI活用を否定した。インディーゲーム『The Melty Way』の開発者ガブリエル・パケット氏はこう語る。「人間の思考ってものすごく美しいと思う。なんでそれを使わないんですか？」この感覚は多くの開発者に共通していた。特にインディー開発者の間では、AIを使うことで「人間が作った」という本質的な価値が損なわれるという意識が根強い。 GDCが実施した最新調査でも、回答者の52%が「生成AIはゲーム業界に悪影響を与えている」と回答。この割合は2025年の30%、2024年の18%から急上昇しており、反感は年々強まっている。すでに「AIフリー」を明示してゲームを販売するインディー開発者も増えてきた。「人の手の感触」へのこだわりインディーの名作『Tunic』や『Chicory: A Colorful Tale』を送り出したパブリッシャー兼スタジオ「Finji」の共同創業者アダム・サルツマン氏とレベッカ・サルツマン氏は、自社作品の核心を「特定の人物の指紋が感じられること」と表現する。「見せた瞬間に何か分かるんだけど、実際にプレイするとすべての期待を裏切ってくる」（レベッカ氏）。この哲学は生成AI活用と真っ向から対立する。Finjiのゲームに生成AIを使う可能性を問われたアダム氏の答えは明快だった。「絶対にない」 AI推進派との温度差一方、業界の別の側面ではAI推進論も根強い。Google Stadiaの立ち上げに携わり、ソニーでPlayStation NowやPlayStation Homeの開発経験を持つGoogle Cloud幹部ジャック・ブーザー氏は「生成AIは私の30年近いゲーム業界キャリアで目撃してきた中で最大の変革だ」と断言する。開発サイドではデバッグやQA、アイデア出しへの活用、プレイヤーサイドではゲームの個別カスタマイズへの応用など、楽観的な展望も語られた。 Nvidia（エヌビディア）のDLSS 5が公開デモで既存ゲームキャラクターの顔を「AIっぽいノイズ感のある描写」に変えてしまったことで広がった否定的反応も、小規模開発者のAI離れに拍車をかけているとみられる。 GDC 2026は、ゲーム業界が抱えるAIをめぐる深い矛盾を可視化した場となった。ベンダーや大企業が推し進めるAIの波と、実際にゲームを作るクリエイターたちの「人の手」へのこだわり——この溝は2026年現在、むしろ広がりつつある。元記事: AI was everywhere at gaming’s big developer conference — except the games

「コードは死んだ」は時期尚早——AIバイブコーディングが抽象化の限界に直面する理由

AIがコードを書く時代に「コードを理解すること」の価値はどこにあるのか「AIに話しかければアプリが作れる」——そんな言説が広まる中、ソフトウェアエンジニアのSteve Krouseが興味深い論考を公開した。タイトルは「コードの死亡報告は大げさすぎる」。Hacker Newsで400以上のポイントを集め、300件超のコメントが寄せられた注目の記事だ。バイブコーディングの本質と落とし穴「バイブコーディング（vibe coding）」とは、自然言語（英語）で指示を出し、AIが生成したコードに対して「ボタンをそこに移動して」「もっと青くして」と反応しながらイテレーションを重ねるスタイルだ。英語レベルの感覚（バイブ）のまま操作できるため、非エンジニアでもアプリ開発が可能になる。しかし、Krouseはここに根本的な問題を指摘する。**「バイブは精度の高い抽象化であるという錯覚を生む」**のだ。実際、AIエッセイストのDan Shipperがバイブコーディングで作ったテキストエディタアプリがバイラルヒットした後、リアルタイム共同編集機能の実装で致命的な壁にぶつかった事例が紹介されている。「ライブコラボレーション」は誰もがGoogle DocsやNotionで使ったことがあるため、仕様として完全に理解できている気がする。しかし実際には、競合状態の管理、操作変換（Operational Transformation）やCRDTといった複雑なアルゴリズム、ネットワーク障害への対処など、膨大なエッジケースが潜んでいる。英国の哲学者バートランド・ラッセルの言葉が重く響く。「物事はすべて、精密にしようとして初めてわかるほど、曖昧なのだ」抽象化こそがプログラミングの本質 Krouseが強調するのは、抽象化（abstraction）の力だ。人間の脳は同時に7±2個の物事しか扱えない。それ以上の複雑さを扱うには、複数の概念を一つにまとめる「圧縮」が必要であり、この圧縮こそが抽象化だ。コンピュータサイエンスの先駆者Edsger Dijkstraはこう述べた。「抽象化の目的は曖昧にすることではなく、その中で絶対的に精確に語れる新たな意味レベルを作ることにある」具体例として、SlackがいつユーザーにPush通知を送るかを示した複雑なフローチャートが紹介される。エンジニアのSophie Alpertはこれを巧みな抽象化でシンプルなダイアグラムに整理した。ReactJSがUI開発の複雑さを、TailwindCSSがスタイリングの複雑さを抽象化したように、良い抽象化は困難な問題を扱いやすくする。 AGI時代でもコードは必要か記事は最後にAGI（汎用人工知能）到来後の世界を展望する。月額1000ドルでAndrej Karpathy級の天才エンジニアを100人雇えるとしたら、細かい実装の詳細にこだわる必要はあるのか？ Krouseの答えは「それでも抽象化の理解は不可欠」というものだ。どれだけ高性能なAIがあっても、何が精確な仕様であるかを人間が理解・判断できなければ、AIが生成したシステムの品質を評価することすらできない。コードを書くスキルではなく、複雑さをどう構造化・抽象化するかという思考の枠組みこそが、AIと協働する時代に求められる能力だという主張だ。日本でも「ノーコード/ローコード」や「AIペアプログラミング」への注目が高まる中、この論考はエンジニアとして何を学ぶべきかを問い直す良い機会を提供してくれる。プログラミングの本質は「コードを書く行為」ではなく「複雑さをコントロールする知的営み」にあるのかもしれない。元記事: Reports of code’s death are greatly exaggerated

ClaudeにモバイルアプリのQAをさせてみた——AndroidとiOSで難易度が天と地ほど違った話

ひとり開発者が直面した「テストの無人地帯」 Christopher Meiklejohnは、コミュニティ向けアプリ「Zabriskie」をひとりで開発している。チームも投資家もなく、ベッドルームで黙々とシップし続けるスタイルだ。Webアプリとして好評だったものの、「App Storeにないアプリは存在しないも同然」という現実に直面し、iOS・Android・Webの3プラットフォーム同時対応を余儀なくされた。 1人で3つのコードベースを維持するのは現実的でない。そこで採用したのが Capacitor だ。既存のReact Webアプリをネイティブシェルで包み込み、AndroidではWebView、iOSではWKWebViewとして動作させることで、単一コードベースから3プラットフォームに展開できる。さらにサーバー側からJSON形式で画面レイアウトを送る「サーバードリブンUI」アーキテクチャを組み合わせることで、App Storeのレビュー待ちなしに変更を全プラットフォームへ即反映できる。しかしここに落とし穴がある。Capacitorアプリはテストツールの「無人地帯」に落ちるのだ。PlaywrightはネイティブシェルのWebViewにアクセスできず、XCTestやEspressoといったネイティブテストフレームワークはWebViewの中のHTML要素を操作できない。Webツールには「ネイティブすぎ」、ネイティブツールには「Web的すぎ」という宙ぶらりんな状態になる。 ClaudeをQAエージェントとして訓練する WebアプリにはPlaywrightで150本以上のE2Eテストが走っているが、モバイルアプリ側には何もなかった。そこでMeiklejohnは、ClaudeにAndroid・iOSの両プラットフォームを操作させ、スクリーンショットを撮って問題を検出し、バグレポートまで自動で起票させる仕組みを構築することにした。 Androidは90分で解決 Androidエミュレーター内ではlocalhostがホストMacではなくエミュレーター自身を指すため、まずadb reverseでポートフォワーディングが必要だ。これは再起動のたびに再実行が必要なものの、ワンライナーで済む。本命の突破口は、CapacitorアプリがChrome DevTools Protocol（CDP）ソケットを公開しているという事実だ。adb shellでWebViewのDevToolsソケットを特定してローカルポートに転送すれば、PlaywrightやPuppeteerと同じプロトコルでAndroid WebViewを完全制御できる。JWTをlocalStorageに注入して認証、window.location.hrefでナビゲーション——座標指定やUI操作は一切不要。adb shell screencapでスクリーンショットを取得するPythonスクリプトと合わせて、Android環境はわずか90分で完成した。 iOSは6時間以上の格闘対照的に、iOSは6時間以上を要した。この差は2026年時点のモバイル自動化ツールの成熟度を如実に物語っている。iOSのWebViewはAndroidほどオープンなデバッグインターフェースを持たず、Apple独自のセキュリティモデルがあらゆる迂回路を塞ぐ。 AI活用QAの可能性と現実この事例は、ClaudeをはじめとするLLMをQAエンジニア的に活用する流れを示している。単にコードを書かせるだけでなく、スクリーンショットを見て視覚的なバグを検出させたり、バグレポートを自動作成させたりといった使い方だ。1人開発者がリソース制約の中でQA品質を維持するための現実的な戦略として注目される。 AndroidとiOSの難易度差は、モバイル自動化エコシステムの分断を象徴している。Capacitorのような「Write Once, Run Anywhere」アプローチはコード共有を実現する一方、テスト環境の整備は依然として各プラットフォーム固有の課題が残ることを、この実践レポートは教えてくれる。元記事: Teaching Claude to QA a mobile app

「バイブコーディング」がスパムを進化させた——AIで洗練される迷惑メールの脅威

AIが「スパム製造」のハードルを下げているコーディングを民主化するAIツールの普及が、思わぬ副作用をもたらしている。スパムメールが、かつてないほど「それらしく」見えるようになってきたのだ。テクノロジーメディア「Tedium」のErnie Smith氏は最近、自身のスパムフォルダに届いたメールに異変を感じた。従来のスパムといえば、崩れたレイアウト・不自然なフォント・ちぐはぐな配色が当たり前だった。ところが最近は、クラウドストレージの容量超過を装った偽通知メールが、一見すると本物のサービスメールと区別がつかないほど洗練されたデザインで届くようになっている。さらに注目すべき変化がある。従来のスパムは画像をオフにすると途端に崩れ、フィッシング詐欺だと一目でわかった。しかし最近のスパムは、画像なしの状態でも適切なレイアウトとテキスト構造を維持している。多くのメールクライアントはスパムフォルダで画像を自動的にブロックするため、これは意味のある変化だ。「バイブスキャミング」という新たな脅威この現象の背景にあるのが、ChatGPTやClaudeなどのLLM（大規模言語モデル）を使って直感的にコードを生成する「バイブコーディング（Vibe-Coding）」の普及だ。セキュリティプラットフォームのGuard.ioはこれを**「VibeScamming（バイブスキャミング）」**と名付けて警告している。フィッシングサイトの構築、クレジットカード情報の詐取、企業のOffice 365認証情報を狙った攻撃——これらすべてが、技術的な知識をほとんど持たない「ジュニアスキャマー」でも、AIエージェントへの数回のプロンプト入力だけで実現できるようになっているという。 Anthropicも昨夏発表したレポートの中で、LLMの助けを借りることで、本来ランサムウェアを開発できないような人物でも「ノーコード型マルウェア」を製造できるようになると警告している。こうしたマルウェアは1本あたり最大1,200ドル（約18万円）で販売されるケースもあるという。「怪しいメールの見分け方」が崩壊しつつある長年にわたり、スパムやフィッシングメールを見分けるための経験則として「デザインがチープ」「HTMLが崩れている」「画像が壊れている」といった視覚的な手がかりが有効だった。しかしバイブコーディングによってデザインの最低水準が底上げされた今、こうした判断基準は機能しなくなりつつある。ユーザーはより巧妙な罠にかかりやすくなり、一方で無意識にセキュリティへの不信感を高め、正規のメールまで疑うようになるという悪循環も懸念される。 LovableやBoltといったAIコーディングプラットフォームは、スタートアップや個人開発者にとって画期的なツールだ。しかしその恩恵が、サイバー犯罪者にも等しく届いている現実は、技術の民主化が常に光と影を伴うことを改めて示している。スパムフォルダは今や、インターネットの「地下」で何が流行しているかを映す鏡でもある。そしてその鏡が映し出す景色は、AIの時代において急速に変わりつつある。元記事: They’re vibe-coding spam now

RustプロジェクトのコントリビューターたちはAIをどう見ているか——多様な視点まとめ

Rustコミュニティ内でAIを巡る議論が本格化 2026年2月、RustプロジェクトのコアメンバーであるNiko Matsakis氏（@nikomatsakis）が、RustのコントリビューターやメンテナーたちのAIに関する見解を収集・まとめたドキュメントを公開した。2月6日から収集された意見を2月27日時点でまとめたもので、プロジェクト全体としての公式見解ではなく、個々のメンバーの生の声を幅広く紹介している。 Matsakis氏はドキュメントの冒頭で「これはRustプロジェクトとしての統一見解ではない。現時点でRustプロジェクトはAIツールの利用についてまとまったポジションを持っていない。このドキュメントは、それを形成するための第一歩だ」と明記している。「AIを使いこなすにはエンジニアリングが必要」議論の中で繰り返し強調されたのが、AIツールは使いこなしに実力が要るという点だ。コントリビューターのTC氏はこう述べている。「良い結果を出すには、丁寧かつ慎重なエンジニアリングが必要だ。問題を適切に構造化し、正しいコンテキストとガイダンスを与え、適切なツールと環境を整える。コンテキストウィンドウの最適化を考え、限界を把握する必要がある」また、モデルの急速な進化についても言及があった。「2〜3ヶ月でどれほど変わったかは見えにくいかもしれないが、最先端のモデルは今や無視できないほど優れている」（TC氏）。これは、AIに対して「煙だけで実体がない」と感じる人と「深く価値を見出す人」との間に生まれる認識差の説明にもなっている。ユーザー@yaahc氏は「工学的なバックグラウンドがあるかどうかで、ツールから得られる成果が大きく変わる可能性がある」と分析している。コーディング以外での活用が見えてくる AI活用の議論はコーディング支援に集中しがちだが、実際にはそれ以外の用途でも多くのメンバーが価値を見出している。ドキュメント検索・調査補助の観点では、Arm社のdavidtwco氏が「1万ページ以上のアーキテクチャドキュメントを検索するのに社内AIツールが非常に役立っている。上流のIssueに迅速に対応できるようになった」と述べている。scottmcm氏も「Spanを取得するにはどこを見ればいい？というような調査系の質問には非常に有効だ」と評価する。コードレビューのアシストについても期待の声が上がっている。BennoLossin氏は「AIに確認させ、質問を生成させることで、正しいアイデアを探る助けになった」と語る。Linuxカーネルコミュニティでは、プロジェクト固有のプロンプトを丁寧に設計したLLMエージェントによるコードレビュー支援で成果が出たケースも報告されており、Rust側でも同様の試みへの関心が示された。日本のエンジニアへの示唆 Rustは近年、WebAssembly・組み込み・システムプログラミングの文脈で日本国内でも注目度が高まっている言語だ。今回の議論は「AIを使えばいいのか、使わないほうがいいのか」という二項対立ではなく、どう使いこなすかというより実践的な問いへと議論が移行していることを示している。プロジェクトとしての公式ポジションはまだ形成途上だが、AIの活用方針について組織やチームで議論を深めていく上での参考事例として、日本のエンジニアコミュニティにとっても示唆に富む内容だ。元のコメント全文は公開されており、原文で確認することもできる。元記事: Diverse perspectives on AI from Rust contributors and maintainers

「ホワイトカラーAI終焉論」は誇張にすぎない——カスタマーサポート求人が示す現実

AIが「賢い大学生レベル」になっても、なぜ人は解雇されないのか AnthropicのCEO、ダリオ・アモデイ氏は「2年前のAIは賢い高校生レベル、今は賢い大学生レベル」と発言した。この言葉通りなら、カスタマーサポート（CS）市場はすでに壊滅していてもおかしくないはずだ。ところが現実は正反対だ。米求人サイト「Indeed」のデータによれば、カスタマーサービス関連の求人数は2025年中盤から回復基調にあり、コロナ禍前の水準に近づきつつある。企業は大規模言語モデル（LLM）を大幅割引で利用できる環境があったにもかかわらず、人員削減ではなく再雇用を選んだのだ。「90%自動化」プロジェクトが葬られた理由ある元大手テック企業エンジニアの事例が示唆に富む。彼のチームはLLMとナレッジベースを組み合わせ、CSケースの90%を自動化するシステムを構築した。技術的には成功だった。しかしプロジェクトは却下された。理由はシンプルだ。残り10%のケースこそが、CS担当者の時間の大半を消費していた。自動化できたのは「話せるFAQ」を作ることであり、本当に困難な問題の解決ではなかった。「半決定可能問題」という見落とされた視点この現象を理論的に説明する概念が「半決定可能（semi-decidable）」な仕事だ。ホワイトカラーの職種の多くはこの性質を持つ。決定可能なケース（約80%）：過去の経験で解決できる、再現性のある問題。これはAIが得意とする領域で、自動化の恩恵を受けやすい。決定不可能なケース（約20%）：解決策が存在するかどうか自体が不明な問題。対処に数日〜数週間かかることもあり、コストが青天井になる。この「80/20の法則」こそ、AIが仕事を奪うという議論が見落としているポイントだと筆者は指摘する。簡単な仕事を効率化しても、困難なケースへの対処コストは変わらないか、むしろ浮き彫りになる。ソフトウェアエンジニアリングも同じ構造これはCS職に限った話ではない。ソフトウェアエンジニアリングでも、日常的なコーディング作業の大半はルーティンだ。しかし、例えば新しいフレームワークのバージョンアップ時に潜む「たった1つのboolean設定」が本番環境全体を落とすことがある。このような「決定不可能な問題」の発見と解決こそが、熟練エンジニアの真価であり、AIが代替しにくい領域だ。まとめ「AIがホワイトカラーの仕事をすべて奪う」という終焉論は、仕事の構造的な複雑さを無視した過度な単純化かもしれない。AIは確かに生産性を向上させるが、解決困難な問題が消えるわけではない。むしろ、AIが易しい問題を処理することで、人間は難しい問題に集中することを求められる時代になっているとも言える。カスタマーサポートの求人回復は、その現実を雄弁に物語っている。元記事: White-collar AI apocalypse narrative is just another bullshit

AIコード生成モデルを「実行結果」で評価する新プラットフォーム「BigCodeArena」が登場

AIコード生成の評価問題を「実行」で解決 AIが生成したコードの品質を正確に評価するのは、実は非常に難しい問題だ。コードが文法的に正しく見えても、実際に動かしてみると想定外のバグが潜んでいたり、エッジケースで失敗したりすることは珍しくない。この課題に取り組むため、Hugging FaceのBigCodeチームはBigCodeArenaを発表した。「人間参加型（Human-in-the-Loop）」のコード生成モデル評価プラットフォームとして、これが初めての試みとなる。従来のベンチマークの限界これまでのコード生成評価には主に2つのアプローチがあった。 HumanEval等のベンチマーク: あらかじめ用意されたテストケースでコードを採点するが、現実の多様なプログラミングタスクのごく一部しかカバーできない人手評価: ソースコードを読んで頭の中で実行をシミュレートするのは認知負荷が高く、複雑なUIアプリや長いプログラムになるほど精度が落ちるたとえば「レスポンシブなフォトギャラリーサイトを作って」と2つのAIに頼んだとき、両方のコードが一見正しく見えても、実際にブラウザで表示して初めて違いが分かることがある。片方は美しいグリッドレイアウトを実現し、もう片方はスタイリングのバグで崩れているかもしれない。実行なしには判断できないのだ。 BigCodeArenaの仕組み BigCodeArenaはLMArena（Chatbot Arena）のフレームワークを拡張し、コード評価特有の機能を追加している。リアルタイム実行とサンドボックス環境生成されたコードはすべて、分離されたサンドボックス環境で自動実行される。Pythonスクリプト、ReactのWebアプリ、PyGameのゲーム、C++のアルゴリズムなど、ソースコードではなく実際の出力結果をユーザーが確認できる。幅広い言語・フレームワーク対応現在サポートされている言語・環境は以下の通り。対応言語（10種）: Python、JavaScript、TypeScript、HTML、C、C++、Java、Go、Rust、Markdown Webフレームワーク: React、Vue、バニラHTML/CSS/JS Pythonフレームワーク: Streamlit、Gradio、PyGame 図表: Mermaid 汎用インタープリタ: PythonおよびJavaScriptのコードインタープリタ、コンパイル言語ランナーインタラクティブなテスト Webアプリのボタンをクリックしたり、生成されたゲームをプレイしたり、コードを直接編集して再実行したりと、静的なコード比較では不可能なインタラクティブな検証が可能だ。マルチターン対話現実のプログラミング作業と同様に、要件の追加や機能変更、バグ修正の依頼といったマルチターンの対話にも対応している。 5カ月で見えてきた傾向 2025年2月の公開から約5カ月間で、500人以上のユニークユーザーから14,000件以上の会話データと4,700件以上の高品質な優劣投票が集まった。最先端LLM（大規模言語モデル）10種類が評価対象となっている。ユーザーが持ち込むタスクの内訳は多岐にわたる。 Webデザイン（36%）: レスポンシブなWebサイト、インタラクティブなダッシュボード問題解決（23%）: アルゴリズム、データ構造、計算チャレンジゲーム開発（16%）: ゲームロジックやUIの実装日本の開発者コミュニティへの示唆 BigCodeArenaは誰でも無料で利用でき、コミュニティの投票結果がリーダーボードとして公開される。GitHub CopilotやCursorといったAIコーディング支援ツールを日常的に使う開発者にとって、「どのモデルが実務で最も役立つか」を判断する際の参考資料として活用できるだろう。日本語でのコード生成評価については今後の展開が注目されるが、まずはコード評価の新たなスタンダードとなりうる取り組みとして、その動向を追っていきたい。元記事: BigCodeArena: Judging code generations end to end with code executions

Hugging FaceとVirusTotal、AIセキュリティ強化へ連携——220万超のモデルを継続スキャン

Hugging FaceとVirusTotal、AIモデルのセキュリティ強化で連携オープンソースAIプラットフォームのHugging Faceは、世界最大規模の脅威インテリジェンス・マルウェア分析プラットフォーム「VirusTotal」との連携を発表した。この取り組みにより、Hugging Face Hub上で共有される全ファイルのセキュリティが強化される。 220万超のモデルが継続的にスキャン対象に現在、Hugging Face Hubには220万を超える公開モデル・データセットリポジトリが存在する。今回の連携により、これら全リポジトリのファイルがVirusTotalのデータベースと照合され、継続的にセキュリティチェックが行われる。ユーザーがリポジトリやファイルのページを訪問すると、Hubは自動的にVirusTotalから対応ファイルの情報を取得し、結果を表示する仕組みだ。 AIモデルが持つセキュリティリスク AIモデルは強力なツールである一方、大規模なバイナリファイルやシリアライズされたデータ、依存ライブラリなどを含む複雑なデジタル成果物でもある。具体的な脅威として以下が挙げられている。モデルファイルやアーカイブに偽装した悪意あるペイロードアップロード前にすでに改ざんされたファイル既知のマルウェアキャンペーンに関連するバイナリロード時に危険なコードを実行するシリアライズオブジェクト Pickle形式など機械学習でよく使われるシリアライゼーション形式は、任意コード実行の脆弱性が以前から指摘されており、セキュリティ上の懸念は日本のAI開発現場でも共有されている課題だ。プライバシーを守りながら脅威を検出ファイルの検出方法はハッシュ照合方式を採用している。ファイルの内容そのものをVirusTotalに送信するのではなく、ファイルハッシュ値をデータベースと比較することで、ユーザーのプライバシーとデータ保護原則を維持しながら脅威情報を取得する。過去にVirusTotalで解析済みのファイルであれば、そのステータス（クリーンか悪意あるか）、検出数、関連する脅威キャンペーン情報などが確認できる。組織のCI/CDパイプラインへの統合も視野にこの連携はエンドユーザーの安全確保にとどまらず、企業・組織のワークフローへの統合も想定している。CI/CDパイプラインやデプロイプロセスにVirusTotalのチェックを組み込むことで、悪意あるアセットの拡散を防ぐ仕組みが構築できる。モデルのダウンロードや統合の前に脅威情報を確認できる透明性の向上、重複スキャンを減らす効率化、そしてオープンソースAIコミュニティ全体への信頼醸成が、この協業の主な目的となっている。詳細や貢献については security@huggingface.co に問い合わせできる。元記事: Hugging Face and VirusTotal collaborate to strengthen AI security

MetaとHugging Faceが「OpenEnv」発表——AIエージェント開発の標準化に向けたオープンエコシステムを構築

MetaとHugging Faceが共同で「OpenEnv Hub」を発表——AIエージェント時代の共通インフラへ MetaとHugging Faceは、AIエージェント開発のための共有オープンプラットフォーム「OpenEnv Hub」を共同で立ち上げると発表した。大規模言語モデル（LLM）を活用した自律型エージェントの開発・訓練・デプロイを効率化するための環境仕様を標準化し、開発者コミュニティ全体で共有できる場を目指す。背景：エージェントに「環境」が必要な理由現代のAIエージェントは、数千ものタスクを自律的にこなせるようになった。しかしLLMそのものだけでは不十分で、タスクを実際に実行するには適切なツールへのアクセスが欠かせない。かといって、膨大な数のツールをモデルに直接公開することは、安全性の観点からも非現実的だ。ここで登場するのが「エージェント環境（Agentic Environment）」という概念だ。これはエージェントが特定タスクを実行するために必要なツール、API、認証情報、実行コンテキストを過不足なく定義したサンドボックスである。セマンティクスの明確化、安全な実行の保証、認証済みAPIへのシームレスなアクセスといった重要な役割を担う。 OpenEnvとは何か OpenEnvは、このエージェント環境を標準化するための仕様（Specification）だ。環境はstep()・reset()・close()といったシンプルなAPIで構成されており、Dockerベースのサンドボックスとして動作する。 Hugging Face上に設置されたEnvironment Hubでは、開発者が以下のことを行える：仕様に準拠した環境をアップロード・共有するブラウザ上で「ヒューマンエージェント」として環境を操作するモデルにタスクを解かせ、その挙動を観察する環境が公開しているツールや観測定義を確認する Hub上でOpenEnv仕様に準拠した環境を公開するだけで、これらの機能が自動的に利用可能になる。本番RLトレーニングを走らせる前の検証・反復サイクルを大幅に短縮できる設計だ。強化学習（RL）ポストトレーニングへの活用 OpenEnvは、TRL・TorchForge・VeRL・SkyRL・Unslothなど、既存のRL関連ライブラリとの統合が進められている。ポストトレーニング（SFTやRLHF後の追加訓練）において、多様な環境を横断してエージェントを訓練したり、FAIRの「Code World Model」のようなSOTA手法を再現したりするユースケースが想定されている。日本のAI研究・開発コミュニティにとっても、標準化された環境仕様が普及すれば、エージェント研究の再現性や相互運用性が大きく向上する可能性がある。 RFC公開でコミュニティ主導の標準化へ現在、以下の3つのRFCがレビュー中だ： RFC 001：Environment、Agent、Taskといったコアコンポーネントのアーキテクチャ定義 RFC 002：環境インターフェース、パッケージング、分離、通信方式の提案 RFC 003：MCP（Model Context Protocol）ツールの環境抽象化とカプセル化オープンなRFCプロセスにより、仕様はコミュニティのフィードバックを受けながら進化する予定だ。AIエージェント開発の「共通語」となるOpenEnvの行方に注目したい。元記事: Building the Open Agent Ecosystem Together: Introducing OpenEnv

「同意なき音声クローンは動かない」——Hugging Faceが提案する倫理的AI設計の新発想

本人の「同意」がなければ音声クローンは起動しない Hugging FaceのMargaret Mitchell氏とLucie-Aimée Kaffee氏は、音声クローン（Voice Cloning）技術に「ボイス同意ゲート（Voice Consent Gate）」を組み込む仕組みを提案した。これは、本人が明示的に同意フレーズを声に出して言わない限り、その人の声を模倣するモデルが起動しないという設計思想だ。なぜ今、この提案なのかここ数年で音声生成技術は飛躍的に進化した。わずか数秒の音声サンプルから、本人と聞き分けがつかないほど精巧なクローン音声を生成できる時代が到来している。この技術には光と影がある。光の側面では、病気や事故で声を失った人が自分の声で再びコミュニケーションできるよう支援したり、外国語学習に活用したりといった恩恵がある。一方、影の側面では、米国でバイデン前大統領の音声が無断でロボコールに使用されるなど、「ディープフェイク音声」による情報操作リスクが現実の問題となっている。技術的な仕組みボイス同意ゲートは、以下の3つのコンポーネントで構成される。ユニーク同意文の生成 — クローン対象の話者が読み上げる、その場限りの同意フレーズを動的に生成する（例：「私は〈モデル名〉の音声クローンモデルに対し、自分の声の使用に同意します」）自動音声認識（ASR） — 話者が実際にそのフレーズを発話したかを検証するボイスクローンTTS — 同意確認が取れた場合にのみ、入力テキストを話者の声で読み上げる注目すべき観察として、最新の音声クローンシステムはわずか1文の音声でもクローン生成が可能なため、同意のために発話した文そのものをクローンの学習データとして兼用できるという点がある。マイクからのリアルタイム録音を必須とし、事前録音のアップロードを受け付けない設計にすることで、過去の音声流用リスクも低減している。「同意」をシステムの前提条件にするこの取り組みの本質は、音声クローンの問題解決にとどまらない。AIシステムの設計において、倫理的原則（この場合は「同意」）を抽象的なガイドラインではなく、動作の前提条件としてインフラに組み込むというアプローチの実証だ。同意が行われたことは追跡・監査可能な形で記録されるため、透明性の確保にも寄与する。研究チームはデモと実装コードをHugging Face上で公開しており、この概念を出発点として議論を広げたいとしている。日本でも音声ディープフェイクを悪用した詐欺被害が報告され始めており、技術と倫理の両面からの取り組みは今後ますます重要になるだろう。元記事: Voice Cloning with Consent

IBMが超小型LLM「Granite 4.0 Nano」を公開——1B・350Mパラメータでエッジ・オンデバイスAIを実現

IBMの超小型LLM「Granite 4.0 Nano」登場——エッジAI時代の新たな選択肢 IBMは2025年10月28日、同社のオープンLLMシリーズ「Granite 4.0」ファミリーの最小モデル群「Granite 4.0 Nano」を公開した。エッジデバイスやオンデバイスアプリケーション向けに設計されており、数百億パラメータを必要とせずに実用的な性能を発揮することを目指している。 4つのモデルバリアント Granite 4.0 Nanoは、以下の4つのInstructモデルとそれぞれのベースモデルで構成される。 Granite 4.0 H 1B：約15億パラメータ。ハイブリッドSSMアーキテクチャを採用した密なLLM Granite 4.0 H 350M：約3.5億パラメータ。同様にハイブリッドSSMベース Granite 4.0 1B / 350M：従来のTransformerアーキテクチャ版。llama.cppなどハイブリッドアーキテクチャの最適化が未対応の環境向けハイブリッドSSM（State Space Model）アーキテクチャは、Transformerのアテンション機構とSSMを組み合わせたもので、長いコンテキスト処理において計算効率を高められると注目されている。同規模モデルとの比較で際立つ性能 0.2B〜2Bパラメータクラスのモデルは、Alibaba（Qwen）、LiquidAI（LFM）、Google（Gemma）など多くのプレイヤーが参入する競争の激しい領域だ。IBMの発表によれば、Granite 4.0 Nanoは一般知識・数学・コード・安全性の各ベンチマークにおいて、同規模の競合モデルを上回る精度を達成したという。さらに、AIエージェントワークフローで重要となる**命令追従（IFEval）とツール呼び出し（BFCLv3）**のベンチマークでも、同サイズクラスのモデルを超える結果を示しており、エッジ環境でのエージェント型AI活用が現実的な選択肢になりつつある。 Apache 2.0・ISO 42001認証で企業利用にも対応 Granite 4.0 NanoはApache 2.0ライセンスで公開されており、商用利用・改変・再配布が自由に行える。また、vLLM・llama.cpp・MLXといった主要ランタイムのネイティブサポートも備える。 IBMが取得しているISO 42001認証（AI管理システムに関する国際規格）の対象モデルでもあり、企業がガバナンスや規制要件を意識しながらAIを導入する際の信頼性向上にも寄与する。日本企業においても、AIガバナンスへの関心が高まる中で注目される点だ。日本での活用シナリオ 350M〜1Bクラスの軽量モデルは、スマートフォンや産業用デバイス、プライバシー重視のオンプレミス環境など、クラウドAPIへの依存を避けたい場面で有力な選択肢となる。製造業や医療分野でのエッジAI活用を検討する日本企業にとっても、参照すべきモデルの一つになるだろう。モデルの詳細はHugging Face上のモデルカードで確認できる。IBMはGranite 4.0ファミリーの拡充を継続する方針を示しており、今後の展開にも注目したい。元記事: Granite 4.0 Nano: Just how small can you go?

最先端AIリサーチエージェント「Deep Research」の構築で学んだこと——Tavilyが明かす設計哲学

AIリサーチエージェントが「知識労働の基盤」になる時代へ AI検索ツールを提供するTavilyは、同社が開発する最先端のリサーチエージェント「Deep Research」の構築プロセスで得た知見を詳細に公開した。リサーチ（情報収集・読解・統合）は、文章作成・意思決定・コーディングに至るあらゆる知識労働の基盤となる作業だ。しかし人間によるリサーチは、記憶容量・読むスピード・時間という制約から逃れられない。一方、AIリサーチエージェントは膨大な情報を処理し、インサイトを瞬時に統合し、スケールアップも容易だ。Tavilyはこうしたエージェントが、コンテンツ生成・コーディング・営業など広範なワークフローの中核サブコンポーネントになると見ている。「複雑さ」は罠だった——最初のアーキテクチャを全破棄した教訓 Tavilyが最初に陥った失敗は、「洗練された複雑なアーキテクチャ」への過信だった。7か月前に構築した初代システムは精巧に設計されていたが、次世代モデルが登場した際に設計上の前提がボトルネックになり、システム全体を作り直す羽目になったという。この経験から生まれた設計原則が「将来のモデル性能向上を吸収できる柔軟な設計」だ。具体的には、オーケストレーションロジックを極力シンプルに保ち、モデルの自律性に委ねること、そしてモデルやツールが何に最適化されているかを注視しながらその新興能力を活かすことを重視するようになった。コンテキスト管理こそが成否を分ける Tavilyが特に力を入れたのが「コンテキストエンジニアリング」だ。長時間にわたるリサーチタスクでは、コンテキストウィンドウをクリーンかつ最適な状態に保つことが最大の課題となる。これを怠ると、エージェントはほぼ確実に失敗する、とTavilyは断言する。その解決策として同社が採用したのが、自社の「Advanced Search」機能によるコンテキスト管理済みのWeb検索だ。生のWebコンテンツを処理する複雑さを抽象化し、最も関連性の高いコンテンツのみをエージェントに返すことで、ハルシネーション（幻覚）の低減とレイテンシの改善を実現している。ツールとモデルは「エージェントハーネスのために進化すべき」 Tavilyは、モデルとツールの双方がAIエージェント開発者の課題解決に向けて進化していくべきだと主張する。モデルに期待するのは、コンテキスト圧縮のための高再現率サマリー生成・ツール呼び出しの信頼性向上・簡潔な文章生成だ。ツール側には、関連性の高いデータのみを返す「コンテキストエンジニアリングの内包」を求める。この思想は、エージェントを単なるモデルのラッパーとして捉えるのではなく、モデル・ツール・ハーネスが一体となってシステムとして進化するという視点に基づいている。日本でも生成AIを活用した情報収集・調査業務の自動化への関心が高まっており、本記事で紹介されたコンテキストエンジニアリングやエージェント設計の考え方は、国内のAIシステム開発者にとっても参考になる視点を多く含んでいる。元記事: Building Deep Research: How we Achieved State of the Art