Generative-Ai

AnthropicがClaudeにコンピューター操作機能を追加——セットアップ不要でファイル操作やdevツールが自律実行可能に

AnthropicがClaudeにコンピューター操作機能を追加——開発者の作業自動化が現実へ AI企業のAnthropic（アンソロピック）は、対話型AIアシスタント「Claude（クロード）」に対して、コンピューターを自律的に操作する「Computer Use（コンピューター操作）」機能を追加したと発表した。ProプランおよびMaxプランのユーザーは、特別なセットアップなしにこの機能を利用できる。セットアップ不要で使えるPC自律操作今回の機能追加により、Claudeはユーザーのデスクトップ環境において以下の操作を自律的に実行できるようになった。ファイルのオープン・操作：アプリケーション上のファイルを直接開いて内容を確認・編集開発者ツール（devツール）の操作：ブラウザのデベロッパーツールや各種開発環境とのインタラクションクリック・スクロール：GUIを通じた一般的なマウス操作これまでのAIアシスタントがテキスト入力・出力の範囲にとどまっていたのに対し、Computer Use機能はAIが画面を「見て」実際に操作を行う点が大きく異なる。ユーザーが「このファイルを開いてコードのバグを修正して」と指示するだけで、Claudeが自律的に一連の作業を完遂する世界が近づいてきた。 Claude Codeへの統合で開発ワークフローが変わる特に注目されるのが、開発者向けツール「Claude Code（クロードコード）」へのComputer Use統合だ。Claude Codeはターミナル上でコードの生成・修正・テスト実行を行うエージェント型ツールとして知られており、今回の統合によってGUIを含む開発環境全体をClaudeが把握・操作できるようになる。たとえば、「ブラウザでアプリの動作を確認しながらバグを修正する」「デバッガーを起動して変数の状態を確認する」といった、これまで人間が手動で行っていた複合的な作業を、Claudeが一括して処理できる可能性がある。日本の開発者にとっての意義国内でもClaude Codeを採用するエンジニアは増加しており、この機能追加は開発効率化の観点から大きな注目を集めそうだ。特にGUIテストの自動化や、複数ツールをまたいだ作業の自動化において実用的な恩恵が期待できる。 Computer Use機能はすでにAnthropic APIを通じて法人向けにも提供されており、RPA（ロボティック・プロセス・オートメーション）の代替や拡張としての活用事例も海外で報告されている。 Anthropicの積極的な機能展開 Anthropicは2026年に入ってから「Claude Sonnet 4.6」「Claude Opus 4.6」の新モデル発表、NASAの火星探査車「パーシビアランス」へのClaude導入、Vercept社の買収によるComputer Use能力強化など、矢継ぎ早に新展開を打ち出している。今回のセットアップ不要化はこれらの成果を一般ユーザーに届ける重要なマイルストーンといえる。 AIが単なる「回答するツール」から「実際に作業するエージェント」へと進化するなか、Computer Use機能の普及は今後のAI活用の形を大きく塗り替えるかもしれない。元記事: Anthropic Claude Adds Computer Use to Cowork and Claude Code with No Setup Required

生成AI

Mistral AIがオープンウェイトの音声合成モデル「Voxtral」を公開——ElevenLabsを超えると主張

Mistral AIが無償の音声合成モデル「Voxtral」を公開フランスのAIスタートアップMistral AIが、テキスト読み上げ（TTS: Text-to-Speech）モデル「Voxtral」を発表し、モデルの重みを無償で公開した。同社は音声の自然さと品質において、TTS市場の有力プレイヤーであるElevenLabsを上回ると主張している。オープンウェイト戦略でTTS市場に挑む Voxtralの最大の特徴は、モデルの重みが無償で提供されるオープンウェイト形式を採用している点だ。ElevenLabsをはじめとする既存のクラウドTTSサービスは、APIを通じた従量課金モデルを主軸としているが、Mistralはこのビジネスモデルに真っ向から挑む形となる。オープンウェイトモデルの公開は、開発者や企業がクラウドへの依存なしにローカル環境やオンプレミスでTTS機能を実装できることを意味する。コスト削減はもちろん、プライバシーやレイテンシの観点からも大きなメリットがある。日本市場への影響日本では音声合成技術は読み上げアプリ、カーナビ、スマートスピーカー、コールセンター自動化など幅広い分野で活用されている。高品質なオープンウェイトTTSモデルの登場は、これらのユースケースにおける開発コストを大幅に引き下げる可能性がある。特に注目されるのはオンデバイスAIへの応用だ。軽量化されたTTSモデルをスマートフォンやエッジデバイス上で直接動作させることができれば、クラウド通信なしにリアルタイムの音声インタラクションが実現する。プライバシーに敏感な医療・金融分野での活用も現実味を帯びてくる。クラウドTTSビジネスモデルへの波及 Mistralの動きは、OpenAIのWhisper（音声認識）やMeta のSeamlessM4T（多言語音声変換）など、大手がオープンモデルを公開してきた流れと軌を一にしている。クラウド課金型のTTSサービスは、差別化のためにより高品質な音声やリアルタイム性、多言語対応などに投資を加速させる必要に迫られるだろう。 ElevenLabsは感情表現や声のクローニング機能で独自の地位を確立しているが、基本的な音声品質での優位性が崩れれば、ビジネスモデルの再構築を迫られる可能性もある。まとめ Mistral AIによるVoxtralの公開は、TTS市場における「オープンソース対クローズドAPI」という構図を一段と鮮明にする出来事だ。音声AIの民主化が加速する中、開発者コミュニティや企業がどのようにこの技術を取り込んでいくか、今後の動向が注目される。元記事: Mistral AI just released a text-to-speech model it says beats ElevenLabs — and it’s giving away the weights for free

生成AI

AIとボットがインターネットを制圧——2025年、人間のトラフィックを初めて上回る

ボットがインターネットの主役に——2025年に人間トラフィックを初めて超過インターネットの歴史的な転換点が訪れた。サイバーセキュリティ企業Human Securityが発表した「State of AI Traffic」レポートによると、2025年にAIおよびボットによる自動化トラフィックが、初めて人間ユーザーのアクティビティを上回ったことが明らかになった。自動化トラフィックは人間の8倍速で成長同レポートによれば、自動化トラフィック（AIを含むソフトウェアシステムが生成するインターネット通信）は、2025年に人間の活動と比較して約8倍速いペースで成長した。AIトラフィック全体は2025年1月から12月の間に187%増加しており、OpenAIの「ChatGPT」、Anthropicの「Claude」、Googleの「Gemini」といった大規模言語モデル（LLM）の急速な普及がその主な要因とされている。 Human SecurityのCEO、スチュアート・ソロモン氏はCNBCに対して「インターネットは『画面の向こう側には人間がいる』という基本的な前提のもとに作られてきた。しかしその前提が今、急速に崩れつつある」と語った。 AIエージェントのトラフィックは8,000%増特筆すべきは、人間に代わって自律的に行動するAIエージェントの台頭だ。「OpenClaw」のようなAIエージェントによるトラフィックは、2024年と比較して2025年に約8,000%もの爆発的な増加を記録した。2024年時点ではそのボリュームは極めて小さかったが、わずか1年でこれほどの急成長を遂げたことは業界に衝撃を与えている。なお、自動化トラフィックにはGoogleのAI概要（AI Overview）やオートフィルといった一般的な機能も含まれており、必ずしも悪意あるものではない点に注意が必要だ。ソロモン氏は「『機械は悪、人間は善』という考え方は現実的ではない。機械が私たちの代わりに行動する世界を前提に、時間をかけて信頼の仕組みを構築していく必要がある」と述べている。計測手法の課題も一方で、このデータの解釈には注意も必要だ。インディアナ大学情報・コンピュータ科学部のフィリッポ・メンツェル教授はCNBCに対し、「ボットトラフィックの推計はユーザーエージェント文字列を使う方法が一般的だが、非常にノイズが多い。データの取得元やサンプルによって結果が大きく変わる」と指摘する。Human Securityのレポート自体も、自己申告に基づくユーザーエージェント文字列の信頼性が「懸念される課題」であると認めている。同レポートはHuman Securityの自社製品「Human Defense Platform」で処理された1,000兆件（1クアドリリオン）以上のインタラクションをもとにしたものであり、インターネット全体を網羅するものではない。日本への影響と今後の展望この傾向は日本のWebサービス運営者にとっても無関係ではない。Webサイトへのアクセス解析やコンテンツ保護、広告効果測定などあらゆる場面で、AIボットをどう扱うかが課題になりつつある。なお、CDN大手CloudflareのCEO、マシュー・プリンス氏はSXSW 2026で「生成AI登場以前、インターネットトラフィックの約20%はボットが占めていた」と述べており、当初はGoogleのクローラーが大半を占めていたと語った。プリンス氏は「AIボットが人間トラフィックを超えるのは2027年になるだろう」と予測していたが、現実はその予測を1年以上前倒しで追い越してしまった形だ。インターネットの基本的な前提が書き換えられようとしている今、AIとの共存を見据えた新しい信頼の枠組み構築が急務となっている。元記事: AI and bots have officially taken over the internet, report finds

生成AI

Blueskyチームが開発したAIアシスタント「Attie」——自然言語でフィード・アプリを自作できる新時代へ

Blueskyチームが「Attie」を発表——AIがフィードアルゴリズムをあなたの言葉で作る Blueskyの開発チームが手がける最新アプリ「Attie」が、カンファレンス「Atmosphere」にて正式に発表された。元CEOのJay Graber氏とCTOのPaul Frazee氏によるお披露目となったAttieは、Anthropicの大規模言語モデル「Claude」を搭載し、Blueskyの基盤技術であるAT Protocol（atproto）の上に構築されたAIアシスタントだ。自然言語でフィードをカスタマイズ Attieの中心機能は、自然言語によるカスタムフィードの生成だ。たとえば「ケルト音楽や民俗学、神話に関する投稿をまとめて」といった指示を入力するだけで、独自のアルゴリズムフィードを作れる。これまで自分好みのフィードを構築するには、開発者向けのAPIや専門的な知識が必要だったが、Attieはそのハードルを一気に引き下げる。当初は独立したAttieアプリ内でのみ利用可能だが、将来的にはBluesky本体や他のatprotoアプリにも統合される予定とされている。「バイブコーディング」でアプリ開発も民主化さらに踏み込んだビジョンとして、ユーザーがAttieを使いながらatproto上の独自アプリをノーコードで開発できる機能も計画されている。いわゆる「バイブコーディング（vibe coding）」——コーディング経験ゼロでも感覚的な指示だけでアプリを作れる——というコンセプトだ。 Graber氏はブログ投稿でこう述べている。「AT Protocolは誰もがその上にアプリを作れるよう設計したが、これまで『誰でも』は実質的に『コードが書ける人』を意味していた。エージェント型コーディングツールはそれを変える。オープンプロトコルが初めて、本当の意味で誰にでも開かれるようになる」日本のSNS・分散型サービス文化との接点 BlueskyはXの代替として日本でも急速に利用者が増えており、特にエンジニアやクリエイター層に支持されている。AT Protocolを基盤とする分散型SNSの世界で、AIによるパーソナライズやアプリ開発が身近になれば、日本語コンテンツを扱うカスタムフィードやニッチなコミュニティ向けアプリの登場も期待できる。クローズドベータで順次公開現在Attieはクローズドベータ段階にあり、公式サイト（attie.ai）からウェイティングリストへの参加が可能だ。Claudeを活用したAIが「誰でもアプリ開発者になれる」世界を実現できるか、今後の展開に注目が集まる。元記事: Bluesky’s new app is an AI for customizing your feed

生成AI

AI音楽の最前線：業界を揺るがす技術革新と法的混乱、そして倫理論争の全貌

AIが音楽業界のあらゆる領域に侵食しつつある AI（人工知能）技術は今や、音楽業界のあらゆる側面に影響を及ぼしている。サンプル素材の生成からデモ録音、デジタルライナーノーツの作成、プレイリストの自動生成まで、その用途は急速に拡大している。技術的・法的な課題が山積する中、「AIが生み出す大量の低品質コンテントが、現役ミュージシャンの仕事を圧迫するのではないか」という懸念も高まっている。 Sunoが「v5.5」をリリース——カスタマイズ機能が大幅強化 AI音楽生成サービスの最大手・Sunoが、最新モデル「v5.5」をリリースした。これまでのアップデートが音質向上や自然なボーカル表現の改善に注力してきたのに対し、v5.5ではユーザーの制御性向上に重点が置かれている。目玉機能の「Voices（ボイス）」は、ユーザーが自分の声でボーカルモデルをトレーニングできる機能だ。アカペラ音源や既成楽曲、スマートフォンへの直接録音を学習データとして使用できる。ただし、他人の声を無断で使用するなりすまし行為を防ぐため、ユーザーには確認フレーズの読み上げが義務付けられている。もっとも、著名人のAI音声モデルが既に広く出回っている現状では、この対策を突破される可能性も指摘されている。業界に広がる「Don’t Ask, Don’t Tell（見て見ぬふり）」文化 AI活用はカントリーミュージック界だけの話ではない。ジャンルを問わず多くのアーティストが、アレンジの実験やデモ制作、サンプル素材の生成にAIを活用しているにもかかわらず、それを公言しようとする人はほとんどいないという。 Rolling Stone誌の報道によれば、著名プロデューサーのYoung Guruは「ヒップホップ制作者の半数以上が、オリジナル楽曲のライセンス取得やミュージシャンへの依頼の代わりに、AIでファンクやソウルのサンプルを生成するようになっている」と推測している。 AIストリーミング詐欺で有罪判決——8億円超を不正取得 2026年3月下旬、ノースカロライナ州の男性マイケル・スミスが、AI音楽詐欺事件で有罪を認めた。スミスは数十万曲のAI生成楽曲を作成し、ボットを使って「数十億回」にのぼるストリーミング再生を偽造。この手口により、米司法省（DOJ）によると800万ドル（約12億円）以上の著作権使用料を不正に取得していた。ストリーミング・プラットフォームの収益分配モデルを悪用したこの手口は、業界全体のロイヤルティ制度への信頼を揺るがすものとして注目を集めている。 Apple Musicが任意ラベル制度を導入 Apple Musicは、AI生成楽曲に任意でラベルを付与できる「Transparency Tags（透明性タグ）」の導入を発表した。楽曲本体、作曲、アートワーク、ミュージックビデオの4カテゴリをカバーしており、アーティストやレコードレーベルが自主的に申告する仕組みだ。ただし申告はあくまで任意であり、タグのない楽曲がAI非使用を意味するわけではない点には注意が必要だ。日本への影響と今後の展望日本の音楽業界でもAI生成楽曲への関心は急速に高まっており、著作権法上の扱いや実演家の権利保護が今後の議論の焦点となる見込みだ。「AIが生成したものは『音楽』と呼べるのか」「それは『創作』なのか、単なる出力なのか」という根本的な問いに、法律・技術・倫理の三つの側面から社会全体で答えを模索していく必要がある。元記事: All the latest in AI ‘music’

生成AI

AIスクレイパーを毒の無限ループに閉じ込めるツール「Miasma」が登場

AIによる無断スクレイピングに対抗する新ツール「Miasma」 AI企業によるWebサイトへの無断スクレイピング（データ収集）が深刻化するなか、これに対抗するRust製オープンソースツール「Miasma」がGitHubで公開され、注目を集めている。 Miasmaとは何か Miasmaは、悪意ある自動収集ボット（スクレイパー）を「毒入りデータの無限ループ」に誘い込むことで、AIの学習データ収集を妨害するサーバーツールだ。仕組みはシンプルかつ巧妙で、スクレイパーが訪れたページには偽のゴミデータと、同じサーバーへの自己参照リンクが複数埋め込まれる。スクレイパーはそのリンクを追い続け、永遠に抜け出せない「スラップ（質の低いコンテンツ）の無限ビュッフェ」にはまり込む。 Rustで実装されているため動作が非常に高速で、メモリ消費量も最小限に抑えられている。同時接続数50に制限した場合のピークメモリ使用量は約50〜60MB程度で、サーバーリソースへの影響は軽微だ。設置方法インストールはCargoで一行で完了する。元記事: Miasma: A tool to trap AI web scrapers in an endless poison pit

生成AI

AIの顔認識で無実の女性が5ヶ月拘束——米国で相次ぐ誤認逮捕の実態

AIの顔認識で無実の女性が5ヶ月拘束——米国で相次ぐ誤認逮捕の実態米国テネシー州に住む50歳の女性、アンジェラ・リップス（Angela Lipps）さんが、AI顔認識ツールによる誤った識別をきっかけに逮捕され、5ヶ月以上にわたって拘置されるという深刻な冤罪事件が明らかになった。事件の経緯 2025年7月、ノースダコタ州ファーゴ周辺で複数の銀行詐欺事件が発生。捜査当局はその容疑者の特定に際し、隣接するウェストファーゴ警察が導入していたAI顔認識システムを利用した。このシステムは、SNSを含むインターネット上から数十億枚の画像を収集したデータベースを持つスタートアップ企業「Clearview AI」が提供するものだった。ウェストファーゴ警察によると、Clearview AIは「アンジェラ・リップスと類似した特徴を持つ候補者」を識別。この結果がファーゴ警察に共有されたことで、テネシー州在住のリップスさんを指す逮捕状が発行された。しかし彼女は、事件が起きたノースダコタ州に行ったことすらなかったと主張している。リップスさんは7月14日にテネシー州で逮捕され、3ヶ月以上テネシー州の拘置所に収容された後、ノースダコタ州に移送。重罪窃盗や個人情報の不正利用などの複数の容疑をかけられ、合計で5ヶ月以上の拘束を余儀なくされた。警察側の対応と問題点ファーゴ警察署長のデイブ・ジボルスキ（Dave Zibolski）氏はCNNの取材に対し、「ウェストファーゴがAI顔認識システムを独自購入していたことを幹部レベルでは把握していなかった。把握していれば使用を許可しなかった」と述べ、現在は同システムの使用を禁止していることを明らかにした。同氏は「捜査において一定の誤りがあった」と認めたものの、直接的な謝罪には至っていない。 AI顔認識の精度問題と人権リスクこの事件はAI顔認識技術が孕む深刻なリスクを改めて浮き彫りにした。米国では他にも類似の誤認逮捕事例が報告されており、特に特定の人種・性別に対して識別精度が低下するという研究結果も複数存在する。 Clearview AIは企業・政府機関向けに顔認識サービスを提供する企業で、日本を含む各国でプライバシー法違反として調査・制裁を受けた経緯がある。EUではGDPR違反として制裁金が科されたケースもある。日本への示唆日本でも警察や自治体によるAI・カメラ活用が広がりつつある中、識別精度の検証プロセスや使用ガイドラインの整備、そして冤罪防止のための制度設計が急務となっている。AI技術は犯罪捜査を効率化する一方で、誤用・過信によって無実の市民が甚大な被害を受けるリスクがあることを、本事件は改めて示している。リップスさんは最終的に全ての容疑が取り下げられ釈放されたが、5ヶ月以上を拘束されたことによる精神的・社会的ダメージは計り知れない。元記事: Police used AI facial recognition to wrongly arrest TN woman for crimes in ND

生成AI

ChatGPTは入力前にCloudflareがReactの状態を読んでいた――暗号化プログラムを解読した話

ChatGPTへのメッセージ送信前、Cloudflareはあなたのブラウザで何かを実行している ChatGPTにメッセージを入力するたびに、Cloudflare Turnstileと呼ばれるプログラムがバックグラウンドでひっそりと動いている。セキュリティ研究者がネットワークトラフィックからこのプログラムを377件解読したところ、一般的なブラウザフィンガープリンティングを大きく超える仕組みが明らかになった。 55項目、3層構造のチェックこのプログラムが収集するデータは55種類にのぼり、以下の3つの層に分類される。 Layer 1: ブラウザフィンガープリント WebGL（8項目）: GPUベンダー名・レンダラー情報などスクリーン（8項目）: 解像度、色深度、有効表示領域などハードウェア（5項目）: CPUコア数、搭載メモリ、タッチポイント数などフォント計測（4項目）: 非表示のdiv要素を生成し、特定フォントでテキストを描画して寸法を測定 DOM操作・ストレージ（計13項目）: localStorage にフィンガープリントを保存し、ページ再読み込みをまたいで継続的に追跡 Layer 2: Cloudflareネットワーク情報エッジサーバが付与するヘッダから、接続元都市・緯度経度・IPアドレス・地域を取得。Cloudflareのネットワークを経由していないリクエストではこれらの値が欠落するため、直接オリジンサーバに接続するボットを検知できる。 Layer 3: ChatGPTのReactアプリ状態ここが最も注目すべき点だ。プログラムは __reactRouterContext、loaderData、clientBootstrap といったChatGPT固有のReact内部状態を直接参照する。つまりTurnstileは「本物のブラウザが動いているか」だけでなく、「本物のブラウザ上でChatGPTのSPAが完全に起動しているか」まで検証している。ブラウザフィンガープリントを偽装しても、実際にChatGPTのSPAをレンダリングしていないボットはここで弾かれる。暗号化の仕組みと解読方法 Turnstileのバイトコードは暗号化されて届く。サーバはレスポンス内の turnstile.dx フィールドに約28,000文字のBase64データを送信し、これはリクエストごとに変化する。外側の暗号化はprepareリクエストの p トークンとのXOR演算で解除できる。両者は同一のHTTPやり取りの中に存在するため、復号は難しくない。内側には19KBの暗号化ブロブが存在し、最初は performance.now() 由来のエフェメラルキーを使用していると思われた。しかしバイトコードを詳しく調べると、XORキーそのものがバイトコード内に 97.35 という浮動小数点リテラルとして埋め込まれていることが判明。377件中すべてのリクエストで、この値を使えば正しいJSONに復号できることが確認された。復号に必要なものは、HTTPリクエストとレスポンスだけだ。ボット対策の最前線解読されたプログラムは、28種類のオペコード（ADD、XOR、CALL、JSON_STRINGIFYなど）を持つカスタムVMで動作し、レジスタのアドレスはリクエストごとにランダム化される。この仕組みは、現代のボット対策がどこまで深く踏み込んでいるかを示している。GPUの種類やフォントの描画寸法といった低レベルな情報から、アプリケーション固有のJavaScript状態まで、ブラウザ環境全体を丸ごと検証することで、巧妙なボットを排除しようとしている。裏を返せば、プライバシーの観点から「どこまでが許容範囲か」という問いを改めて提起している。元記事: ChatGPT won’t let you type until Cloudflare reads your React state

生成AI

AIエージェントの能力は向上中、しかし「信頼性」は依然として大きな課題

AIエージェントの「信頼性問題」が本番導入の壁に AIエージェントの能力は急速に向上している。しかし、実際に業務で使えるレベルの「信頼性」という観点では、まだ大きな課題が残っているという実態が浮かび上がってきた。著名なAI研究者であるプリンストン大学のサヤシュ・カプール氏とアルビンド・ナラヤナン氏（共著書『AI Snakeoil（AIインチキ医療）』で知られる）は最近、4名の計算機科学者と共同で「AIエージェント信頼性の科学に向けて（Towards a Science of AI Agent Reliability）」という論文を発表した。「平均精度」だけでは見えない落とし穴この論文が指摘する核心は、現在のAIモデル評価が「平均精度」に偏りすぎているという点だ。平均スコアが高くても、特定の条件下では極端に失敗する可能性があり、実運用には耐えられない。研究チームは信頼性を以下の4つの次元で評価することを提唱している。一貫性（Consistency）: 同じタスクを同じ条件で与えたとき、常に同じ結果を出せるか堅牢性（Robustness）: 理想的でない条件下でも正しく動作できるか校正精度（Calibration）: 自分の回答の確信度を正確にユーザーに伝えられるか安全性（Safety）: 失敗したとき、その影響はどれほど深刻かさらにこの4領域を14の具体的な指標に細分化し、2025年11月末時点の最新モデル群（OpenAI GPT-5.2、Anthropic Claude Opus 4.5、Google Gemini 3 Proなど）を対象に検証を行った。精度の向上に信頼性が追いつかない結果は衝撃的だった。モデルの世代が進むにつれて信頼性は確かに改善されているが、その改善速度が精度の向上に比べてはるかに遅い。汎用エージェントタスクのベンチマークでは、信頼性の改善率は精度の半分にとどまり、カスタマーサポート向けベンチマークでは何と7分の1という結果が出た。総合信頼性スコアではClaude Opus 4.5とGemini 3 Proが85%でトップだったが、14の個別指標を見ると依然として懸念点は多い。たとえばGemini 3 Proは自分の回答が正確かどうかを判断する「校正精度」が低く、誤った情報を自信満々に提示するリスクがある。現場でも顕在化する不安定さこうした研究上の懸念は、実際の利用現場でも実感されている。PerplexityのコンピューターエージェントはAnthropicのClaude Sonnet 4.6を使い、地元のリサイクルセンターへの予約を難なくこなした一方で、出張フライトの検索という「AIの得意領域」とされるタスクでは45分間トークンを消費した末に失敗。AnthropicがロンドンでのAIデモイベントで披露したClaude Coworkは、Excelの簡単なデータ整列には手間取りながらも、複雑な予算予測モデルは問題なく構築するという一貫性のなさを露呈した。日本企業が押さえるべきポイント AIエージェントの本番導入を検討している日本企業にとって、この研究が示す教訓は明確だ。「デモで動いた」「精度評価が高い」だけで導入を判断するのは危険であり、実際の業務環境での一貫性・堅牢性・失敗時の影響範囲まで含めた多面的な評価が不可欠となる。特に金融・医療・法務などミスが許されない領域での活用には、信頼性評価の枠組みを独自に構築することが求められるだろう。 AIエージェントの「信頼性」は技術競争の次の主戦場になりつつある。元記事: Fortune: AI Agents Are Getting More Capable, But Reliability Is Still Lagging

生成AI

AnthropicがAI研究機関「Anthropic Institute」を設立——経済・安全保障への影響を専門研究

AnthropicがAI政策研究機関「Anthropic Institute」を設立 Claude開発元のAnthropicは、高度なAIシステムが経済・社会・国家安全保障に与える影響を専門的に研究する機関「Anthropic Institute」の設立を発表した。設立の背景と目的生成AI（Generative AI）の急速な普及に伴い、AIが労働市場や産業構造、さらには国家間の競争力バランスにどのような変化をもたらすかという問いが、各国政府や企業にとって喫緊の課題となっている。Anthropic Instituteは、こうした問いに対して独立した研究成果を提供することを主な使命として掲げている。具体的な研究領域としては以下が挙げられている。経済的影響：AI導入による雇用・産業構造の変化、生産性への効果社会的影響：情報格差、教育・医療分野でのAI活用の公平性安全保障上の影響：サイバーセキュリティ、軍事応用、国家間のAI競争 AIガバナンスへの貢献を狙う Anthropicは従来から「責任あるAI開発（Responsible AI Development）」を企業理念の中核に据えており、Anthropic Instituteの設立もその延長線上にある取り組みだ。研究成果を政策立案者や規制当局に提供することで、AI関連の法整備やガバナンス枠組みの形成に寄与することが期待されている。日本においても、内閣府や経済産業省がAIに関する政策議論を活発化させており、こうした独立研究機関からのエビデンスベースの知見は、国内の政策形成にも間接的な影響を与える可能性がある。 Big Tech各社が相次いでAI政策研究に注力 Anthropicの動きは業界全体のトレンドとも一致している。OpenAI、Google DeepMind、Metaなど主要なAI企業が、技術開発と並行してAIの社会的影響に関する研究部門を強化しており、規制当局との対話を重視する姿勢が鮮明になっている。 Anthropicは2026年に入り、Claude 3系列の大規模アップデートを連続して投入するなど技術競争の最前線に立ちながら、今回の機関設立によって「技術力」と「社会的信頼性」を両輪で強化する戦略を明確にした形だ。元記事: Anthropic Launches Anthropic Institute to Study AI’s Economic and Security Impacts

生成AI

Gartner予測：2030年までに1兆パラメータLLMの推論コストが90%以上低下——生成AI普及の経済的障壁が崩れる

大規模言語モデルの「コスト革命」が近づいている調査・コンサルティング大手のGartnerは2026年3月25日、2030年までに1兆パラメータ（1 trillion parameters）規模の大規模言語モデル（LLM）に対する推論（inference）コストが、2025年時点と比べて90%以上低下するという予測を発表した。この予測が現実のものとなれば、GPT-4やClaude、Gemini Ultraといった最先端モデルと同等かそれ以上の規模のモデルを活用するコストが現在の10分の1以下になる計算だ。企業にとって生成AIの本格導入を妨げてきた「コスト」という最大の壁が、大きく崩れることを意味する。なぜコストはここまで下がるのか Gartnerがこの大胆な予測の根拠として挙げているのは、主に以下の3つのトレンドだ。 1. 半導体・ハードウェアの進化 NVIDIAをはじめとするGPUメーカーや、GoogleのTPU、AWSのTrainium/Inferentiaといった専用AIアクセラレータの性能は、ムーアの法則を超える速度で向上している。推論専用チップの登場により、同じ電力・コストで処理できるトークン数が飛躍的に増加する見込みだ。 2. モデル効率化技術の成熟量子化（Quantization）、蒸留（Distillation）、スパース化（Sparsification）といった技術により、モデルの精度を維持しながら計算量を大幅に削減する手法が急速に洗練されている。特に「推論時の計算スケーリング」（Inference-time Compute Scaling）と呼ばれるアプローチは、必要な処理を動的に調整することでコスト効率を高める有望な方向性として注目されている。 3. クラウドプロバイダー間の競争激化 Azure OpenAI、Google Vertex AI、AWS Bedrockといった主要クラウドのAI推論サービスは、激しい価格競争を展開している。実際、GPT-4 Turboの登場以降、主要モデルのAPI価格は数ヶ月単位で数十〜数百%規模の値下げが繰り返されており、この傾向は今後も続くと見られる。日本企業への影響日本では現在、多くの企業が生成AIのPoCや社内導入を進めているが、「コストが見合わない」「大量処理をすると費用が膨らむ」という声は根強い。しかし2030年にかけてコストが90%超低下するとなれば、現在は費用対効果が合わないとされているユースケース——大量文書の自動分析、リアルタイム顧客対応、高頻度の意思決定支援——が一気に現実的な選択肢になる。 Gartnerのこの予測は単なる楽観論ではなく、過去のクラウドコンピューティングやストレージのコスト低下曲線と類似したパターンに基づいたものだ。2010年代前半には「クラウドは高すぎる」と言われていたが、今やほぼすべての企業システムがクラウド前提で設計されている。生成AIも同じ軌跡を辿る可能性が高い。生成AIの「民主化」が加速する推論コストの劇的な低下は、生成AIを一部の大企業やテック企業だけのものではなく、中小企業やスタートアップ、さらには個人開発者まで広く使えるインフラへと変貌させる起爆剤になり得る。 Gartnerのこの予測を念頭に置けば、今まさに生成AIの活用基盤を整備し、ユースケースを探索している企業は、2030年に向けて大きなアドバンテージを持つことになる。コストが障壁だった分野への投資を今から準備しておくことが、次の競争優位を生む鍵となりそうだ。元記事: Gartner: LLM Inference Costs to Drop 90%+ by 2030 for 1 Trillion Parameter Models

生成AI

Pythonパッケージの脆弱性を一括チェック——OSV.dev APIを活用した無料ツールが登場

Pythonプロジェクトの依存関係を脆弱性データベースで即チェック Simon Willison氏が、Pythonプロジェクトの依存パッケージに含まれる既知の脆弱性を一括検索できるWebツール「Python Vulnerability Lookup」を公開した。使い方はシンプル——設定不要で即利用可能使い方は非常にシンプルだ。プロジェクトの pyproject.toml または requirements.txt の内容をテキストエリアに貼り付けるか、依存関係ファイルを含むGitHubリポジトリ名を入力するだけでよい。ツールはGoogleが運営するオープンソース脆弱性データベース OSV.dev のJSON APIに問い合わせを行い、各パッケージの既知脆弱性を一覧表示する。表示される情報には以下が含まれる: 深刻度レベル（CVSSスコアベース）影響を受けるバージョン範囲詳細な開示レポートへのリンク OSV.devのオープンCORS APIを活用今回のツール開発のきっかけは、OSV.devがCORSを許可したオープンなJSON APIを提供していることをWillison氏が発見したことだ。CORSが許可されているため、バックエンドサーバーを介さずブラウザから直接APIを叩けるシングルページのHTMLツールとして実装できた。 OSV.dev（Open Source Vulnerabilities）はGoogleが主導するプロジェクトで、Python（PyPI）をはじめ、npm、Go、Rust、Javaなど多数のエコシステムの脆弱性情報を一元管理している。NVDやGitHub Advisory Databaseとも連携しており、日本の開発現場でも活用が広がっている。ツール自体もAIで開発——「バイブコーディング」の実践例として Willison氏はこのツール自体を Claude Code を使って構築したことも明かしている。AIアシスタントと対話しながらコードを書く「バイブコーディング（Vibe Coding）」のひとつの実践例として紹介されており、軽量なHTMLツールをAIで素早く実装するアプローチの有効性を示している。サプライチェーン攻撃対策として活用を Pythonプロジェクトの依存関係を狙ったサプライチェーン攻撃は近年増加傾向にある。pip audit や GitHub Dependabotといった既存ツールと並んで、本ツールをCI/CDの事前チェックや定期的なセキュリティレビューに組み込むことで、脆弱なパッケージの早期発見に役立てられるだろう。ツールはブラウザ上で動作し、インストール不要・無料で利用可能。元記事: Python Vulnerability Lookup

生成AI

DOM不要で折り返しテキストの高さを高速計算——Reactコア開発者が新ライブラリ「Pretext」を公開

DOMを触らずにテキストの高さを計算する「Pretext」 Reactコア開発者であり、アニメーションライブラリ「react-motion」の作者として知られるCheng Lou氏が、新しいブラウザ向けライブラリ「Pretext」を公開した。解決する課題：折り返しテキストの高さ計算 Webアプリケーション開発において、折り返しを含む段落テキストの高さを事前に求めることは、意外と難しい問題だ。一般的な手法では、実際にDOMへ要素を描画してからgetBoundingClientRect()等で寸法を取得するが、この操作はレイアウト再計算（リフロー）を強制するため非常にコストが高い。動的なテキストレイアウトが求められるリッチなUIでは、これがパフォーマンスのボトルネックになりやすかった。 PretextはDOMに一切触れることなく、この計算を高速に行う。仕組み：prepare() と layout() の分離 Pretextの核心は、処理を2段階に分離した設計にある。 prepare() 関数では、入力テキストをセグメント（単語単位。ソフトハイフン・非ラテン文字列・絵文字にも対応）に分割し、オフスクリーンCanvas上で各セグメントの寸法を測定してキャッシュする。この処理は比較的コストがかかるが、一度だけ実行すればよい。 layout() 関数では、キャッシュ済みの計測結果を使い、ブラウザのワードラップロジックをエミュレートして、指定した横幅での折り返し行数と全体の高さを算出する。layout()は軽量なため何度でも高速に呼び出せる。この分離設計により、幅が変わるたびに再計算が必要なレスポンシブレイアウトでも効率的に動作する。テスト手法も注目に値する Pretextのテスト戦略も印象的だ。初期のテストでは「華麗なるギャツビー（The Great Gatsby）」全文を複数ブラウザで実際にレンダリングし、Pretextの推定値との一致を確認した。現在はcorpora/フォルダに、タイ語・中国語・韓国語・日本語・アラビア語などのパブリックドメイン文書を追加し、多言語での精度検証を行っている。日本語のような複雑な文字組み処理にも対応している点は、日本のWeb開発者にとって注目ポイントだ。活用シーンこのライブラリが実現するのは、これまでパフォーマンス上の理由から諦めていたリッチなテキスト演出だ。テキストの行数に応じたアニメーション、動的なテキストフィット、仮想スクロールリストでの正確な高さ事前計算などに活用できる。 PretextはGitHub上でオープンソースとして公開されており、TypeScriptで実装されている。元記事: Pretext

生成AI

OpenAIがSoraを6ヶ月でシャットダウン——AI動画ブームへの現実的な警鐘

OpenAI、Soraを突然終了——AI動画の「現実チェック」が始まった OpenAIは今週、昨年10月に公開したばかりのAI動画生成アプリ「Sora」と関連する動画モデル群をシャットダウンすると発表した。サービス開始からわずか6ヶ月での撤退という異例の決断は、業界に大きな波紋を呼んでいる。 IPO前のピボット——エンタープライズへの集中ウォール・ストリート・ジャーナルの報道によれば、今回の決定の背景には、OpenAIが株式公開（IPO）を視野に入れながら、コンシューマー向けソーシャルアプリよりも企業向け製品・開発者ツール・生産性向上サービスへのリソース集中を優先するという戦略的判断がある。 Soraのコンセプト自体も問題視された。「人のいないソーシャルネットワーク」とも言われ、ユーザーが生成した動画スラップ（低品質コンテンツ）が溢れる構造は、そもそも人々にとって意味を見出しにくいプロダクトだった。 ChatGPTの成功は「幸運」だったのか TechCrunchのEquityポッドキャストでは、この決断の意味をより鋭く分析している。編集者のSean O’Kaneは、「ChatGPTがあれほど成功したのには、ある種の幸運の要素があった」と指摘する。 ChatGPTが数億ユーザーを抱えるメガプロダクトに育ったのは確かに事実だ。しかし同じ会社が「次も必ず当てられる」と高をくくってSoraを展開したことは、プロダクト開発の本質を見誤った可能性がある——人々が継続的に「意味を感じられる」ものでなければ、どんなAIプロダクトも生き残れないというシンプルな原則だ。むしろポジティブ？「失敗を恐れない文化」の証明一方で、TechCrunchのKirsten Korosecはこの決断を高く評価している。「私はOpenAIを褒めたい。上手くいかないプロダクトを素早く見切り、失敗を感じさせずに撤退できる企業文化は、AIラボとしての成熟を示している」確かに、資金を投じて開発したプロジェクトを損切りする判断は容易ではない。それでも迅速に軌道修正できる組織能力は、長期的な競争力に直結する。 ByteDanceも慎重姿勢——AI動画全体が転換点にこうした動きはOpenAI単独の話にとどまらない。中国系テック大手ByteDanceも、AI動画モデル「Seedance 2.0」のグローバル展開を遅らせているとの報道がある。 AI動画生成技術は「Hollywood を代替する」と囁かれるほどの期待を集めてきた。しかし現実には、ビジネスモデルの確立、コンテンツ品質の担保、著作権問題など、技術的な進歩だけでは解決できない壁が立ちはだかっている。日本でも映像制作やCM業界でのAI動画活用に注目が集まっているが、今回の出来事は「技術が使えること」と「プロダクトとして成立すること」の間にある深い溝を改めて示唆するものと言えるだろう。 AI動画の本格的な普及は、まだ次のフェーズを待つ必要があるのかもしれない。元記事: Sora’s shutdown could be a reality check moment for AI video

生成AI

Wikipedia、AI生成コンテンツを全面禁止——例外は翻訳と軽微な校正のみ

WikipediaがAI生成コンテンツを禁止——7,100万記事を抱える百科事典の決断インターネット最大の百科事典であるWikipediaが、大規模言語モデル（LLM）を使ったコンテンツの生成・書き直しを全面禁止するポリシーを導入した。英語版Wikipediaには現在7,100万件以上の記事が掲載されており、その品質を守るための措置だ。禁止の背景——ボランティア編集者たちの懸念 Wikipediaは、LLMの利用が同サイトの核心的な原則を「しばしば侵害する」として禁止を明文化した。この決定はWikipediaのボランティア編集者コミュニティによる投票で支持されたものだ。 AI利用はWikipedia編集者の間で長らく論争の種となっていた。AIが生成する文章は表面上は流暢でも、引用された出典に基づかない内容を含んだり、文章の意味を微妙に変えてしまうリスクがある。新ポリシーはこの点を明確に指摘している。「LLMはあなたが求めた以上のことをして、引用された出典で裏付けられていない内容に文章の意味を変えてしまうことがあるため、注意が必要です」例外として認められる2つのユースケース全面禁止とはいえ、以下の2つのケースに限りAIの利用が認められている。翻訳補助 — 外国語コンテンツの翻訳に際してAIを補助的に使用すること軽微なコピー編集の提案 — 自分の文章に対してLLMに基本的な校正提案をさせること。ただし、AIが独自のコンテンツを追加せず、人間によるレビューを経た上での採用に限る Wikipedia創設者ウェールズ氏のスタンス Wikipediaの創設者ジミー・ウェールズ氏はかねてからAI活用に慎重な姿勢を示してきた。昨年BBCに対し、「絶対にないとは言わないが、少なくとも短期的には使わない。最新のモデルもWikipediaの基準からはまだ全く十分ではない」と語っている。 ChatGPTがWikipediaの月間訪問者数を上回った現実皮肉なことに、ChatGPTは昨年Wikipediaの月間サイト訪問者数を上回ったと報じられている。AIが基本的な情報収集の手段として急速に普及する一方で、AIは「ハルシネーション（幻覚）」と呼ばれる誤情報を生成するリスクを抱えている。ウェールズ氏はこの状況を「混乱（a mess）」と表現していた。日本語版Wikipediaへの影響は？今回の禁止ポリシーは英語版Wikipediaが採択したものだが、他言語版の編集コミュニティにも影響を与える可能性がある。日本語版Wikipediaにも独自の編集ガイドラインがあるため、今後の動向が注目される。AIと信頼性の高い百科事典の共存という課題は、世界中のコミュニティが直面している問題だ。元記事: Wikipedia bans AI-generated content in its online encyclopedia

生成AI

2026年の中国LLM勢力図：Qwen・DeepSeek・Doubaoが欧米勢に挑む多層構造の実態

「DeepSeekとQwenがすべて」では語れない中国AI市場の現実 2026年3月現在、中国の大規模言語モデル（LLM）市場は、海外のAIコミュニティで語られるイメージとは大きく異なる姿を見せている。Redditの技術フォーラム「r/LocalLLaMA」では「DeepSeekとQwenがほぼすべてを定義している」という見方が広まっているが、国内の実際のアプリ利用データを見ると、ByteDance（字節跳動）のDoubao（豆包）が消費者接点では圧倒的な存在感を持つ。どちらの見方も間違いではないが、それぞれ市場の異なる層を切り取っているに過ぎない。三層に分かれる競争構造中国のLLM競争は現在、大きく三つの層で展開されている。第一層：消費者向けプロダクト ByteDanceのDoubaoは、モデルの技術的な話題性よりも「配信力とプロダクトの到達範囲」によって優位を保っている。日本でLINEやGoogleアシスタントが日常に溶け込んでいるように、Doubaoは中国の一般ユーザーの日常的なAI接点として機能している。第二層：オープンソース・開発者エコシステム Alibaba（アリババ）のQwen（通義千問）とDeepSeekは、グローバルなオープンソースコミュニティにおいて最も影響力の大きいモデルラインを維持している。2025年から2026年にかけて、両社を含むQwen・DeepSeek・Kimi・GLM・MiniMax・StepFun・ByteDance Seed・XiaomiのMiMoといったモデルが数週間おきに新バージョンや技術レポートを公開し続けており、リリース頻度の高さは欧米勢をしのぐ勢いだ。第三層：法人向け・エコシステム展開 Tencent（テンセント）・Alibaba・Baidu（百度）・ByteDanceなどの大手テック企業は、既存のビジネスシステムへのモデル組み込みにおいて、フォーラム上の評判以上の優位性を持つ。一方で、KimiやGLM・MiniMaxなどのスタートアップは「汎用チャットモデル」路線から「エージェント・長文脈・コーディング・マルチモーダル・垂直業界」への差別化に軸足を移している。次の主戦場はコーディングエージェント現在急速に形成されつつある新たな競争領域が、Claude Codeのようなコーディングエージェントワークフローと、OpenClaw周辺のエージェントフレームワークエコシステムだ。ターミナルやIDE・ツールチェーン内でデフォルトのモデルバックエンドになれるかが、次の覇権を左右する鍵と見られている。日本のエンジニアにとっても、VSCodeやCursorなどのAIコーディングツールの背後でどのモデルが動くかは無関係ではない。中国発のモデルがグローバルなOSSエコシステムを通じてツールチェーンに組み込まれるシナリオは、すでに現実味を帯びている。「モデルを作れるか」ではなく「製品にできるか」が勝敗を分ける中国LLM市場の真のボトルネックは、もはや「誰が高性能なモデルを訓練できるか」ではない。「そのモデルを実際の製品として展開し、規制に準拠した形でローンチし、長期的な推論・計算コストを吸収できるか」に移行している。米国市場が少数のフロンティアモデルベンダーに注目を集中させがちなのとは対照的に、中国市場は大手テック企業とスタートアップが複数の軸で競い合う複雑な構造を持つ。一次元のランキングではなく、多層の地図として捉えることが、中国AI台頭の実態を正確に把握する上で不可欠だ。元記事: China’s LLM Landscape in 2026: How Models, Products, and Ecosystems Are Being Reordered

生成AI

NVIDIA、エージェントAI時代を見据えた120Bハイブリッドモデル「Nemotron 3 Super」を発表

NVIDIAがGTC 2026で「Nemotron 3」ファミリーを公開——エージェントAI向けオープン基盤モデルの新展開 NVIDIAは2026年3月11日、米国サンノゼで開催中の「GTC 2026」にて、エージェントAIシステム向けの新しいオープンモデルファミリー「Nemotron 3」を発表した。同社にとって過去最も本格的なモデルリリースと位置づけられており、AIスタック全体への影響力拡大を明確に示す動きとして業界から注目されている。ハイブリッドMoEによる圧倒的な効率性今回の主力モデル「Nemotron 3 Super」は、総パラメータ数120Bながら、推論時に活性化されるパラメータは12Bにとどまる「ハイブリッド混合エキスパート（Hybrid MoE）」アーキテクチャを採用している。このアプローチにより、複雑なマルチエージェントワークロードを処理しながらもインフラコストを抑えることが可能となる。ベンチマーク面では、ソフトウェアエンジニアリング評価指標「SWE-Bench Verified」で60.47%を達成。同規模の競合モデル（GPT-OSS-120B）と比較して約2.2倍のスループットを実現するという。ファミリー構成は「Nano」「Super」「Ultra」の3サイズ展開。Nanoはすでに提供開始されており、SuperとUltraは2026年前半のリリースが予定されている。Nanoは前世代比で4倍のスループット向上を謳っており、複数モデルを並列実行するマルチエージェントパイプラインに最適化されている。「真のオープンソース」——モデル重みだけでなく学習データも公開 Nemotron 3が業界標準的な「オープンソース」リリースと一線を画するのは、モデル重みだけでなく学習データセット・強化学習（RL）環境・ライブラリ一式を合わせて公開している点だ。NVIDIAのCEO、ジェンスン・ファン氏はGTCの壇上で次のように述べた。「オープンイノベーションはAI進歩の土台だ。Nemotronを通じて、開発者が自らエージェントシステムを構築できる透明性と効率性を提供する。」多くの「オープン」モデルがモデル単体の公開にとどまる中、Nemotron 3はエンドツーエンドの構築ツールキットとして機能する設計となっている。クラウド・エンタープライズ双方での展開クラウド展開では、Amazon Bedrockへのサーバーレス統合から開始し、Google Cloud、Microsoft Foundry（Azure）、CoreWeaveなどへの順次対応が予定されている。エンタープライズ向けにはNVIDIAのNIMマイクロサービスを通じてオンプレミスやプライベートクラウド環境への導入も可能だ。すでにCouchbase、DataRobot、H2O.ai、JFrog、UiPathといったパートナー製品への統合も完了しており、これらのプラットフォーム利用者はカスタム統合作業なしでNemotron 3を活用できる。次世代アーキテクチャ「Vera Rubin」も発表 GTCではNemotron 3と並行して、次世代AIスーパーコンピュータ基盤「Vera Rubin」も発表された。現行のBlackwellプラットフォームと比較して、推論トークンコストを最大10分の1に削減し、MoEモデルの学習に必要なGPU数を4分の1に抑えられるとしている。Anthropic、Meta、OpenAI、Mistral、xAIなど主要AIラボがRubinハードウェアでの学習を予定しており、2026年後半からCorWeaveを筆頭に提供開始される見込みだ。ハードウェア企業からAIスタック全体へ NVIDIAが競争力のあるオープンソースモデルファミリーを、学習データやRLライブラリまで含めてリリースしたことは、チップの販売にとどまらずAIスタック全体の主導権を握る意図を明確に示している。マルチエージェントアーキテクチャへの移行が加速する中、推論コストの削減と高スループットを両立したNemotron 3は、エージェントAI開発の中核を担う存在になり得る。元記事: NVIDIA Nemotron 3 Super: 120B Hybrid MoE Model Built for Agentic AI Era

生成AI

Intel OpenVINO 2026.0リリース——NPU対応強化とLLMサポート拡充でローカルAI推論が本格化

Intelは2026年2月23日、オープンソースのAI推論ツールキット「OpenVINO」の2026年初メジャーリリースとなるOpenVINO 2026.0を公開した。大規模言語モデル（LLM）サポートの拡充、Intel NPU（Core Ultraシリーズ向け）のハンドリング改善、CPU/NPU/GPU横断での推論最適化強化が主な見どころだ。新たにサポートされたLLMモデル CPU・GPU実行向けには以下のモデルが新たに追加された。 GPT-OSS-20B（OpenAI製オープンウェイトモデル） MiniCPM-V-4_5-8B MiniCPM-o-2.6 GPT-OSS-20BについてはOpenVINOの正式サポートが今回まで遅れていた点が業界的にも注目されていたが、今バージョンでついに対応が完了した。 NPU向けの小規模モデルとしては以下が追加されている。 MiniCPM-o-2.6 Qwen2.5-1B-Instruct Qwen3-Embedding-0.6B Qwen-2.5-coder-0.5B Qwenシリーズはアリババが開発する中国発の高性能LLMファミリーで、小型・軽量モデルの充実度が評価されている。NPUでのオンデバイス推論に向いたサイズ感であり、今回の追加は実用的な意義が大きい。 OpenVINO GenAIの機能強化生成AI向けコンポーネントOpenVINO GenAIにも複数の改善が加わった。ワードレベルのタイムスタンプ対応：音声認識・字幕生成の精度が向上し、OpenAIのWhisperやFasterWhisperと同等の機能水準に近づいた MoE（Mixture of Experts）LLM向けint4データウェア重み圧縮：3D MatMulに対応し、メモリ帯域幅の削減と精度の両立を実現 VLMパイプライン（Visual Language Model）サポート：エージェントAIフレームワークとの統合が容易になった NPUでのSpeculative Decoding対応：生成速度の向上が期待できる Core Ultra NPUとのコンパイラ統合ハードウェア面では、Intel Core UltraシリーズのNPUサポートが強化された。NPUプラグインにコンパイラが統合され、OEMドライバの更新を待たずに「事前コンパイル（AOT）」および「オンデバイスコンパイル」が可能になった。Intelはこれを「単一の出荷可能パッケージで、統合の摩擦を減らしタイム・トゥ・バリューを加速する」と説明している。 Core Ultraを搭載したノートPCやミニPCを使う開発者にとって、ドライバ依存が薄れることはローカルAI開発の敷居を大きく下げる改善点だ。まとめ OpenVINO 2026.0は、Intelが自社ハードウェア上でのAI推論エコシステムを着実に強化していることを示すリリースだ。特にNPU活用とLLMサポートの拡充は、クラウドに頼らないオンデバイスAIの実用化を後押しする。ソースコードおよびバイナリはGitHubから入手可能。元記事: Intel Releases OpenVINO 2026 With Improved NPU Handling, Expanded LLM Support

生成AI

Alibaba Cloud、小型でも高性能なマルチモーダルAI「Qwen3.5」シリーズを公開——9Bモデルが旧世代27Bを超える衝撃

Alibaba Cloud、マルチモーダルエージェント向け「Qwen3.5」シリーズを正式公開 Alibaba CloudのQwenチームは、マルチモーダルAIエージェント向けの新モデルシリーズ「Qwen3.5」を公開した。パラメータ数0.8Bから9Bまでの小型モデルで構成されており、エッジデバイスやオンデバイスAI用途への展開を強く意識した設計となっている。 9Bモデルが旧世代27Bを凌駕今回のシリーズで特に注目を集めているのが、最上位の9Bモデルだ。ベンチマーク評価では、約3倍のパラメータ数を持つ旧世代モデルを上回る性能を記録した。モデルの大型化に頼らずに性能を引き上げるという近年のトレンドを体現した結果であり、学習効率や推論アーキテクチャの改善によるものとされている。視覚理解ではGPT-5-Nanoを大幅上回る視覚理解（Visual Understanding）の分野では、OpenAIが提供するGPT-5-Nanoを大きく上回るスコアを達成した。画像の内容把握、図表の読み取り、複雑なシーン理解など、マルチモーダルエージェントが現実世界で動作するために必要な能力を重点的に強化した成果とみられる。「ネイティブ・マルチモーダルエージェント」というコンセプト Qwen3.5のシリーズ名に添えられた副題「Towards Native Multimodal Agents（ネイティブ・マルチモーダルエージェントへ向けて）」が示すように、テキストと画像をシームレスに扱うエージェントAIの実現を主眼に置いている。従来の「テキストが主、画像は補助」という設計から脱却し、視覚情報を最初から対等に扱えるモデルを目指した点が大きな特徴だ。日本への影響と今後の展開国内でも法人・個人を問わずLLM（大規模言語モデル）の活用が加速しており、軽量かつ高性能なオープンモデルへの需要は高まる一方だ。Qwen3.5はApache 2.0ライセンスでの公開も予定されており、ローカル環境での自社AIエージェント構築に活用できる可能性がある。モデルはHugging Faceなどのプラットフォームを通じて近く公開される見通しで、国内エンジニアや研究者からの注目も高い。 Alibaba Cloudは昨年来、Qwenシリーズを急速に進化させており、今回のQwen3.5はその集大成ともいえるリリースだ。小型モデルの性能競争はますます激化しており、Google、Meta、Mistralなどとの覇権争いが続く中、中国発モデルの台頭が改めて示された形となった。元記事: Qwen3.5: Towards Native Multimodal Agents

生成AI

BlueSkyがAIアシスタント「Attie」を発表——自然言語でカスタムフィードを構築できる新アプリ

BlueSkyが新AIアプリ「Attie」を発表——誰でも自分だけのアルゴリズムを設計できる分散型SNSプラットフォームのBlueskyが、AIを活用した新アプリ「Attie（アティー）」を発表した。これはBlueskyアプリ本体とは別の独立したプロダクトで、ユーザーが自然言語でカスタムフィードを構築できるAIアシスタントだ。 Atmosphereカンファレンスで初披露 Attieは3月末に開催された「Atmosphereカンファレンス」で初めて公開された。発表を行ったのは、Blueskyの元CEOでチーフ・イノベーション・オフィサー（CIO）に就任したJay Graber氏と、同社CTO（最高技術責任者）のPaul Frazee氏だ。カンファレンス参加者が最初のベータテスターとなり、現在はクローズドなテスト段階にある。 Attieの内部エンジンには、Anthropic社の大規模言語モデル「Claude（クロード）」が採用されている。日本でも話題のClaudeを活用した「エージェント型ソーシャルアプリ」として設計されており、ユーザーの意図を理解しながら能動的にフィードを最適化してくれる。コードなしで自分だけのフィードを設計 Attieの最大の特徴は、プログラミング知識ゼロでカスタムフィードを作れる点だ。チャットボットと会話するように自然言語でコマンドを入力するだけで、自分の好みに合ったフィードを構築できる。「コードを書いたり、フィードの設定方法を知らなくても、自分でコントロールし、形を変えていける」と、暫定CEO（最高経営責任者）のToni Schneider氏はTechCrunchのインタビューで語った。 Attieにサインインするには、atproto（AT Protocol）対応アプリの共通ログインであるAtmosphereアカウントを使用する。atprotoはBlueskyが開発したオープンな分散型ソーシャルプロトコルで、BlueSky以外のアプリとも連携できる仕組みだ。Attieはこのオープンなデータ基盤を活かし、ユーザーがこれまで何を話し、何に興味を持っているかを即座に把握できる。「AIは人のために使うべき」というBlueskyの哲学 Schneider氏はAttieの設計思想についてこう述べている。「AIプロダクトではあるが、人間中心のAIプロダクトだ。AIは非常に強力な技術だが、人々に真に役立つものを作るために使いたい」。この発言は、XやMetaなど大手プラットフォームが広告収益最大化のためにAIアルゴリズムを活用していることへの対比として読み取れる。BlueSkyはオープンプロトコルを旗印に、ユーザーが自らのフィードを主体的にコントロールできる環境を目指している。将来的には「バイブコーディング」で独自アプリも現時点のAttieはカスタムフィードの構築・閲覧に対応しており、作成したフィードはBlueskyや他のatprotoアプリからも利用できるようになる予定だ。さらに将来的には、ユーザーが自分専用のソーシャルアプリを自然言語で「バイブコーディング（vibe-coding）」——つまり感覚的な指示だけで開発——できる機能や、他ユーザー向けのツール作成機能も計画されている。 AttieはJay Graber氏が数ヶ月前から開発を進めてきた初のプロダクトであり、彼女がCEO職から離れて「作る人」に戻る決断をしたことで生まれた。SNSのフィード体験を、プラットフォームではなくユーザー自身の手に取り戻す試みとして、今後の展開が注目される。元記事: Bluesky leans into AI with Attie, an app for building custom feeds