AIとの対話が「テキストのやり取り」から「電話の会話」へと変わろうとしている。元OpenAI最高技術責任者(CTO)のMira Murati氏が昨年設立したThinking Machines Labが、2026年5月に「インタラクションモデル(interaction models)」と称する新しいアーキテクチャを発表した。現時点では研究プレビューの段階だが、AIの対話設計に対する根本的な問い直しとして注目に値する。
ターンテイキング型AIの根本的な限界
現在のすべてのAIモデルは「ターンテイキング」方式で動作する。ユーザーが話す→AIが聞く→AIが応答する→ユーザーが聞く。文章チャットなら許容できるこのリズムも、音声対話では致命的な違和感になる。まるでボイスメールに吹き込んでいるような一方通行感——これは実装の問題ではなく、モデルのアーキテクチャに起因する構造的な制約だ。
フルデュプレックスとは何か
「フルデュプレックス(full duplex)」は送受信を同時に行う通信方式で、固定電話や携帯電話がその代表例だ。Thinking Machines Labはこの概念をAIモデルに持ち込み、ユーザーの入力を受け取りながら同時にレスポンスの生成を始めるアーキテクチャを構築している。
同社が発表したTML-Interaction-Smallは0.40秒での応答を実現しており、人間の自然な会話リズムとほぼ同等の速度とされる。同社の主張では、OpenAIやGoogleの比較可能なモデルより大幅に高速だという。最大の違いは「割り込み」が自然にできることだ。人間同士の会話では相手の発話途中で反応したり相槌を打ったりするが、現在のAIはそれを苦手としている。フルデュプレックスモデルはこの非同期性をアーキテクチャレベルでネイティブサポートする。
現時点での位置づけと注意点
重要な留意点として、これはあくまでリサーチプレビューであり、一般公開はされていない。今後数ヶ月以内に限定リサーチプレビューが始まり、本年中に広く公開される予定とのことだ。ベンチマーク数値は印象的だが、実際のユーザー体験がそれに見合うかどうかは、一般公開されて初めて評価できる。
実務への影響——日本のIT現場では何が変わるか
日本でも音声インターフェースへの関心は高まっており、コールセンターの自動化や会議議事録生成、社内ヘルプデスクの音声AIなど、実装が進む分野は多い。フルデュプレックス技術が実用レベルに達した場合、以下のような変化が期待できる。
コールセンターAI: ユーザーの発話を遮断せず、自然なやり取りが可能になる。現行システムの「お話が終わりましたら話しかけてください」という不自然な案内が不要になる。
会議支援: リアルタイムで「聞きながら」ファクトチェックや議事メモを生成できる。会話の文脈が切れないまま情報補完が進む体験は、現行のポーリング型AIとは質的に異なる。
教育・トレーニング: 相槌や間の取り方も含めた、より人間に近い学習体験が実現しやすい。語学学習や営業ロールプレイへの応用が期待できる。
なお、日本語の音声認識精度や文化的な「間」の扱いは英語前提モデルとは最適化の方向が異なる。国内での実用化には日本語特有のチューニングが別途必要になる点は意識しておきたい。
筆者の見解
AIエージェントの本質的な価値は「自律性」にある。ユーザーが発話するたびに処理を止めて待つ設計は、AIが人間のペースに従属するという前提を前提に組み込んでいる。フルデュプレックスはその制約を技術的に取り除く試みであり、方向性として非常に理にかなっている。
自律的なエージェントが判断・実行・検証を繰り返すループを設計する観点から見ると、インタラクションレイヤー自体が「ターンベース」のままでは本来の力を引き出しにくい。今回の発表はその問題に正面から向き合っている点で評価できる。
一方で、0.40秒という数値が印象的でも、会話の「文脈理解の深さ」や「割り込みのタイミングの適切さ」は数値には現れない。技術デモとプロダクトの間には常に大きな溝がある。Thinking Machines Labが「研究プレビュー」という段階を経てプロダクト化するアプローチは堅実で、そのプロセスを注視したい。
AIとの対話体験がどう設計されるか——それはエンジニアが考える以上にユーザーの信頼形成に直結する。フルデュプレックスが実用化されたとき、それが「本当に会話している」という感覚をもたらすかどうか、一利用者として楽しみに待っている。
出典: この記事は Thinking Machines wants to build an AI that actually listens while it talks の内容をもとに、筆者の見解を加えて独自に執筆したものです。