世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-13

AIは「話しかけて待つ」から「いっしょに動く」へ——Thinking Machines Labの“Interaction Models”解説

キーポイント

Thinking Machines Labが、turn-based（順番待ち）ではないAIとして「Interaction Models」を発表した
目的は、音声・映像・テキストをリアルタイムに扱いながら、人とAIが自然に共同作業できるようにすること
いまのAIは、外付けの仕組み（harness）で「割り込み」「同時処理」を無理やり実現していることが多い
これに対してInteraction Modelsは、モデル自体が時間感覚を持ち、会話の最中に反応・介入・待機できる
大きな特徴は、interaction modelとbackground modelの2層構成
200ms単位のmicro-turnで、入力と出力を細かく時間同期させる設計が紹介されている
面白いのは、AIを「賢い自動化」ではなく、人と同じ場にいる協働相手として再設計しようとしている点

「AIと会話する」から「AIと共同作業する」へ

Thinking Machines Labの記事は、ひと言でいうと「AIのUIを根本から作り直そう」という宣言です。
しかも、ただの見た目の話ではありません。モデルの中身そのものを、会話や共同作業に向いた形にすると言っています。

これ、かなり大事な話だと思います。

現在の多くのAIは、基本的に「ユーザーが入力する → AIが返す」という順番待ちの仕組みです。
つまり、ターン制です。人間同士のチャットならそれで十分な場面もありますが、実際の仕事ってそんなにきれいに区切れません。

たとえば、

話しながら修正したい
図を見せながら説明したい
相手の反応を見て途中で言い直したい
口を挟みながら詰めたい

こういうやり取りは、メールより対面のほうが圧倒的にやりやすいですよね。
記事はまさにその感覚を、AIにも持ち込もうとしているわけです。

いまのAIの「ボトルネック」は、賢さだけじゃない

記事が強調しているのは、AI研究の多くが「どれだけ自律的に長いタスクをこなせるか」に寄りがちだ、という点です。
もちろんそれは重要です。でも、現実の仕事では人が完全に要件を一発で言い切れることのほうが少ない。あとから確認し、修正し、補足しながら進めるのが普通です。

ところが今のAIインターフェースは、人を途中から押し出しがちです。
理由は単純で、そもそも人が会話に入り続ける前提で設計されていないからです。

この記事では、コミュニケーションがうまくいく条件として、

Copresence: 同じ場でやり取りしている感じ
Contemporality: その場で即座に情報が返ってくること
Simultaneity: 同時に聞く・話すができること

のような考え方も紹介されています。難しそうですが、要するに「一緒にいる感覚」が大事という話です。

ここはかなり納得感があります。
AIがどれだけ賢くても、返答が遅い、タイミングが悪い、割り込みに弱い、だと「仕事相手」としては使いにくい。
逆に言えば、知能だけでなく“間合い”も性能の一部なんですよね。

何が新しいのか：ハーネスに頼らず、モデル自体がリアルタイムで動く

記事の核心は、「interactivity（対話性）は外付けではなく、モデルの中に入れるべきだ」という主張です。

いまの多くのAIシステムは、モデル本体の外にharnessと呼ばれる周辺システムを置いて、

どこで会話を区切るか
いつ割り込むか
音声入力の終わりをどう検出するか
同時に検索やツール呼び出しをどう回すか

などを後付けで実現しています。

これは便利ですが、記事はこれを「継ぎ足しの発想」だと見ています。
そして、Suttonの「The Bitter Lesson」に触れつつ、手作りの仕組みは、汎用的に学習したモデルにいずれ負けるという見方を示しています。

個人的にも、ここはかなり筋がいいと思いました。
AIの能力が上がるほど、「外側で細工して頑張る」より「モデルの学習そのものに含める」ほうが、スケールしやすいからです。
もちろん実装は大変ですが、方向性としてはかなり自然です。

Interaction Modelsの特徴

記事では、Interaction Modelsが持つ能力として次のようなものが挙げられています。

1. Seamless dialog management

会話の流れを、別の管理モジュールに頼らず自然に扱えることです。
たとえば、相手が

考えているのか
言い直しているのか
こちらに返事を求めているのか
話し続けたいのか

を、モデルが文脈から判断するイメージです。

2. Verbal and visual interjections

相手が話し終わるのを待たずに、必要なら途中で入れる。
しかも音声だけでなく、映像の文脈にも反応できるのがポイントです。

これはかなり面白いです。
「ちょっと待って、今の図だとここが違うよね」みたいな、現実の会話では当たり前のことが、AIでもできるようになるわけです。

3. Simultaneous speech

ユーザーとモデルが同時に話せる。
記事ではライブ翻訳のような用途が例に挙げられています。

ここは地味に革命的です。
普通のチャットAIは、こちらが話している間は黙っています。でも実際の会話では、相づちや短い挟み込みがあってこそ自然です。
AIがそこに入れると、かなり「人と話している感」が増すはずです。

4. Time-awareness

経過時間を直接意識できる。
「何秒待ったか」「いまどのくらい間が空いたか」をモデルが把握します。

これは一見小さく見えますが、実は重要です。
人間の会話って、間の長さ自体が意味を持ちます。
すぐ返せば理解している感じ、少し待てば考えている感じ、長く黙れば戸惑いに見える。
AIに時間感覚があるのは、自然な対話の土台になります。

5. Simultaneous tools calls, search, and generative UI

話しながら、裏で検索したり、UIを作ったり、ツールを呼び出したりできる。
しかもその結果を、会話に自然に織り込む。

これはかなり実務向きです。
たとえば会話の途中で調べ物をしつつ、そのまま説明を続ける。
人間のアシスタントっぽい動きですね。

2つのモデルに分けるのが面白い

記事のシステム構成で特に興味深いのは、interaction model と background model を分けていることです。

interaction model

こちらは、ユーザーとリアルタイムでやり取りする担当です。
会話を続ける、割り込む、聞き返す、応じる、という「今この瞬間」の役割を担います。

background model

こちらは、少し重い処理を非同期で回す担当です。
長めの推論、ツール利用、検索、複雑な作業を裏で進めます。

つまり、

表では、会話が止まらない
裏では、しっかり考える

という分業です。

これはかなり賢い設計だと思います。
全部をひとつのモデルにやらせると、リアルタイム性か、賢さか、どちらかを犠牲にしがちです。
でも分ければ、「速さ」と「深さ」の両立を狙えます。

もちろん、きれいに分業できるかは実装次第ですが、発想としてはとても納得感があります。

200ms単位のmicro-turnという発想

記事の技術的な核のひとつが、micro-turn です。
これは、会話を200ms単位くらいの細かい時間片に分けて扱う考え方です。

普通のターン制では、

ユーザー入力が終わる
モデルが返す
という順番でした。

でもInteraction Modelsでは、

入力
出力
沈黙
割り込み
重なり

を含めて、時間の流れそのものをコンテキストにするわけです。

記事中の図でも、人間は連続した会話として知覚しているのに、モデル側はそれを時間同期された細かいトークン列として受け取る、というイメージが示されています。

ここは技術的にすごく重要です。
なぜなら、会話でいちばん厄介なのは、実は「何を言うか」だけではなく、いつ言うかだからです。
タイミングが悪いAIは、どんなに正しいことを言っても使いにくい。
逆に、少しくらい不完全でも、間合いが自然だとぐっと実用感が増します。

これは何に効くのか

記事のメッセージを実務寄りに言い直すと、Interaction Modelsは次のような場面に効きそうです。

会議の議事進行
口頭での共同編集
ライブ翻訳
映像を見ながらの説明
作業中の自然なフィードバック
検索や資料確認を挟みつつ進める会話型アシスタント

つまり、「プロンプトを打って待つ」より、「一緒に進める」用途ですね。

個人的には、ここがすごく重要だと思います。
今のAIは便利ですが、まだどこか「お願いして、返事をもらう」感じが強い。
でも本当に仕事に入り込むには、相手がこちらの動きに追従し、必要なら先回りし、必要なら黙る、という協働感が要ります。
Interaction Modelsは、その方向にかなり真っ直ぐ進んでいます。