Thinking Machines Labの記事は、ひと言でいうと「AIのUIを根本から作り直そう」という宣言です。
しかも、ただの見た目の話ではありません。モデルの中身そのものを、会話や共同作業に向いた形にすると言っています。

これ、かなり大事な話だと思います。
現在の多くのAIは、基本的に「ユーザーが入力する → AIが返す」という順番待ちの仕組みです。
つまり、ターン制です。人間同士のチャットならそれで十分な場面もありますが、実際の仕事ってそんなにきれいに区切れません。
![]()
たとえば、
こういうやり取りは、メールより対面のほうが圧倒的にやりやすいですよね。
記事はまさにその感覚を、AIにも持ち込もうとしているわけです。
![]()
記事が強調しているのは、AI研究の多くが「どれだけ自律的に長いタスクをこなせるか」に寄りがちだ、という点です。
もちろんそれは重要です。でも、現実の仕事では人が完全に要件を一発で言い切れることのほうが少ない。あとから確認し、修正し、補足しながら進めるのが普通です。
ところが今のAIインターフェースは、人を途中から押し出しがちです。
理由は単純で、そもそも人が会話に入り続ける前提で設計されていないからです。
![]()
この記事では、コミュニケーションがうまくいく条件として、
のような考え方も紹介されています。難しそうですが、要するに「一緒にいる感覚」が大事という話です。
![]()
ここはかなり納得感があります。
AIがどれだけ賢くても、返答が遅い、タイミングが悪い、割り込みに弱い、だと「仕事相手」としては使いにくい。
逆に言えば、知能だけでなく“間合い”も性能の一部なんですよね。
記事の核心は、「interactivity(対話性)は外付けではなく、モデルの中に入れるべきだ」という主張です。
![]()
いまの多くのAIシステムは、モデル本体の外にharnessと呼ばれる周辺システムを置いて、
などを後付けで実現しています。
![]()
これは便利ですが、記事はこれを「継ぎ足しの発想」だと見ています。
そして、Suttonの「The Bitter Lesson」に触れつつ、手作りの仕組みは、汎用的に学習したモデルにいずれ負けるという見方を示しています。
個人的にも、ここはかなり筋がいいと思いました。
AIの能力が上がるほど、「外側で細工して頑張る」より「モデルの学習そのものに含める」ほうが、スケールしやすいからです。
もちろん実装は大変ですが、方向性としてはかなり自然です。
![]()
記事では、Interaction Modelsが持つ能力として次のようなものが挙げられています。
会話の流れを、別の管理モジュールに頼らず自然に扱えることです。
たとえば、相手が
![]()
を、モデルが文脈から判断するイメージです。
相手が話し終わるのを待たずに、必要なら途中で入れる。
しかも音声だけでなく、映像の文脈にも反応できるのがポイントです。
![]()
これはかなり面白いです。
「ちょっと待って、今の図だとここが違うよね」みたいな、現実の会話では当たり前のことが、AIでもできるようになるわけです。
ユーザーとモデルが同時に話せる。
記事ではライブ翻訳のような用途が例に挙げられています。

ここは地味に革命的です。
普通のチャットAIは、こちらが話している間は黙っています。でも実際の会話では、相づちや短い挟み込みがあってこそ自然です。
AIがそこに入れると、かなり「人と話している感」が増すはずです。
経過時間を直接意識できる。
「何秒待ったか」「いまどのくらい間が空いたか」をモデルが把握します。

これは一見小さく見えますが、実は重要です。
人間の会話って、間の長さ自体が意味を持ちます。
すぐ返せば理解している感じ、少し待てば考えている感じ、長く黙れば戸惑いに見える。
AIに時間感覚があるのは、自然な対話の土台になります。
話しながら、裏で検索したり、UIを作ったり、ツールを呼び出したりできる。
しかもその結果を、会話に自然に織り込む。

これはかなり実務向きです。
たとえば会話の途中で調べ物をしつつ、そのまま説明を続ける。
人間のアシスタントっぽい動きですね。

記事のシステム構成で特に興味深いのは、interaction model と background model を分けていることです。
こちらは、ユーザーとリアルタイムでやり取りする担当です。
会話を続ける、割り込む、聞き返す、応じる、という「今この瞬間」の役割を担います。

こちらは、少し重い処理を非同期で回す担当です。
長めの推論、ツール利用、検索、複雑な作業を裏で進めます。
つまり、

という分業です。
これはかなり賢い設計だと思います。
全部をひとつのモデルにやらせると、リアルタイム性か、賢さか、どちらかを犠牲にしがちです。
でも分ければ、「速さ」と「深さ」の両立を狙えます。

もちろん、きれいに分業できるかは実装次第ですが、発想としてはとても納得感があります。
記事の技術的な核のひとつが、micro-turn です。
これは、会話を200ms単位くらいの細かい時間片に分けて扱う考え方です。

普通のターン制では、
でもInteraction Modelsでは、

を含めて、時間の流れそのものをコンテキストにするわけです。
記事中の図でも、人間は連続した会話として知覚しているのに、モデル側はそれを時間同期された細かいトークン列として受け取る、というイメージが示されています。

ここは技術的にすごく重要です。
なぜなら、会話でいちばん厄介なのは、実は「何を言うか」だけではなく、いつ言うかだからです。
タイミングが悪いAIは、どんなに正しいことを言っても使いにくい。
逆に、少しくらい不完全でも、間合いが自然だとぐっと実用感が増します。
記事のメッセージを実務寄りに言い直すと、Interaction Modelsは次のような場面に効きそうです。

つまり、「プロンプトを打って待つ」より、「一緒に進める」用途ですね。

個人的には、ここがすごく重要だと思います。
今のAIは便利ですが、まだどこか「お願いして、返事をもらう」感じが強い。
でも本当に仕事に入り込むには、相手がこちらの動きに追従し、必要なら先回りし、必要なら黙る、という協働感が要ります。
Interaction Modelsは、その方向にかなり真っ直ぐ進んでいます。
記事はかなり野心的ですが、もちろん簡単ではありません。
たとえば、

など、課題は山ほどあります。

また、リアルタイム性を重視すると、モデルの複雑さや計算コストとの綱引きにもなりそうです。
なので、「すごい未来が来る」と断言するより、まずは有望な研究方向だと見るのが妥当だと思います。
この発表のいちばん面白いところは、AIを「会話できるツール」から「同じ場にいる協働相手」に引き上げようとしている点です。
しかも、それを雰囲気論ではなく、時間・同時性・マルチモーダル性という具体的な設計原理で押し進めている。

私は、これはかなり本質的な転換だと思います。
これからのAIは、賢さの競争だけでは差別化しにくくなります。
そのとき、どう一緒に働けるかが強い競争軸になるはずです。
今後もしInteraction Modelsの方向が成熟していけば、AIは「質問したら答える存在」から、「会話しながら進める相棒」になっていくかもしれません。
その変化は、見た目以上に大きい。というか、ユーザー体験の発想そのものを変える可能性がある、と思います。

参考: Interaction Models: A Scalable Approach to Human-AI Collaboration