The Vergeの記事によると、Thinking Machinesが打ち出した interaction models は、AIと人間の関係をかなり大きく変えようとする試みです。

これまでのAI、たとえばChatGPTのようなものは、基本的には「入力して、返事を待つ」という流れでした。こちらが文章を打ち終えるまでAIは待機し、AIが答えを出している間は、こちらの次の動きはなかなか反映されません。
Thinking Machinesは、ここに “bandwidth bottleneck”、つまり「やりとりの通り道が細すぎる問題」があると見ています。要するに、今のAIは人間とのやりとりが一問一答っぽくて、もっと自然な連携ができていない、というわけです。

この発想はかなり筋がいいと思います。人間同士の会話って、黙って順番待ちするだけじゃないですよね。相づちを打つし、表情を見るし、途中で話をかぶせることもある。Thinking Machinesは、AIにもそのレベルの“空気を読む力”を持たせたいのだと思います。
同社は、interaction models のデモ例としていくつかの動作を紹介しています。


ここで重要なのは、AIが「後から処理する」のではなく、その場で聞いて、その場で考えて、その場で返す ところです。
これを一言でいうと、AIが“会話相手”から“同席している存在”に近づく感じです。たとえば、英会話の練習相手や会議の補助、見守り系のウェアラブル、リアルタイム翻訳デバイスなどにはかなり相性が良さそうです。
個人的には、特に リアルタイム翻訳 は実用性が高そうでワクワクします。長文の返答を生成するAIより、「今この瞬間に役立つ」AIのほうが日常に入りやすいからです。

Thinking Machinesの説明では、今のモデルは「単一のスレッド」、つまり1本の流れでしか世界を扱えていません。
もう少しかみ砕くと、今のAIは、

という制約があります。
これだと、たとえば会議中に誰かが話しながら資料を見せてきても、AIはその全体像を同時に理解しづらい。人間は「声」「表情」「ジェスチャー」「文脈」をまとめて見ていますが、従来のAIはそこが弱かったわけです。

Thinking Machinesは、そこを audio、video、text をまとめて扱う ことで突破しようとしている、というのが今回の話です。
この方向性は、今後のAIが「言葉を返す道具」から「状況を理解する相棒」に進むうえで、とても重要ではないかと思います。

Thinking Machinesは、OpenAIの元CTOだった Mira Murati が2025年2月に立ち上げた会社です。Muratiといえば、AI開発の最前線にいた人物なので、新会社の動きには自然と注目が集まります。
ただし、The Vergeの記事では、Thinking Machinesがすでにいくつかの大きな人材流出に直面していることにも触れています。主要メンバーがMetaやOpenAIに移ったとのことです。スタートアップとしてはなかなか厳しい状況ですが、逆に言えば、それでもなお新しい方向性を打ち出しているのは攻めているな、という印象です。

ここは少し冷静に見ておくべきポイントです。
今回の発表はあくまで「こういうものを作っています」という段階で、まだ誰でも試せるわけではありません。
Thinking Machinesは、

を予定しているとしています。
つまり、現時点ではデモが先行していて、実際の使い勝手はまだ未知数です。AI業界では、デモがすごく見えても、いざ一般ユーザー向けになると制約だらけ、ということは珍しくありません。だからこそ、ここは期待しつつも、少し距離を置いて見たほうがいいと思います。

個人的には、今回の話はかなり面白いです。
理由はシンプルで、AIの次の競争軸が「もっと賢い文章生成」だけではなく、もっと自然に人間の世界へ入り込めるか に移っているのが見えるからです。

正直、普通のチャットAIはもう「便利だけど会話に少し手間がかかる」段階に入っています。そこで次に来るのが、今回のような リアルタイム・マルチモーダル なAIだとすれば、それはかなり自然な進化です。
ただし、ここで大事なのは「なんでもリアルタイムにすれば勝ち」ではないことです。
AIが常に反応し続けると、うるさいだけの存在になる可能性もある。だから本当に重要なのは、どの瞬間に介入し、どの瞬間に黙るか だと思います。ここをうまく設計できる会社が、次の時代を取るのではないでしょうか。

Thinking Machinesが発表した interaction models は、AIを「質問に答えるツール」から「人と同じ時間軸で動く相棒」へ進化させようとする試みです。
まだ一般公開前なので評価はこれからですが、方向性としてはかなり有望です。
AIの未来が「もっと長い文章を出すこと」ではなく、「もっと自然に人間と同じ場にいること」だとしたら、これはその先頭にある話題のひとつだと思います。
