世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Mira Muratiの新AI会社が狙うのは「会話するAI」ではなく「一緒に動くAI」

キーポイント

Mira Muratiが立ち上げたAI企業 Thinking Machines が、新しい考え方として “interaction models” を発表した。
これは、ユーザーの入力を待つだけのAIではなく、音声・映像・テキストを同時に受け取り、リアルタイムで反応するAI を目指すもの。
たとえば、話しながら翻訳したり、文章の中で動物名が出たら反応したり、姿勢が悪いと教えたりするデモが公開された。
ただし、まだ一般公開はされていない。今後数か月以内に限定的な研究プレビュー、その後により広い公開を予定している。
個人的には、これは「チャットAIの次」に本当に来るかもしれない方向性で、かなり面白いと思う。

「interaction models」って何が新しいの？

The Vergeの記事によると、Thinking Machinesが打ち出した interaction models は、AIと人間の関係をかなり大きく変えようとする試みです。

これまでのAI、たとえばChatGPTのようなものは、基本的には「入力して、返事を待つ」という流れでした。こちらが文章を打ち終えるまでAIは待機し、AIが答えを出している間は、こちらの次の動きはなかなか反映されません。

Thinking Machinesは、ここに “bandwidth bottleneck”、つまり「やりとりの通り道が細すぎる問題」があると見ています。要するに、今のAIは人間とのやりとりが一問一答っぽくて、もっと自然な連携ができていない、というわけです。

この発想はかなり筋がいいと思います。人間同士の会話って、黙って順番待ちするだけじゃないですよね。相づちを打つし、表情を見るし、途中で話をかぶせることもある。Thinking Machinesは、AIにもそのレベルの“空気を読む力”を持たせたいのだと思います。

何ができるのか

同社は、interaction models のデモ例としていくつかの動作を紹介しています。

物語の中で動物名が出たときに聞き取って反応する
音声をリアルタイムで翻訳する
姿勢が悪いときに「猫背ですよ」と伝える

ここで重要なのは、AIが「後から処理する」のではなく、その場で聞いて、その場で考えて、その場で返す ところです。

これを一言でいうと、AIが“会話相手”から“同席している存在”に近づく感じです。たとえば、英会話の練習相手や会議の補助、見守り系のウェアラブル、リアルタイム翻訳デバイスなどにはかなり相性が良さそうです。
個人的には、特に リアルタイム翻訳 は実用性が高そうでワクワクします。長文の返答を生成するAIより、「今この瞬間に役立つ」AIのほうが日常に入りやすいからです。

でも、今のAIとの違いはどこにある？

Thinking Machinesの説明では、今のモデルは「単一のスレッド」、つまり1本の流れでしか世界を扱えていません。

もう少しかみ砕くと、今のAIは、

ユーザーが話し終わるまで待つ
AIが答え終わるまで次の情報を取り込めない

という制約があります。

これだと、たとえば会議中に誰かが話しながら資料を見せてきても、AIはその全体像を同時に理解しづらい。人間は「声」「表情」「ジェスチャー」「文脈」をまとめて見ていますが、従来のAIはそこが弱かったわけです。

Thinking Machinesは、そこを audio、video、text をまとめて扱う ことで突破しようとしている、というのが今回の話です。
この方向性は、今後のAIが「言葉を返す道具」から「状況を理解する相棒」に進むうえで、とても重要ではないかと思います。

Mira Muratiの会社らしい動き

Thinking Machinesは、OpenAIの元CTOだった Mira Murati が2025年2月に立ち上げた会社です。Muratiといえば、AI開発の最前線にいた人物なので、新会社の動きには自然と注目が集まります。

ただし、The Vergeの記事では、Thinking Machinesがすでにいくつかの大きな人材流出に直面していることにも触れています。主要メンバーがMetaやOpenAIに移ったとのことです。スタートアップとしてはなかなか厳しい状況ですが、逆に言えば、それでもなお新しい方向性を打ち出しているのは攻めているな、という印象です。

実際に使えるのはまだ先

ここは少し冷静に見ておくべきポイントです。
今回の発表はあくまで「こういうものを作っています」という段階で、まだ誰でも試せるわけではありません。

Thinking Machinesは、

今後数か月で limited research preview
その後、今年後半に wider release

を予定しているとしています。

つまり、現時点ではデモが先行していて、実際の使い勝手はまだ未知数です。AI業界では、デモがすごく見えても、いざ一般ユーザー向けになると制約だらけ、ということは珍しくありません。だからこそ、ここは期待しつつも、少し距離を置いて見たほうがいいと思います。

率直な感想

個人的には、今回の話はかなり面白いです。
理由はシンプルで、AIの次の競争軸が「もっと賢い文章生成」だけではなく、もっと自然に人間の世界へ入り込めるか に移っているのが見えるからです。

正直、普通のチャットAIはもう「便利だけど会話に少し手間がかかる」段階に入っています。そこで次に来るのが、今回のような リアルタイム・マルチモーダル なAIだとすれば、それはかなり自然な進化です。

ただし、ここで大事なのは「なんでもリアルタイムにすれば勝ち」ではないことです。
AIが常に反応し続けると、うるさいだけの存在になる可能性もある。だから本当に重要なのは、どの瞬間に介入し、どの瞬間に黙るか だと思います。ここをうまく設計できる会社が、次の時代を取るのではないでしょうか。

まとめ

Thinking Machinesが発表した interaction models は、AIを「質問に答えるツール」から「人と同じ時間軸で動く相棒」へ進化させようとする試みです。

まだ一般公開前なので評価はこれからですが、方向性としてはかなり有望です。
AIの未来が「もっと長い文章を出すこと」ではなく、「もっと自然に人間と同じ場にいること」だとしたら、これはその先頭にある話題のひとつだと思います。

参考: Here’s what Mira Murati’s AI company is up to

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ