PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

AIは「話しかけて待つ」から「いっしょに動く」へ——Thinking Machines Labの“Interaction Models”解説

キーポイント

「AIと会話する」から「AIと共同作業する」へ

Thinking Machines Labの記事は、ひと言でいうと「AIのUIを根本から作り直そう」という宣言です。
しかも、ただの見た目の話ではありません。​モデルの中身そのものを、会話や共同作業に向いた形にすると言っています。

image_0002.jpg

これ、かなり大事な話だと思います。

現在の多くのAIは、基本的に「ユーザーが入力する → AIが返す」という順番待ちの仕組みです。
つまり、​ターン制です。人間同士のチャットならそれで十分な場面もありますが、実際の仕事ってそんなにきれいに区切れません。

image_0003.jpg

たとえば、

こういうやり取りは、メールより対面のほうが圧倒的にやりやすいですよね。
記事はまさにその感覚を、AIにも持ち込もうとしているわけです。

image_0004.jpg

いまのAIの「ボトルネック」は、賢さだけじゃない

記事が強調しているのは、AI研究の多くが「どれだけ自律的に長いタスクをこなせるか」に寄りがちだ、という点です。
もちろんそれは重要です。でも、現実の仕事では人が完全に要件を一発で言い切れることのほうが少ない。あとから確認し、修正し、補足しながら進めるのが普通です。

ところが今のAIインターフェースは、人を途中から押し出しがちです。
理由は単純で、​そもそも人が会話に入り続ける前提で設計されていないからです。

image_0005.jpg

この記事では、コミュニケーションがうまくいく条件として、

のような考え方も紹介されています。難しそうですが、要するに​「一緒にいる感覚」が大事という話です。

image_0006.jpg

ここはかなり納得感があります。
AIがどれだけ賢くても、返答が遅い、タイミングが悪い、割り込みに弱い、だと「仕事相手」としては使いにくい。
逆に言えば、​知能だけでなく“間合い”も性能の一部なんですよね。

何が新しいのか:ハーネスに頼らず、モデル自体がリアルタイムで動く

記事の核心は、「interactivity(対話性)は外付けではなく、モデルの中に入れるべきだ」という主張です。

image_0007.jpg

いまの多くのAIシステムは、モデル本体の外にharnessと呼ばれる周辺システムを置いて、

などを後付けで実現しています。

image_0008.jpg

これは便利ですが、記事はこれを「継ぎ足しの発想」だと見ています。
そして、Suttonの「The Bitter Lesson」に触れつつ、​手作りの仕組みは、汎用的に学習したモデルにいずれ負けるという見方を示しています。

個人的にも、ここはかなり筋がいいと思いました。
AIの能力が上がるほど、「外側で細工して頑張る」より「モデルの学習そのものに含める」ほうが、スケールしやすいからです。
もちろん実装は大変ですが、方向性としてはかなり自然です。

image_0009.jpg

Interaction Modelsの特徴

記事では、Interaction Modelsが持つ能力として次のようなものが挙げられています。

1. Seamless dialog management

会話の流れを、別の管理モジュールに頼らず自然に扱えることです。
たとえば、相手が

image_0010.jpg

を、モデルが文脈から判断するイメージです。

2. Verbal and visual interjections

相手が話し終わるのを待たずに、必要なら途中で入れる。
しかも音声だけでなく、​映像の文脈にも反応できるのがポイントです。

image_0011.jpg

これはかなり面白いです。
「ちょっと待って、今の図だとここが違うよね」みたいな、現実の会話では当たり前のことが、AIでもできるようになるわけです。

3. Simultaneous speech

ユーザーとモデルが同時に話せる。
記事ではライブ翻訳のような用途が例に挙げられています。

image_0012.jpg

ここは地味に革命的です。
普通のチャットAIは、こちらが話している間は黙っています。でも実際の会話では、相づちや短い挟み込みがあってこそ自然です。
AIがそこに入れると、かなり「人と話している感」が増すはずです。

4. Time-awareness

経過時間を直接意識できる。
「何秒待ったか」「いまどのくらい間が空いたか」をモデルが把握します。

image_0013.jpg

これは一見小さく見えますが、実は重要です。
人間の会話って、​間の長さ自体が意味を持ちます。
すぐ返せば理解している感じ、少し待てば考えている感じ、長く黙れば戸惑いに見える。
AIに時間感覚があるのは、自然な対話の土台になります。

5. Simultaneous tools calls, search, and generative UI

話しながら、裏で検索したり、UIを作ったり、ツールを呼び出したりできる。
しかもその結果を、会話に自然に織り込む。

image_0014.jpg

これはかなり実務向きです。
たとえば会話の途中で調べ物をしつつ、そのまま説明を続ける。
人間のアシスタントっぽい動きですね。

image_0015.jpg

2つのモデルに分けるのが面白い

記事のシステム構成で特に興味深いのは、​interaction modelbackground model を分けていることです。

interaction model

こちらは、ユーザーとリアルタイムでやり取りする担当です。
会話を続ける、割り込む、聞き返す、応じる、という「今この瞬間」の役割を担います。

image_0016.jpg

background model

こちらは、少し重い処理を非同期で回す担当です。
長めの推論、ツール利用、検索、複雑な作業を裏で進めます。

つまり、

image_0017.jpg

という分業です。

これはかなり賢い設計だと思います。
全部をひとつのモデルにやらせると、リアルタイム性か、賢さか、どちらかを犠牲にしがちです。
でも分ければ、​​「速さ」と「深さ」の両立を狙えます。

image_0018.jpg

もちろん、きれいに分業できるかは実装次第ですが、発想としてはとても納得感があります。

200ms単位のmicro-turnという発想

記事の技術的な核のひとつが、​micro-turn です。
これは、会話を200ms単位くらいの細かい時間片に分けて扱う考え方です。

image_0019.jpg

普通のターン制では、

でもInteraction Modelsでは、

image_0020.jpg

を含めて、​時間の流れそのものをコンテキストにするわけです。

記事中の図でも、人間は連続した会話として知覚しているのに、モデル側はそれを時間同期された細かいトークン列として受け取る、というイメージが示されています。

image_0021.jpg

ここは技術的にすごく重要です。
なぜなら、会話でいちばん厄介なのは、実は「何を言うか」だけではなく、​いつ言うかだからです。
タイミングが悪いAIは、どんなに正しいことを言っても使いにくい。
逆に、少しくらい不完全でも、間合いが自然だとぐっと実用感が増します。

これは何に効くのか

記事のメッセージを実務寄りに言い直すと、Interaction Modelsは次のような場面に効きそうです。

image_0022.jpg

つまり、​​「プロンプトを打って待つ」より、「一緒に進める」用途ですね。

image_0023.jpg

個人的には、ここがすごく重要だと思います。
今のAIは便利ですが、まだどこか「お願いして、返事をもらう」感じが強い。
でも本当に仕事に入り込むには、相手がこちらの動きに追従し、必要なら先回りし、必要なら黙る、という協働感が要ります。
Interaction Modelsは、その方向にかなり真っ直ぐ進んでいます。

ただし、課題も大きそう

記事はかなり野心的ですが、もちろん簡単ではありません。
たとえば、

image_0024.jpg

など、課題は山ほどあります。

image_0025.jpg

また、リアルタイム性を重視すると、モデルの複雑さや計算コストとの綱引きにもなりそうです。
なので、​​「すごい未来が来る」と断言するより、まずは有望な研究方向だと見るのが妥当だと思います。

率直な感想

この発表のいちばん面白いところは、AIを「会話できるツール」から「同じ場にいる協働相手」に引き上げようとしている点です。
しかも、それを雰囲気論ではなく、​時間・同時性・マルチモーダル性という具体的な設計原理で押し進めている。

image_0026.jpg

私は、これはかなり本質的な転換だと思います。
これからのAIは、賢さの競争だけでは差別化しにくくなります。
そのとき、​どう一緒に働けるかが強い競争軸になるはずです。

今後もしInteraction Modelsの方向が成熟していけば、AIは「質問したら答える存在」から、「会話しながら進める相棒」になっていくかもしれません。
その変化は、見た目以上に大きい。というか、ユーザー体験の発想そのものを変える可能性がある、と思います。

image_0027.jpg


参考: Interaction Models: A Scalable Approach to Human-AI Collaboration

同じ著者の記事