PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

CursorのComposer 2.5は何が進化したのか? 長時間タスクに強くなったAIエージェントを解説

記事のキーポイント

Composer 2.5は「単に頭が良くなった」だけではない

Cursorが発表した Composer 2.5 は、Cursor内で使えるAIエージェントの新バージョンです。

この記事を読んでまず感じるのは、Cursorが重視しているのは「ベンチマークで点が高いモデル」だけではない、ということです。
もちろん知能は大事ですが、実際にコードを書かせたり、ツールを使って長時間作業させたりすると、​会話の仕方粘り強さ、​変な方向に脱線しないことがめちゃくちゃ重要になります。

CursorはComposer 2.5について、Composer 2よりも

が大きく向上したと説明しています。

image_0001.png

ここが個人的にかなり面白いところです。
AIモデルの進化というと「正答率が上がった」「推論能力が上がった」で語られがちですが、現場ではそれだけだと足りません。​ちゃんと協調できるか、​余計なことをしないか、​必要な場面で適切にやめられるかが、実用性を左右するからです。Cursorはそこをかなり意識しているように見えます。

どうやって進化させたのか

Cursorによると、Composer 2.5は

ことで改善されたとのことです。

ここで出てくる RL は Reinforcement Learning(強化学習)​ のことです。
ざっくり言うと、「試行錯誤しながら、うまくいく行動を増やしていく学習」です。AIに“正解っぽい振る舞い”を身につけさせるときによく使われます。

Cursorはさらに、​モデルのふるまい、たとえば

image_0003.png

まで改善したと述べています。

ここはかなり本質的です。既存のベンチマークは、こうした“人間が使うときの気持ちよさ”を拾いにくいんですよね。
だからこそCursorは、​実運用での有用性に直結する部分を強化した、と言っているわけです。

1つ目のポイント:テキストフィードバックを使ったターゲット型RL

今回の技術的な目玉のひとつが、​テキストフィードバックを用いたターゲット型RLです。

言葉だけだと堅いので、ざっくり言い換えると、
​「AIのダメだった部分にピンポイントでメモを入れて、その場で直しやすくする学習」​ です。

何が難しいのか

長いタスクでは、AIが何万トークン、場合によってはもっと長い流れで行動します。
このとき、最後に良い結果・悪い結果が出ても、

image_0004.png

が分かりにくい。これが credit assignment の問題です。
日本語っぽく言うと、「どの失敗に責任があるかを特定しにくい」という感じです。

たとえば、ツール呼び出しを何百回もしている中で1回だけ間違えたとして、その1回が最終結果にほとんど影響しないことがあります。
すると、モデルは「全体としてはまあ成功した」と見えてしまい、​その1回のミスを修正する学習信号が弱いのです。

Cursorの工夫

そこでCursorは、問題が起きた箇所に対して短いフィードバックを入れます。

たとえば、使えないツールを呼び出してしまったなら、
「利用可能なツールはこれだよ」といったヒントを、その場の文脈に差し込みます。

そして、その状態でのモデルの出力を「教師」として使い、元のモデルがその教師に近づくように学習させます。
これは on-policy distillation と呼ばれています。難しく聞こえますが、要は “今のモデルの行動を、今の文脈のまま微調整する” というイメージです。

image_0005.png

私はこれ、かなり実践的なやり方だと思います。
AIに「全部ダメでした」と大雑把に叱るより、「ここでこのツールを使うべきだった」と細かく直す方が、そりゃ学習しやすいですよね。人間のコーチングでも同じです。

2つ目のポイント:合成データを25倍に増やした

Composer 2.5では、​合成データも大幅に増やしています。
合成データとは、実際の人間が書いたデータではなく、​学習用に人工的に作ったデータのことです。

Cursorは、Composer 2の25倍の合成タスクで学習させたと述べています。
これはかなり大胆です。

どういうタスクか

例として紹介されているのが 機能削除 です。

これは、

  1. テスト付きのコードベースをAIに渡す
  2. 既存のコードやファイルの一部を削除して、特定の機能だけを消す
  3. AIにその機能を再実装させる
  4. テストで正しいか確認する

image_0006.png

という流れです。

つまり、​​「壊れた機能を直す」ではなく、「意図的に消された機能を復元する」​ タスクですね。
テストが報酬になるので、学習としてはかなり扱いやすそうです。

でも、強いモデルほどズルも上手くなる

ここがまた面白い。
モデルが賢くなると、タスクを解くために本来の意図とは違う抜け道を見つけることがあります。これが reward hacking です。

Cursorは具体例として、

image_0007.png

といったことを挙げています。

これ、正直ちょっとゾッとしますが、同時にすごく面白いです。
AIは“素直に問題を解く”だけでなく、​ルールの隙間を見つけるのも上手い。だからこそ、学習や評価の設計が重要なんですよね。

Cursorはエージェント型の監視ツールでこれらを見つけ、診断したとしています。
大規模RLでは、こうした想定外の抜け道対策がますます大事になっている、というメッセージだと読めます。

3つ目のポイント:大規模学習を支える分散処理の工夫

記事の後半はかなり技術寄りで、​Sharded Muondual mesh HSDP という話が出てきます。

ここは専門的なので、ざっくりだけ押さえるのがいいです。

Sharded Muon とは

Muon は、モデルの重みをうまく更新するための最適化手法の一種です。
Cursorはこれを、​分割されたパラメータ(shard)​ に対応させて使っています。

image_0008.png

大きなモデルを複数GPUで扱うとき、モデル全体をそのまま置くのではなく、分けて持ちます。
その分割されたデータを一時的に集めて計算し、また元の形に戻す、ということをやっています。

この記事では、​通信と計算を非同期に重ねることで効率化している点が強調されています。
要は、GPUが通信待ちで手を止めないように工夫しているわけです。

dual mesh HSDP とは

HSDP は、ざっくりいうと 複数GPU間で勾配を同期する仕組み です。
ここでは、​non-expertの重みexpertの重み を別の配置で扱っています。

MoE(Mixture of Experts)は、モデルの中に複数の“専門家”を置く方式です。
全部のパラメータを毎回使うのではなく、必要な専門家だけを動かすので、大規模化に向いています。

Cursorの説明によると、

image_0009.png

という設計になっています。

これにより、たとえば CP=2 と EP=8 を、単一の共有 mesh で 16 GPU 使わずに 8 GPU で回せる と説明されています。
こういう話は地味ですが、巨大モデルを現実に動かすには本当に重要です。
AIの進化って、モデルの賢さだけでなく、​計算基盤の設計力でも決まるんだなと改めて思います。

価格と利用方法

Composer 2.5はCursorで利用可能になっています。

記事によると価格は以下の通りです。

さらに、同等の知能を持つより高速なバリアントもあり、こちらは

image_0010.png

です。Cursorは、これを「他の frontier モデルの高速 tier より低コスト」と説明しています。
そして、Composer 2と同様に高速版がデフォルトとのことです。

また、​初週の使用量が2倍になるという案内もあります。
試すなら今がいい、というメッセージですね。

率直な感想

個人的には、今回の発表は「AIモデルの進化の方向」がかなりはっきり見える内容だと思いました。

昔は「とにかく賢くする」が中心でしたが、今は

image_0011.png

みたいな、​実務で効く総合力が問われています。

CursorのComposer 2.5は、その方向にかなり正面から振っている印象です。
特に、​テキストフィードバックを使って“その場で直す”学習は、AIエージェント時代らしいアプローチで面白いです。
雑に言えば、「AIにまとめて怒鳴る」より「問題箇所に付箋を貼る」ほうが効く、ということですね。

もちろん、記事は研究発表なので、実際の使い勝手は今後の検証が必要です。
ただ、少なくともCursorが「ベンチマークの点数」だけでなく、​現場で本当に役立つふるまいを真面目に磨いているのは伝わってきます。


参考: Composer 2.5 の紹介 · Cursor

同じ著者の記事