世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

AnthropicがClaude Managed Agentsを強化。新機能3つで“賢く育つAIエージェント”へ

Anthropicが、クラウド上で動くAIエージェントを簡単に作れる「Claude Managed Agents」をアップデートしました。
今回追加されたのは、dreaming / outcomes / multiagent orchestration の3機能です。

正直、これはかなり面白いアップデートだと思います。単に「AIに仕事をさせる」だけじゃなくて、AIが経験を振り返って改善し、成果を自分で確認し、役割分担までできる方向に進んでいるからです。いよいよ“それっぽいチャットボット”ではなく、ちゃんと現場で使うためのAI部隊に近づいてきた印象があります。

キーポイント

AnthropicがClaude Managed Agentsに3つの新機能を追加
dreaming は、過去の会話や記録を見返して記憶を整理し、エージェントを改善する仕組み
outcomes は、「何をもって成功とするか」をルール化して、結果を自動評価できる機能
multiagent orchestration は、1人のリーダー役エージェントが、複数の専門エージェントに作業を分担させる仕組み
Netflixのような企業が、すでにこの仕組みを使っているとAnthropicは説明している

まず前提：Claude Managed Agentsって何？

Anthropicは先月、Claude Managed Agents を発表しました。
これは、クラウド上で動くAIエージェントを作って運用する作業をかなり簡単にする仕組みです。

AIエージェントというのは、ざっくり言うと「会話するだけのAI」ではなく、

情報を調べる
手順を進める
結果を返す
必要ならやり直す

みたいに、ある目的に向かって自律的に動くAIのことです。

ただ、こうした仕組みを実際に作るのは意外と大変です。記憶の管理、失敗時の再実行、複数の担当AIの調整……考えることが多い。
今回のアップデートは、その「面倒くさい部分」をかなり埋めにきた感じです。

1. dreaming：AIが過去を振り返って賢くなる

最初の新機能は dreaming。Anthropicはこれをresearch preview、つまり「研究段階の試験機能」と位置づけています。

この機能は、簡単に言うと過去のセッションを見返して、パターンを見つけ、エージェントを改善する仕組みです。
Anthropicの説明では、dreamingは「記憶能力を拡張する」ものだそうです。

動きとしてはこんな感じです。

定期的にエージェントのセッションをチェック
記憶ストア（AIが覚えている情報の置き場）を見直す
似た学びや繰り返し出るパターンを整理
必要なら記憶を更新して、次回以降に活かす

面白いのは、自動更新にも、事前レビューにも対応している点です。
つまり「全部AIに任せる」こともできるし、「変更前に人間が確認する」こともできる。ここはかなり実用的だと思います。AIに学習させるときの不安って、だいたい「勝手に変なこと覚えない？」なので、その逃げ道があるのはありがたいです。

Anthropicは、memory と dreaming の関係について次のように説明しています。

Memory：各エージェントが作業の中で学んだことを記録する
Dreaming：セッション間でその記憶を磨き直し、複数エージェントの学びをまとめて更新する

要するに、日々の経験をためるのが memory、そこから良い教訓を抽出して整理するのが dreaming、という感じです。
個人的には、この発想はかなりAIっぽくて好きです。人間でも「寝ている間に脳が記憶を整理している」みたいな話がありますが、それをエージェントにやらせようとしているわけですね。

2. outcomes：成功の基準を先に決める

2つ目は outcomes。
これは、エージェントに「何をもって成功とするか」を先に伝えるための機能です。

たとえば人間に仕事を頼むときも、

何を作るのか
どこまでできていれば合格なのか
逆に何はダメなのか

を先に決めますよね。AIでもまったく同じです。むしろAIは、曖昧な指示だと妙に遠回りしたり、見当違いな方向に進んだりしやすいので、この機能はかなり重要です。

Anthropicによると、outcomesでは、成功条件を表すrubric（評価基準）を書いておくと、エージェントがそれに向かって動きます。
さらに、別のgrader（評価役）が、エージェントとは別のコンテキストウィンドウで結果を確認します。
コンテキストウィンドウというのは、AIが一度に見て考えられる情報の範囲のことです。別枠で評価することで、エージェント自身の考えに引っ張られず、客観的に採点しやすいわけです。

評価で足りない部分が見つかると、graderが「どこを直せばいいか」を示し、エージェントはもう一度やり直します。

これ、かなり良い仕組みだと思います。
AIに仕事を頼んで困るのは、「一応やった風」にはなるけど、実は条件を満たしていないこと。outcomesはそこにメスを入れていて、**“なんとなく良さそう”ではなく“基準に照らして合格か”を見る**方向に寄っています。

さらに、outcomesを定義してエージェントに実行させ、終わったらwebhookで通知を受け取ることもできます。
webhookは、ある処理が終わったときに外部へ自動で通知を送る仕組みです。簡単に言えば、「終わったら呼んで」機能ですね。業務システムとの連携ではかなり便利です。

3. multiagent orchestration：1人のリーダーが専門チームを動かす

3つ目は multiagent orchestration。
これは一言でいえば、複数のAIエージェントを役割分担させて協力させる機能です。

Anthropicの説明では、lead agent が仕事を細かいパーツに分けて、specialist に振り分けます。
それぞれの専門エージェントは、独自のmodel、prompt、tools を持てます。

たとえば、ある調査タスクがあったとして、

1人は deploy history を見る
1人は error logs を見る
1人は metrics を見る
1人は support tickets を見る

みたいに、並列で分担できます。

これ、かなり実務っぽいです。人間のチーム運営とすごく似ています。
1人の天才に全部やらせるより、得意分野ごとに分けたほうが速くて強いことは多いですからね。

しかもAnthropicによれば、これらの専門エージェントは共有ファイルシステム上で並行して作業し、成果をリーダー役の全体コンテキストに反映できます。
さらに、イベントが永続化されているので、リーダーは途中で他のエージェントに戻って確認することもできるそうです。

このあたりは、単なる「複数のAIを並べました」ではなく、ちゃんとチームとして回る設計を意識しているのがわかります。
個人的には、AIエージェントの本命はここだと思っています。1体の万能AIより、役割を分けた小さな専門家AIの集合体のほうが、実際の仕事には向いているのではないか、と。

すでに企業利用も進んでいる

Anthropicは、こうしたClaude Managed Agentsがすでに企業で使われている例としてNetflixを挙げています。
Netflixは、プラットフォームチーム向けに multiagent orchestration を導入しているとのことです。

ここは派手な話に見えますが、むしろ重要なのは「もう実験室だけの話ではない」という点です。
AIエージェントは、デモではすごく見えても、実運用になると

エラー対応
例外処理
再実行
監査性
人の確認

みたいな現実的な壁が立ちはだかります。
そこに対して今回の3機能は、かなり地に足がついた改善だと感じます。

まとめ：AIエージェントは“作るもの”から“育てるもの”へ

今回のアップデートを見て感じるのは、Claude Managed Agentsが単なる自動化ツールから、継続的に改善するAI運用基盤へ近づいているということです。

dreaming で記憶を磨く
outcomes で成功基準を明確にする
multiagent orchestration でチーム化する

この流れは、AIエージェントが今後どんどん本格的な業務システムに入っていく前触れではないかと思います。

個人的には、こういう機能追加はかなり好印象です。
「AIが何でもできる」と盛り上げるより、どうやって失敗を減らし、どうやって改善し、どうやって複数の役割を回すかに踏み込んでいるからです。派手さは少し落ちるかもしれませんが、実際に使う側にはこっちのほうがずっと大事です。

参考: Anthropic updates Claude Managed Agents with three new features - 9to5Mac

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ