世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

LLMに任せると文書が壊れる？「委任AI」の危うさを検証した研究

キーポイント

LLMは「指示どおりにやってくれる秘書」では、まだ全然ないかもしれない
arXivの研究では、委任された作業の中で文書が少しずつ、でも確実に壊れていくことを検証した
提案されたベンチマーク DELEGATE-52 は、52分野・長時間の文書編集を再現する
最先端モデルでも、長いワークフローの শেষেには平均25%の文書内容が劣化した
しかも、agentic tool use（ツールを使いながら自律的に動く仕組み）を入れても、性能は改善しなかった
文書が大きい、会話が長い、関係ないファイルがある――こういう条件で、さらに壊れやすくなる
研究の主張はかなりシンプルで強烈。今のLLMは「頼れる委任先」ではなく、静かに文書を腐らせることがある、ということだ

何が起きている研究なのか

今回紹介するのは、arXivに投稿された “LLMs Corrupt Your Documents When You Delegate” という論文です。
タイトルからしてなかなか攻めていますが、内容もかなり直球です。

この研究が問題にしているのは、最近よく聞く「AIに仕事を任せる」使い方です。たとえば、コードを書く、資料を直す、仕様書をまとめる、あるいは“vibe coding”のように、ざっくり意図を伝えてAIに実装を進めてもらうスタイルですね。

ここで大事なのは、delegation（委任） という考え方です。
単に「質問に答えるAI」ではなく、人の代わりに作業をやり切るAI を想定しています。

でも、委任って結局は「信頼」の問題なんですよね。
こちらが期待するのは、勝手に内容を壊さず、ちゃんと正確に処理してくれること。
ところが、この論文はその前提がかなり怪しい、と示しています。個人的には、ここが一番怖いポイントだと思います。AIが派手に間違えるより、静かに少しずつ壊すほうがずっと厄介だからです。

DELEGATE-52とは何か

研究チームは、DELEGATE-52 というベンチマークを作りました。
ベンチマークとは、AIの性能を比べるための「共通テスト」みたいなものです。

DELEGATE-52の特徴は、次のような点です。

52の専門分野 をカバーする
長い委任ワークフロー を再現する
文書を細かく、深く編集する必要がある
分野の例として、coding, crystallography, music notation などがある

つまり、普通の要約やQ&Aではなく、実務の文書編集に近い厄介な場面を狙っているわけです。
これが面白い。というのも、LLMは「一回の回答」ではそこそこ賢く見えても、長時間の作業になると急に雑になることがあるからです。人間の仕事でもそうですが、長丁場で丁寧さを維持するのは難しい。AIも同じ、あるいはそれ以上に苦手なのかもしれません。

研究の結論: 最先端モデルでも文書を壊す

この論文の大きな主張は、かなりショッキングです。

19個のLLMを使った大規模実験の結果、現在のモデルは委任中に文書を劣化させる、ということが分かりました。
しかも、Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4 のような最先端クラスのモデルでも、長いワークフローの終わりには文書内容の平均25%が壊れると報告されています。

ここでいう「壊れる」は、単なる誤字脱字の話ではありません。
論文の要旨によると、少数だけど深刻なエラーが、気づかれないまま文書に入り込み、積み重なっていくのが問題です。

これ、かなり嫌なタイプの失敗です。
一発で「変だ」と分かる誤りならまだしも、じわじわ汚染されるのは検知が難しい。
しかも、長い作業ではその誤りがさらに増幅する。つまり、AIに委任すればするほど、最終成果物が「なんとなくそれっぽいけど危ない文書」になりうるわけです。

「agentic tool use」でも改善しない

もうひとつ重要なのが、agentic tool use を使っても改善しなかった、という点です。

agentic tool use というのは、LLMが検索やファイル操作などのツールを使いながら、ある程度自律的にタスクを進める仕組みです。
要するに「AI単体で考える」のではなく、「道具を使って仕事を進めるAI」にしたら良くなるのでは？という発想ですね。

でも、この研究ではDELEGATE-52で性能向上は見られなかったとのこと。
これは地味に重要です。なぜなら、「ツールを足せば何とかなる」という楽観論に、かなり冷や水を浴びせる結果だからです。

私の感想としては、ここはとても示唆的です。
AIの失敗は、単純な知識不足だけではなく、長時間の文脈管理や整合性維持の苦手さにも由来しているのではないか、と思います。ツールを増やしても、根っこの問題が残っていれば限界がある。そんな印象です。

何が文書をさらに壊しやすくするのか

論文では、劣化がひどくなる条件も示されています。

文書サイズが大きい
やりとりが長い
distractor files（注意をそらす不要ファイル） がある

このあたりは、人間の作業でも「うわ、ややこしい」と感じる要素ですよね。
ファイルが増え、会話が長引き、参照すべきものが増えるほど、AIは文脈を見失いやすくなる。
要するに、実務の現場っぽい複雑さが増すと、LLMは一気に危うくなるということです。

個人的には、これはかなり現実的な警告だと思います。
デモではサクサク動くAIでも、本番の仕事では「資料が多い」「修正が何度も入る」「別ファイルも見る必要がある」という状況が普通です。そこで壊れるなら、実運用ではかなり慎重にならないといけません。

この研究が教えてくれること

この論文のメッセージは単純ですが、重いです。

今のLLMは、委任相手としては信頼しきれない。
しかも失敗の仕方が、派手な爆発ではなく、静かで、少しずつ、気づきにくい破壊 だというのが厄介です。

ここで思うのは、LLMの便利さって「最初の数分」は本当に強いんですよね。
でも、今回の研究が示しているのは、その便利さに油断すると、あとで文書の整合性をまとめて失う可能性がある、ということです。

つまり、AIに任せるときは

1回の結果だけで安心しない
長時間の編集では人間の監査を入れる
最終成果物の検証を別工程にする

みたいな運用が必要なのではないか、と思います。
「AIに書かせたから終わり」ではなく、AIが壊していないかを確認する仕事が、むしろ本体になるのかもしれません。

まとめ

この研究は、LLMを「委任できる作業者」として見たときの弱点を、かなりはっきり示しています。
最先端モデルでも長いワークフローでは文書を平均25%劣化させる、という結果はなかなか衝撃的です。

AIは確かに便利です。
でも、**“頼めば最後まで正確にやってくれる” とまではまだ言えない**。
この論文は、その事実をかなり強い言葉で突きつけています。
便利さに浮かれる前に、どこで壊れるのかを知っておくのは、実務ではかなり大事だと思います。

参考: LLMs Corrupt Your Documents When You Delegate

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ

LLMに任せると文書が壊れる？ 「委任AI」の危うさを検証した研究