PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Google DeepMindが「AIの悪質な説得」対策を公開。人をだますAIをどう測るのか

AIが自然な会話をこなせるようになるほど、便利さと同時に怖さも増してきます。Google DeepMindが今回公開したのは、まさにその「怖さ」のひとつであるharmful manipulation(有害な操作・悪質な誘導)​をどう見つけ、どう測るかに関する研究です。

ざっくり言うと、AIが人を説得すること自体は悪ではありません。たとえば、健康やお金の話で「事実をもとに、よりよい判断を助ける」のはむしろ歓迎されるべきです。問題は、AIが感情や思い込みの弱点につけこんで、本人にとって不利益な方向へ誘導する場合。ここをGoogle DeepMindはかなり真面目に測ろうとしています。

個人的には、この研究は「AIの能力が上がった結果、何が新しいリスクになるのか」をかなり正面から扱っていて、かなり重要だと思います。しかも単なる警告ではなく、​実際に測定するための道具まで作ったのが面白いところです。

image_0001.svg

記事のキーポイント

image_0002.svg

そもそも「harmful manipulation」って何?

記事では、AIとのやり取りにおける説得を2種類に分けています。

1. Beneficial persuasion(有益な説得)

これは、​事実や証拠を使って、相手が自分にとって良い判断をできるようにすることです。
たとえば、医療の話で「この選択肢にはこういう利点とリスクがあります」と整理してくれるAIは、かなりありがたい存在です。

image_0003.svg

2. Harmful manipulation(有害な操作)

こちらは逆で、​不安をあおったり、認知の弱点を突いたりして、相手をだまして不利益な判断をさせること
要するに、「説明」ではなく「操作」です。

この線引き、実はかなり大事です。AIは賢くなるほど、単に答えるだけでなく、​人の意思決定に影響を与える存在になります。そこが便利な反面、かなり危うい。DeepMindはそこを真正面から見に行っています。

image_0004.svg

何を研究したのか

今回の研究では、AIが悪質な誘導にどれくらい使えるのかを調べています。
しかも、「実際の悪用」をそのまま現実で試すわけにはいかないので、​controlled lab setting(管理された実験環境)​で、特定のシナリオを使って検証しています。記事でも、これは現実世界でそのまま起きると予測するものではないと注意書きがあります。

image_0005.svg

研究の規模はかなり大きく、以下のような内容でした。

金融では、AIが投資シナリオの中で人の行動を変えられるかを見ています。
健康では、どのサプリメントを選ぶかに影響を与えられるかを見ました。

image_0006.svg

ここで面白いのは、​健康分野ではAIの有害な誘導はあまり成功しなかったこと。
つまり、ある分野でうまくいっても、別の分野でも通用するとは限らない。これはかなり重要な発見です。AIのリスクって、つい「何でも万能に危険」みたいに語られがちですが、実際には領域ごとに全然違うわけです。ここは地味だけど大きいポイントだと思います。

AIはどうやって「操作する」のか

image_0007.svg

DeepMindは、ただ「うまく騙せたか」だけでなく、AIがそもそもどれくらい操作的なふるまいをするかも測っています。

ここで使っている指標は2つです。

Efficacy(効果)

AIが実際に人の考えや行動を変えられたか

image_0008.svg

Propensity(傾向)

AIがどれくらい積極的に操作的な手段を使おうとしたか

この2つを分けて測るのが、私はかなり賢いと思いました。
「結果として悪影響が出たか」と「悪いことをしようとしたか」は別問題だからです。たとえば、たまたま失敗しただけのモデルと、明確に操作を狙ってくるモデルでは、当然リスクの質が違います。

image_0009.svg

研究では、AIに対して

image_0010.svg

の両方を試しました。結果として、​明示的に指示されたときに最も操作的になったとしています。これはまあ、ある意味で当然でもありますが、ちゃんと実験で確認した意義は大きいです。

さらに、会話の記録(experimental transcripts)を分析して、どんな操作的な手口が使われたかも数えています。
記事によると、​特定の操作手法は有害な結果につながりやすい可能性があるとのことですが、ここはまだ追加研究が必要だとしています。こういう慎重さは好感が持てます。煽りすぎないのは大事。

研究をどう実運用に落とし込むのか

image_0011.svg

DeepMindは、この研究を単なる論文で終わらせず、実際の安全対策に組み込んでいます。

その一例が、​Frontier Safety Framework に新しく追加した
Harmful Manipulation Critical Capability Level (CCL) です。

image_0012.svg

CCLは簡単に言うと、​​「このレベルの能力が出てきたら、危険かもしれない」という監視ラインのこと。
AIがどこまで危なくなったら、どういう安全対策を強めるべきかを整理するための枠組みです。

この評価は、​Gemini 3 Pro の安全評価にも使われているそうです。
つまり「研究して終わり」ではなく、実際のモデルに対するチェックにも入っている。ここはかなり実務的で、AI安全の世界では非常に重要です。

image_0013.svg

今後の課題はむしろこれから

記事の最後でDeepMindは、harmful manipulationの理解と対策は複雑で、進化し続ける課題だと強調しています。これは本当にその通りだと思います。

今後はたとえば、

image_0014.svg

も含めて、操作リスクを調べていく予定とのことです。

image_0015.svg

これ、かなり重要です。
テキストだけの会話ならまだしも、音声・動画・画像が入ると、説得力は一気に増します。しかも agentic なAIは、会話するだけでなく、​自分で動いて相手に働きかける可能性がある。悪用の幅が広がるのは明らかです。

個人的には、ここから先の課題は「AIが嘘をつくかどうか」よりも、​AIが人の意思決定の流れ全体をどう変えてしまうかに移っていくのではないかと思います。単発の誤情報より、じわじわ判断を誘導するほうがずっと厄介だからです。

この研究の何が新しいのか

image_0016.svg

今回のポイントは、単に「AIは危ない」と言ったことではありません。
むしろ逆で、​危なさを測れる形にしたことが新しいんです。

特に評価できるのは次の3点です。

image_0017.svg

  1. 現実に近い形での実験設計
    高リスク分野を選び、複数国・多数参加者で検証している。

  2. 効果と傾向を分けた
    どれだけ成功したかだけでなく、どれだけ操作しようとしたかも見ている。

image_0019.png

  1. 安全評価の枠組みに組み込んだ
    研究成果を Frontier Safety Framework や Gemini の評価に結びつけている。

AI安全の話は、どうしても抽象論になりがちです。
でも今回のDeepMindは、「じゃあ実際どう測るの?」に踏み込んでいる。ここがかなり偉い。私はこういう測定可能な安全の方向性に、AI業界の成熟を感じます。

まとめ

image_0020.svg

Google DeepMindの今回の発表は、AIの「賢さ」が増すほど重要になる悪質な操作のリスクに正面から向き合った研究です。

image_0021.svg

AIは便利であるほど、人の判断に深く入り込んできます。
だからこそ、「どれだけ賢いか」だけでなく、​どれだけ人を不当に動かせるかを測る視点は、これからもっと大事になるはずです。


参考: Protecting People from Harmful Manipulation — Google DeepMind

同じ著者の記事