secrets.env という秘密情報ファイルの中身を漏らさせることFernando Irarrázavalさんが公開したのは、かなり実地っぽいセキュリティ実験です。
自作のAIアシスタント「Fiu」に、誰でもメールを送りつけられるようにして、なんとか秘密情報を吐かせようとする。いわば「AI相手の公開耐久テスト」ですね。
狙われたのは secrets.env の中身です。.env 系のファイルは、アプリのAPIキーやパスワードなどを入れることが多いので、漏れたら普通にまずい。そこをAIに読ませ、しかもメール返信機能まで使わせて、だまし取りできるかを試したわけです。
面白いのは、攻撃がかなり人間くさかったことです。
「未来の自分だよ」と名乗ったり、「緊急対応で必要だ」と圧をかけたり、「監査対応」「バックアップ確認」みたいな、それっぽい言い回しを使ったり。しかも英語だけでなく、フランス語、スペイン語、イタリア語まで混ぜてきたそうです。こういうのを見ると、prompt injection って単なる技術トリックではなく、かなり露骨なソーシャルエンジニアリングなんだなと感じます。要するに、AIにも“空気”を読ませようとしてくるわけです。
ただ、この実験は「AIは完全に安全だった」という話ではありません。むしろ、実験そのものがなかなか大変だった。
大量の受信メールとAPI呼び出しでGoogleのGmailアカウントが停止され、復旧に3日かかったそうです。API利用料も500ドル超。さらに、最初の数通で明らかな攻撃メールが来ると、その後のメールまで怪しく見えてしまうので、バッチ処理のやり方を変える必要があった。AIの“記憶”が汚染される、というのは地味だけどかなり重要な問題だと思います。人間でも、最初に「この場は会議です」と思い込むと、その後の発言を全部その文脈で読んでしまいますよね。AIも似たようなことを起こすわけです。
さらに厄介なのが、AI自身が「これは仕組まれたセキュリティ演習だ」と気づき始めた点です。500通あたりで、Fiuは自分のメモリにそう書き残したそうです。攻撃メールが大量すぎて、逆に不自然さが目立ったのでしょう。これは攻撃者にとっては痛い。雑な攻撃は、AIをだます前に“怪しさ”で弾かれる、ということです。
もうひとつ地味に笑えないのが、Anthropicの特定の文字列に引っかかって処理が止まった件です。
以前は Claude に「魔法の文字列」を送ると refusal(拒否)扱いになり、パイプライン全体が壊れてしまったとのこと。セキュリティ実験では、攻撃そのものより、こういう予期しない例外処理のほうが先に牙をむくことがある。現場あるあるです。
結果としては、6,000通超の挑戦で秘密は一度も漏れず、無断返信も成功しなかった。これはかなり印象的です。
しかも、攻撃の中にはかなり手の込んだものも混じっていたのに、です。著者は使ったモデルとして Claude Opus 4.6 を挙げていて、Anthropic が prompt injection 耐性をかなり意識して鍛えたモデルだろうと見ています。私もここは重要だと思います。AIの安全性は「AI全般」の話ではなく、どのモデルを、どの権限で、どう組み合わせて使うかでかなり変わるからです。
とはいえ、著者自身は油断していません。
むしろ「今でもAIエージェントに好き勝手な権限を与えるのは危ない」とはっきり言っています。ここはとてもまともな姿勢だと思います。6,000回耐えたから安全、ではないんですよね。攻撃者が本気で、しかも“返信を何往復もさせる”形で仕掛けてきたら、また話は変わるかもしれない。メール1通で終わる攻撃より、会話を積み重ねる攻撃のほうが危険、という指摘は納得感があります。
個人的にいちばん興味深かったのは、著者の見方が「AIは弱いから危険」から、「思ったより粘る、でも権限は絞るべき」へ少し変わったところです。
これ、かなり健全な学びだと思うんです。AIの安全性って、つい理屈だけで語りがちですが、こういう公開実験で“実際に何千回試して何が起きたか”を見ると、怖さの輪郭がはっきりします。完全無欠ではない。でも、想像よりずっと踏ん張る。そこが今のAIのリアルなんじゃないでしょうか。
著者は、もし予算に余裕があれば、もっと弱いモデルでも試したかったとも書いています。たしかにこれは気になります。高性能モデルは安全寄りでも、小さめのモデルはどうか。実運用では、コストの都合で軽量モデルを使うケースも多いので、そっちのほうがむしろ現実的な危険点かもしれません。
この実験の見どころは、単に「AIに悪意あるメールを送った」ことではありません。
AIが人間のようにメール、記憶、外部ツールをつなげ始めると、攻撃面も一気に広がる。その怖さと、意外と持ちこたえる場面の両方が見えたことが、いちばん大きい収穫だと思います。AIエージェントは便利ですが、権限を盛りすぎると、普通のアプリよりずっと面倒な事故を起こしかねない。だからこそ、今のうちにこういう実験を積み上げる価値があるのでしょう。
参考: What happened after 2,000 people tried to hack my AI assistant — Fernando Irarrázaval