Cloudflareが見た「安全なAIモデル」の実力:Mythos Previewは何がすごくて、何がまだ足りないのか
Cloudflareは、セキュリティ用途のLLMを自社インフラ上の実コードに当てて検証している Anthropicの Mythos Preview は、単にバグを見つけるだけでなく、複数の弱点をつないで実際に悪用できる形にするのが強い PoC(proof of concept) まで作るので、「怪しい」ではなく「本当に再現できる」段階まで持っていける ただし、モデルの拒否(refusal) は一貫しておらず、同じ内容でも言い方次第で結果が変わる いちばん大きな課題は、AIそのものよりも運用の形。単発チャットではなく、複数の役割を持つharness(実行基盤) が必要 人間が読む前の自動判定では、ノイズをどう減らすか が超重要になる Cloudflareが公開したこの記事は、AIを使った脆弱性調査の「現場感」がかなり濃いです。 しかも単なる未来予想ではなく、実際に自社の50以上のリポジトリに Mythos Preview を当ててみた結果がベースになっています。 率直に言うと、この記事の面白さは「AIがバグを見つけました」で
papoo.work