世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-24

Cloudflareが見た「安全なAIモデル」の実力：Mythos Previewは何がすごくて、何がまだ足りないのか

まず要点

Cloudflareは、セキュリティ用途のLLMを自社インフラ上の実コードに当てて検証している
Anthropicの Mythos Preview は、単にバグを見つけるだけでなく、複数の弱点をつないで実際に悪用できる形にするのが強い
PoC（proof of concept） まで作るので、「怪しい」ではなく「本当に再現できる」段階まで持っていける
ただし、モデルの拒否（refusal） は一貫しておらず、同じ内容でも言い方次第で結果が変わる
いちばん大きな課題は、AIそのものよりも運用の形。単発チャットではなく、複数の役割を持つharness（実行基盤） が必要
人間が読む前の自動判定では、ノイズをどう減らすか が超重要になる

記事のざっくりした話

Cloudflareが公開したこの記事は、AIを使った脆弱性調査の「現場感」がかなり濃いです。
しかも単なる未来予想ではなく、実際に自社の50以上のリポジトリに Mythos Preview を当ててみた結果がベースになっています。

率直に言うと、この記事の面白さは「AIがバグを見つけました」では終わらないところです。
むしろ本題は、AIが“攻撃の筋道”を組み立てられるようになってきたこと。そして、その力を本当に使うには、モデル単体では足りず、周辺の仕組みづくりが必要だ、という点にあります。ここはかなり重要だと思います。

Mythos Previewで何が変わったのか

Cloudflareの見立てでは、Mythos Previewは「ちょっと良くなった」ではなく、前の世代の一般的な frontier model とは別物に近いそうです。
frontier model は、要するに最先端クラスの大規模モデルのことです。

特に目立ったのは次の2つです。

1. exploit chain construction

これは、複数の小さな弱点をつないで、実際に使える攻撃の流れにする能力です。

たとえば、1個のバグだけでは大したことがなくても、

メモリの範囲外を読む
書き込む
制御の流れを奪う
ROP chain でシステムを乗っ取る

みたいに、細かいピースを組み合わせると本物の攻撃になります。
ROP chain は、ざっくり言うと既にあるコード片をつなぎ合わせて攻撃を成立させるテクニックです。

ここがすごいのは、Mythos Previewが単に「怪しい箇所」を列挙するのではなく、どうつなげば攻撃になるかを考えられる点です。Cloudflareは、これはまるでシニア研究者の仕事みたいだと評価しています。いや、これはかなり強い表現です。実際、そのくらいインパクトがあるのでしょう。

2. proof generation

もうひとつは、見つけたバグを実際に証明するコードまで作ることです。

流れとしては、

バグっぽい箇所を見つける
そのバグを踏むテストコードを書く
scratch environment（実験用の安全な環境）でコンパイルする
実行してみる
期待通りなら「証明完了」
失敗したら、失敗内容を読んで仮説を修正し、また試す

というループになっています。

ここ、個人的にかなり面白いです。
脆弱性研究って、結局は「本当に再現できるのか？」が命なんですよね。怪しい指摘は山ほど出る。でも、再現できなければ修正優先度も判断しづらい。Mythos Previewはそのギャップをかなり埋めている、という話です。

ただし、拒否はある。でも「安全柵」としては不安定

記事では、Mythos Preview には一般公開モデルにあるような追加の安全機構がなかった一方で、モデル自身が勝手にブレーキをかけるような拒否をする場面もあったと説明しています。

ただし問題は、その拒否が一貫していないことです。

同じコードを見ていても、

ある言い方だと拒否する
別の表現にすると同じ作業を受ける
同じ依頼でも、実行のたびに結果が変わる

ということが起きたそうです。
これはAIらしいといえばAIらしいのですが、セキュリティ用途ではかなり厄介です。

なぜなら、「モデルがたまに断るから安全」とは言えないからです。
Cloudflareの主張は明快で、将来一般公開するレベルの cyber frontier model には、こうした自然発生的な拒否に頼るのではなく、追加の安全策が必要だということです。これはもっともだと思います。気分屋の門番は、門番としては頼りないですから。

一番の敵は「ノイズ」

脆弱性調査で本当に大変なのは、バグを見つけることよりも、それが本物か、悪用可能か、今すぐ直すべきかを見分けることです。
この「見極め」の難しさを、記事はかなり率直に語っています。

ノイズが増える理由

1. プログラミング言語の違い

C や C++ は、メモリを直接いじれるぶん、

buffer overflow（領域はみ出し）
out-of-bounds read/write（範囲外の読み書き）

のようなバグが起きやすいです。

一方、Rust のような memory-safe language は、コンパイル時にこうした事故をかなり防げる。
つまり、AIが同じように見ていても、C/C++ の方が false positive（誤検出）が多くなりやすいわけです。

2. モデルの「とりあえず何か出す」傾向

ここも実にAIっぽい話です。
人間の研究者なら、「見つけたもの」と「どれくらい確信があるか」をセットで話します。
でもモデルは、聞かれたら何かしらのバグを見つけようとする。

その結果、

possibly
potentially
could in theory

みたいな、かなり慎重そうで実は曖昧な指摘が大量に出ます。
探索ツールとしてはいい。でも、triage queue（優先度付けの列）では最悪です。人間が一個ずつ読んで捨てるコストが積み上がるからです。

ここは「AIが賢いか」より、AIの出力をどう扱うかの問題なんですよね。かなり現場的な論点だと思います。

Mythos Previewの改善点

それでも Mythos Preview は、ただの検出器より良い結果を出したそうです。特に、

余計な断定が少ない
再現手順が明確
PoCがあるので判断しやすい

という点が強い。
要するに、**“怪しい”レポートの山ではなく、行動できる報告に近づいた**ということです。これは大きいです。

なぜ「普通の coding agent」をそのまま repo に投げてもダメなのか

最初に思いつくやり方は、「コーディング用AIにリポジトリを読ませて脆弱性を探させる」だと思います。
でもCloudflareは、これはそれっぽく動くけど、実用的なカバレッジが出ないと言っています。

理由は2つです。

1. コンテキストの形が違う

coding agent は基本的に、

1つの機能を作る
1つのバグを直す
1つのリファクタをする

みたいな、一本の筋で進む作業が得意です。

でも脆弱性調査は、
狭く、並列に、何千回も別の仮説を試す仕事です。

人間の研究者も、リポジトリ全体を漫然と眺めるわけではなく、

この機能の境界はどこか
この入力はどこまで信頼できるか
この脆弱性クラスが入りそうか

を、狭く切って調べます。

単一の agent セッションで100,000行規模の repo を回すと、実用的なカバレッジはごくわずか。しかも context window が埋まると、過去の重要情報が圧縮されて消えることすらある。
これ、地味だけどかなり致命的です。

2. スループットが足りない

脆弱性調査では、1個ずつ順番にやるより、同時並行でたくさんの仮説を回す方が強いです。

でも単一の agent は、基本的に1つのことを1回にやる。
つまり、形そのものが違う。
だから、Mythos Preview をそのまま会話相手として使うのではなく、周辺にharnessを作る方向に切り替えた、というのがCloudflareの結論です。

harnessが何を解決するのか

harness は、ざっくり言うと モデルをうまく回すための実行基盤 です。
チャット画面ではなく、仕事の流れ全体を管理する仕組み、と考えるとわかりやすいです。

記事では、スケールさせる中で次の4つが重要だと分かったとしています。

1. スコープを狭くすると精度が上がる

「このrepoの脆弱性を全部探して」よりも、

この関数で command injection を探して
この trust boundary（信頼の境目）の上にある入力を見て
この architecture document を読んでから調べて

のように絞った方が、モデルは人間に近い動きをするそうです。

これはかなり納得感があります。
広く浅くはAIが得意そうに見えて、脆弱性調査ではむしろ逆で、狭く深く切る方が強いんですよね。

2. 反対側のレビューがノイズを減らす

最初のモデルが出した結果を、別の agent が

違う prompt
違う model
自分では新規 findings を作れない

という立場でチェックする。
この「わざと食い違う役」を作ると、ノイズがかなり減るそうです。

これは面白い発想です。
1人に「慎重にやって」と言うより、2人を喧嘩させる方が精度が上がる、ということですから。人間のレビュー文化にも通じます。

3. チェーンを分けると推論がよくなる

「このコードはバグっているか」と
「外部の攻撃者が本当にそこへ到達できるか」は、別問題です。

これを1つで聞くより、別々の問いに分ける方が、モデルはうまく考えられる。
人間でも同じで、問いが長くなるほど判断が雑になりがちです。

4. 1体の万能エージェントより、並列の小タスク

「全部やってくれるAI」より、
狭い仕事をたくさん並列で回して、最後に重複排除する方が、カバレッジは上がる。
ここは、かなり実務的で、たぶん今後のAI運用全般に効く考え方だと思います。

この話の本質は「AIの賢さ」より「運用設計」かもしれない

この記事を読んで一番強く感じたのは、モデル単体の性能競争ではもう話が終わらないということです。

Mythos Preview は確かに強い。
でも本当に効いているのは、

どういう問いを投げるか
どう分割するか
どう検証するか
どうノイズを落とすか
どこで人間が介入するか

という、周辺の設計です。

言い換えると、これからのセキュリティAIは「頭のいい1体」を持つだけでは足りず、組織としての調査フローを再設計する必要がある、ということだと思います。これは面倒ですが、かなり本質的です。

まとめ

Cloudflareのこの記事は、AIによる脆弱性研究が「夢物語」ではなく、すでにかなり実戦的な段階に入っていることを示しています。
特に Mythos Preview は、単発のバグ検出ではなく、複数の弱点をつないで実際に使える攻撃形にする点が強い。

ただし、同時に見えてきたのは、AIの出力はそのままだとノイズが多く、拒否も一貫せず、単体のチャットではスケールしないという現実です。
だからこそ必要なのは、モデルをありがたがることではなく、harnessを作って使いこなすこと。ここに、これからの実務の勝負所があるのだと思います。

参考: Project Glasswing: what Mythos showed us

同じ著者の記事

【2026年7月版】Outlookが「起動しない・クラッシュを繰り返す」最新事情 — 6月末の一斉クラッシュはビルド2605が原因、直し方はほぼ一択

「昨日まで普通に使えていたClassic Outlookが、右クリックした瞬間に落ちる」「起動してもすぐ強制終了し、次はセーフモードで開く」——2026年6月末から、この手の悲鳴がまた一気に増えた。半年前・1年前に書かれた「Outlookが起動しない完全解決ガイド」的な記事が今また読まれているのは、まさに今、Classic Outlookのクラッシュが立て続けに起きているからだ。本稿は、2026年前半に発生した複数のクラッシュ事案を発生時期・影響ビルド・原因・修正状況で整理し直し、「自分のケースはどれで、何をすれば直るか」を最短で切り分けられるようにしたものだ。結論から言うと、直近の主犯は更新プログラムの回帰（リグレッション）で、多くは“Officeを最新へ更新するだけ”で直る。設定を9個いじる前に、まずここを見たほうが早い。 > ⚠️ 先に結論: 2026年6月29日ごろから急にClassic Outlookが落ち始めたなら、疑うべきは自分の設定ではなく **Microsoft 365 Apps バージョン2605（Build 20026.20182

papoo.work

【2026年7月版】Outlookの「送信済みメールが消える」が再燃 — 犯人はWindows更新プログラム KB5074109 の可能性

「送信は成功したのに、送信済みアイテムに残っていない」——Outlookの定番トラブルが、2026年に入ってから再び相談件数を増やしている。半年前(2026年1月)に出回った解説記事の手順は今でも基本として有効だが、2026年に急増した“送信済みが消える”の主犯は、従来の設定ミスではなく Windows のセキュリティ更新プログラムそのものであることが分かってきた。本稿はその現況を、切り分け順に整理し直したものだ。 > ⚠️ 先に結論: 1月中旬以降にClassic Outlook(デスクトップ版)で急に「送信済みに入らない」「Outlookが固まる」が始まったなら、まず疑うべきは自分の設定ではなく 更新プログラム KB5074109 と PSTファイルの置き場所(OneDrive配下かどうか) だ。設定を10個いじる前に、ここを先に見たほうが早い。 --- 2026年1月のWindowsセキュリティ更新 KB5074109 導入後、**Classic Outlookで送信メールが「送信済みアイテム」に記録されない／Outlookが終了しない・フ

papoo.work

【続報】サナエトークン、ついに「当事者2人の法廷闘争」へ――三崎優太氏が溝口勇児氏に内容証明、いまどこまで進んだか

前回まで、私たちはサナエトークン騒動を「補償」「金融庁」「高市首相の否定」という3つの軸で追ってきた。補償は6月10日に申請サイトが開き、金融庁の損失相談は6月時点で5件、首相は国会で改めて全面否定――というのが直近の現在地だった。ところが騒動はここへ来て、まったく別の局面に入っている。行政・補償の話から、当事者どうしの個人間紛争、それも法廷闘争へと重心が移ったのだ。本稿はその続報である。 https://papoo.work/doc/7de9f0cf1b564dc9 実業家の三崎優太氏（元「青汁王子」）が、実業家の溝口勇児氏に内容証明を送付したと明かし、「きっと裁判になる」と法廷闘争を予告した。三崎氏は溝口氏とみられる人物の会議音声を公開し、「責任を他人になすりつけている（＝トカゲの尻尾切り）」と批判。溝口氏は「編集で切り取っている」「補償対応はやっている」と反論した。 6月26日、三崎氏は両者が共同運営していたYouTube番組「REAL VALUE」からの脱退を表明。ただし本稿執筆時点（7月7日）で、**正式な「提訴」の公

papoo.work

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。特に

papoo.work

AMDでもここまで速い。GLM-5.2を“安く速く”動かしたWaferの話

Waferは、GLM-5.2をAMDのMI355X GPU上で動かし、かなり高い性能を出した。しかもポイントは「速い」だけでなく、「Blackwell系より2倍以上安いのに性能効率が高い」こと。ただし、AMDで最先端LLMをそのまま使うのは簡単ではなく、quantizationやinference frameworkの調整がかなり効いている。 speculative decode という高速化手法のために、ROCm向けの小さな修正も必要だった。個人的には、ここで見えるのは「GPUの勝負」だけではなく、「ソフトウェアの面倒をどこまで減らせるか」が勝負になってきた、という現実だと思う。 Waferの記事は、タイトルの通りかなりストレートです。要するに「1ドルあたりの性能、まだ伸ばせるし、しかも安くできる」という話です。対象はGLM-5.2というオープン系の大規模言語モデルで、これをAMD MI355X上でかなりうまく動かした、という内容でした。まず数字が強いです。Waferは、20k input / 1k output、cache hit rate 60% という条件で、1ノードあ

papoo.work

Codexに「見ちゃダメなファイル」を教える仕組みがほしい、という話

GitHubのopenai/codexリポジトリに、ちょっと地味だけどかなり重要な要望が出ています。内容はシンプルで、AIエージェントに読ませたくないファイルを明示的に除外したい、というものです。これ、派手さはないんですが実際にはかなり大事です。AIにコードを書かせる時代になっても、「これは見せていい」「これは絶対にダメ」の線引きは、人間がしっかり持っていないと危ない。そこをちゃんと仕組みにしよう、という提案です。このIssueで求められているのは、エージェントが読み込んだり、モデルに送ったりしてはいけないファイルやパスを明示できる機能です。しかも単なる一時的な指定ではなく、次の2段階を想定しています。リポジトリごとの設定ユーザー全体のグローバル設定たとえば、プロジェクト内に `.codexignore` のようなファイルを置いて「このリポジトリではこのファイル群は触るな」と定義する。一方で、ユーザー側にも「どのプロジェクトでも `.env` や秘密鍵っぽいものは見せない」という共通ルールを持てるようにしたい、という考えです。ここで面白いのは、**“プロジ

papoo.work

文字を画像にしてトークンを節約する、かなり変わったProxy「pxpipe」

Claude CodeのようなLLM向けツールで、長いテキストをそのまま送らず、画像に変換してからモデルに渡す仕組み文字がぎゅっと詰まった内容ほど得をしやすく、場合によってはトークン使用量を大きく削減できるただし万能ではなく、IDやハッシュのような“1文字でも間違えたら困る情報”は危ないだからこそ、安くなる場面と危ない場面を見極める設計になっている発想はかなり攻めているが、実務の痛点をちゃんと突いていて面白い pxpipeは、ひとことで言うと「LLMに渡す長文を、必要に応じて画像に圧縮してしまうローカルProxy」です。Proxyというのは、アプリとAPIのあいだに入って通信を中継する仕組みのこと。ブラウザの世界でいう“中継サーバー”みたいなものだと思えば大きく外れていません。普通、LLMにたくさんの文章を読ませると、そのぶんトークンが増えます。トークンは、AIが文章を扱うときの細かい単位で、課金やコンテキスト長の計算に使われます。つまり、長文を入れるほどお金も容量も食う。これは避けようがない、と思われがちです。でも pxpipe はそこに逆張りをします。大量のテキストをP

papoo.work