世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

SPECAとは何か？「仕様書から監査チェックリストを作る」新しいセキュリティ監査フレームワークを解説

キーポイント

SPECA は、コードそのものではなく仕様書（specification）を起点にセキュリティ監査を行うフレームワーク
自然言語の仕様から、明示的で型付きの security property を抽出してチェックするのが特徴
ただ「よくあるバグ」を探すのではなく、仕様に書かれたべき不変条件（invariant）を証明しようとする
GitHub README によると、Ethereum Fusaka Audit Contest では 15 件の対象脆弱性をすべて回収し、さらに新規バグを4件発見したとされる
RepoAudit C/C++ benchmark でも、公開されている中で高い precision を示したと説明されている
一方で、これは研究成果物であり、出力はあくまで候補脆弱性。人間の監査者による確認が必要

「仕様から監査する」って、どういうこと？

セキュリティ監査というと、多くの人は「コードを読んでバグを探す」イメージを持つと思います。
たしかにそれは王道です。ただ、SPECA が面白いのはそこから一歩ずれていて、**“このソフトは本来どうあるべきか” を書いた仕様書を起点にする**ところです。

たとえば仕様書には、

この処理では値が勝手に増減してはいけない
この条件では認証が必要
この状態では特定の操作を許してはいけない

といったルールが書かれます。SPECA はそうした文章をもとに、監査用のチェックリストを組み立てるイメージです。

個人的には、これはかなり筋がいい発想だと思います。
なぜなら、実際のバグって「コードのどこかが変」というより、仕様と実装のズレとして現れることが多いからです。コードだけ見ても気づきにくいズレを、仕様から逆算してあぶり出そうとする。ここがSPECAの肝でしょう。

SPECAの正体：Specification-to-Checklist Agentic Auditing Framework

リポジトリの説明では、SPECA は Specification-to-Checklist Agentic Auditing Framework とされています。
ざっくり訳すと、

Specification: 仕様
Checklist: チェックリスト
Agentic: AIエージェント的に、段階的・自律的に動く
Auditing: 監査

つまり、仕様書 → チェック項目 → 監査 という流れを、AIエージェントのように段階分割して実行する仕組みです。

README では、SPECA は自然言語の仕様から明示的で型付きの security propertiesを導き、それをもとに実装を監査すると説明されています。
ここでいう property は「満たすべき性質」のことです。たとえば「送金額は残高を超えてはいけない」みたいなルールですね。
typed というのは、性質の種類を整理して扱うという意味合いが強いと読めます。雑に「なんか怪しい」ではなく、きちんと分類して扱うわけです。

何が新しいのか

SPECA の主張は、単に「AIで脆弱性を探します」ではありません。そこが重要です。

README によると、従来の code-driven auditor は「知られているバグパターン」を探しがちなのに対し、SPECA は仕様から property を作るので、
仕様レベルの違反を見つけやすい、という立て付けになっています。

これはかなり本質的だと思います。
よくある脆弱性検出は、過去の事例を学習して「似た形」を見つけるのが得意です。でも、現実の事故は必ずしも「よくある形」では起きません。
仕様があるなら、むしろ仕様に照らして正しいかを見たほうが、未知のバグにも近づけるはずです。

もちろん、これは理想論だけではなく、実装が難しい話でもあります。
自然言語の仕様は曖昧なので、そこから監査可能な property に落とし込むには解釈が必要です。SPECA はその解釈を、段階的なパイプラインと proof-attempt reasoning で支える設計のようです。

proof-attempt reasoning とは？

README では、SPECA は structured proof-attempt reasoning を使うと説明されています。
要するに、実装が仕様を満たしているかを、いきなり「怪しい／怪しくない」で判定するのではなく、**“満たしていることを証明しようとする試み”**として扱うわけです。

この考え方はかなり賢いです。
セキュリティ監査では、「なぜ問題なのか」を説明できることが重要です。単にアラートを大量に出されても、現場では困ります。
SPECA は、どの仕様に対して、どの証明の試みが失敗したのかを追えるようにして、結果をトレース可能にしようとしているようです。

README には、深い分析で出た false positives（誤検知）は 3つの解釈可能な root cause に追跡できた、とあります。
ここも面白いところで、誤検知が「モデルがバグだと思ったから」で終わらず、どのパイプライン段階でズレたかまで見えるのは、研究ツールとしてかなり価値があります。

実績として挙げられている結果

README に載っている headline results はかなり強気です。
ただし、これはリポジトリ側の主張であって、読む側はその前提で受け取るのが大事です。

1. Sherlock Ethereum Fusaka Audit Contest

10 implementations、366 submissions のコンテストで、
15件の in-scope の H/M/L vulnerabilities をすべて回収
さらに 開発者の修正コミットで確認された新規バグを4件発見
そのうち1件は、366人の監査参加者全員が見逃した cryptographic invariant violation だったとされています

これはもし事実なら、かなりインパクトがあります。
特に「cryptographic invariant violation」というのは、暗号まわりの不変条件が壊れている状態で、地味だけど危険度が高いタイプの問題です。
暗号のバグは、表面的には普通に動いて見えるのに、条件を1つ外すだけで致命傷になることがあるので、こういう発見はかなり価値があります。

2. RepoAudit C/C++ benchmark

15 projects、35 ground-truth bugs のベンチマークで、
Sonnet 4.5で precision 88.9% を示し、
ground truth を超えて 12件の author-validated candidates を出した
そのうち 2件は upstream maintainers が確認

precision は「出したもののうち、どれだけ当たっていたか」という指標です。
ざっくり言うと、空振りが少ないかを表します。監査ツールではかなり重要です。
見つける数だけ多くても、誤検知だらけでは現場で嫌われますからね。

どう使うのか：Quick Start がかなり実務寄り

README を見ると、SPECA は研究用の概念実証というだけでなく、わりとちゃんと運用できる形を目指している印象です。

おすすめの起動方法としては、TUI（テキストUI）を使う流れが案内されています。

npx speca-cli@latest doctor
npx speca-cli@latest init
npx speca-cli@latest run --target 04

そのほか、オーケストレータを直接回す方法も載っています。
中身としては、claude-code や uv、MCP setup など、AIエージェント系の開発環境を組み合わせる構成です。

ここで注目したいのは、SPECAがワンショットの診断ツールではなく、パイプライン型だという点です。
README には 01a Spec discovery、01b Subgraph、01e Property、02c Code resolution、Audit map、Review といったフェーズが並んでいます。

つまり、

仕様を見つける
関連部分を絞る
property を作る
コードと対応づける
監査マップを作る
レビューする

という、かなり丁寧な流れです。
この「段階を刻む」設計は地味ですが、実はすごく大事です。いきなり全部をAIにやらせるより、途中結果を確認しながら進めたほうが、監査の説明責任が取りやすいからです。

ドキュメントもかなり充実している

README によると、詳細なドキュメントは speca.pages.dev にまとまっていて、しかも日本語がデフォルトだそうです。
これは日本語圏の読者には嬉しいポイントです。研究プロジェクトって英語だけで終わりがちですが、こういう配慮はありがたいです。

ドキュメントには、たとえば次のような項目があります。

SPECAとは何か、なぜ必要か
初心者向けガイド
監査の walkthrough
パイプライン各フェーズの解説
spec-driven auditing や proof-attempt などの概念
データセットやベンチマークの運用方法
論文情報

README だけでもかなり情報量がありますが、実際に触るならドキュメントサイトが本体、という感じでしょう。

リポジトリ構成から見えること

ファイル構成を見ると、かなり本格的です。

scripts/ : orchestration と各 phase の実行
prompts/ : フェーズごとの worker prompt
benchmarks/ : 評価用ハーネス
cli/ : speca-cli
website/ : Docusaurus のドキュメント
tests/ : pytest
outputs/ : パイプライン出力

この構成からわかるのは、SPECA が単なる論文のデモではなく、ツールチェーンとして設計されていることです。
個人的には、こういう「研究っぽいけど、ちゃんと道具になっている」プロジェクトはかなり好感が持てます。アイデアだけのPoCより、ずっと実用に近いからです。

ただし、過信は禁物

README にも明記されていますが、SPECA はresearch artifact です。
つまり、研究成果物であり、出てきた findings は candidate vulnerabilities にすぎません。
人間の監査者が確認し、必要ならベンダーや bug bounty program に報告する前に検証する必要があります。

ここはすごく大事です。
AIベースの監査は便利そうに見えますが、最終責任をAIに渡すことはできません。
むしろ、SPECA のような仕組みは「人間が監査するための下地を作る」ものと考えるのが健全だと思います。

まとめ：SPECAは「AI監査」の次の一手かもしれない

SPECA の面白さは、単にAIでコードを読むのではなく、仕様を軸に監査の筋道を作るところにあります。
これは、セキュリティ監査の世界でかなり重要な発想です。バグはコードの外側、つまり「本来こうあるべきだった」という仕様の世界に潜んでいることが多いからです。

また、README にある実績が本当に再現可能なら、SPECA はかなり強力な研究基盤になりそうです。
特に、未知バグの発見や、誤検知の原因を説明できる設計は、実務に近い価値があります。

個人的には、SPECA は「AIで何でもやる」タイプではなく、人間の監査を強くするためにAIを使う方向に見えるのが好印象です。
こういう設計のほうが、結局は長生きするのではないかと思います。

参考: GitHub - NyxFoundation/speca: SPECA: Specification-to-Checklist Agentic Auditing Framework

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ