世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

AIエージェントに「状態」というルールを与えるStatewrightとは何か

キーポイント

Statewrightは、AIエージェントが使えるツールを状態ごとに制限するための guardrails（安全柵）です。
発想はシンプルで、「モデルを賢くする」のではなく「問題を小さくする」こと。
たとえば「調査中」「実装中」「テスト中」で、使える機能を変えます。
これにより、AIが同じファイルを何度も読み続ける“空回り”や、危険な操作を防ぎやすくなります。
Claude Code、Codex、Cursor、opencode、Pi などと連携できる設計です。
個人的には、これは「AIに自由を与えすぎない」という意味でかなり筋がいいと思います。
いまのAIエージェントは便利ですが、放っておくと案外すぐ迷子になるので、この発想はかなり実用的です。

Statewrightは何をするもの？

Statewrightは、GitHub上で公開されているオープンソースのプロジェクトで、説明としては 「State machine guardrails for AI agents」 とあります。

ざっくり言うと、AIエージェントに対して

今は何をしてよいか
どのツールを使ってよいか
どの操作は禁止か
次の段階に進む条件は何か

を、状態機械（state machine） で決める仕組みです。

ここでいう state machine とは、難しく聞こえますが、要するに 「今の段階によって振る舞いが変わるルール表」 です。
たとえば人間の仕事でも、

まず調べる
それからコードを書く
最後にテストする

という順番がありますよね。Statewrightは、AIにもその順番を守らせるための仕組みだと考えるとわかりやすいです。

何がうれしいのか

元記事が強調している問題は、AIエージェントは強力だけど、同時にかなり脆いということです。

たしかに、AIにツールを40個以上渡して「さあ何とかして」と言うと、実際には

どのツールを使うべきか迷う
同じファイルを何度も読み返す
途中で変な方向に進む
危険な操作をしそうになる

といったことが起こりやすいです。

多くの場合、対策としては

モデルをもっと大きくする
プロンプトを長くする
事後の観測やログで確認する

といった方向に行きがちです。
でもStatewrightの考え方は違っていて、「モデルを賢くする前に、そもそも解くべき問題を狭くする」 というものです。

これはかなり面白いです。
AIって「頭脳勝負」だと思われがちですが、実際には仕事の進め方を整理したほうが効くことが多いんですよね。人間のマネジメントと同じで、自由すぎると逆に崩れる。そこを状態で縛る発想は、地味だけど強いです。

どうやって制限するのか

Statewrightの基本は、状態ごとに使えるツールを変えることです。

たとえば記事では、こんな流れが紹介されています。

1. planning（計画）状態

この段階では、読めるだけでよく、編集はまだできないようにします。

Read
Grep
Glob

のような、調査系のツールだけを許可します。

2. implementing（実装）状態

ここで初めて編集が可能になります。

Read
Edit
Write

が使えるようになります。

ただし、単に「Editを許可する」だけではなく、shell操作も限定されます。
たとえば、write-via-redirect や危険な削除操作はブロックされると説明されています。
つまり、AIに“なんでもできるターミナル”を渡すのではなく、かなり慎重に範囲を絞るわけです。

3. testing（テスト）状態

この段階ではテスト関連のコマンドだけを許可します。

Read
Bash

は使えるものの、pytest、cargo test、npm test のような許可されたコマンドだけに制限できます。

もしその状態で許可されていないツールを呼ぼうとすると、拒否される仕組みです。
しかも単に「ダメです」で終わらず、今使えるものと、どう遷移すればいいかが案内されるそうです。

このあたり、かなり親切です。
AIは「禁止された」ことよりも「じゃあ次に何をすればいいのか」を示してあげたほうが、ずっと安定して動くと思います。

実験結果はどうだったのか

元記事では、ローカルモデルでの実験結果も紹介されています。
特に印象的なのは、Statewrightの制約をかけることで、タスクの成功率が大きく改善したという点です。

記事の表では、たとえば以下のような結果が示されています。

小さめのモデルでは失敗しやすい
13.8GBや19.9GBクラスのモデルでは、制約付きで成功
SWE-bench の一部タスクでも、制約ありで改善

要するに、モデルのサイズをただ上げるより、状態とツールを整理したほうが効く場面があるということです。

もちろん、これは万能ではありません。
記事でも、13GB未満のモデルではファイル内容を十分保持できず、正確な編集が難しいという“床”があると説明されています。
なので「Statewrightが魔法のようにすべてを解決する」という話ではないです。そこはちゃんと線引きされていて好感が持てます。

何が「guardrails」なのか

Statewrightの面白いところは、単なる「禁止機能」ではなく、ワークフロー全体を守る仕組みになっていることです。

記事では、次のような guardrails が挙げられています。

Per-state tool enforcement
状態ごとに、使えるツールを強制する
Bash discernment
rm や shred など危険な操作をブロックする
Edit guards
一度に編集できる行数やファイル数を制限する
Command allow-lists
実行を許可するコマンドを絞る
Conditional transitions
条件に応じて次の状態へ進む
Approval gates
高リスクな変更は人間の承認を挟む
Environment scoping
環境変数の制御
Session isolation
セッションごとに状態を分ける

これ、AIエージェント版の「社内ルールブック」みたいなものです。
個人的には、AIを本番で使うなら、こういうルールがないほうがむしろ怖いと思います。AIは賢いけれど、雑に信じるにはまだ危うい。だからこそ、こういう設計が重要なんでしょう。

どうやって使うのか

記事では、Claude Code でのクイックスタートが紹介されています。

流れとしては、

plugin marketplace から Statewright を追加
plugin をインストール
API key を入れる
workflow を開始する

という感じです。

例としては、bugfix workflow を起動して、
「壊れているテストを直す」みたいな作業を、計画 → 実装 → テストの順で進めるデモが示されています。

このデモがわかりやすいのは、AIにありがちな

いきなり書き始める
変なところを触る
テストが通るまでの道筋がぐちゃぐちゃになる

という流れを、状態管理で抑えているからです。

仕組みはどんなもの？

Statewrightの中核は、Rustで書かれた deterministic なエンジンだと説明されています。
deterministic というのは、ざっくり言うと 「同じ入力なら同じ結果になる」 ということです。

ここで重要なのは、LLMが状態管理の本体ではないことです。
LLMはあくまで作業をする側で、状態遷移やルール判定は別のエンジンが担う。
この分離はかなり良い設計だと思います。

というのも、AIにルールまで全部丸投げすると、結局ルール自体があいまいになりがちなんですよね。
でもStatewrightは、ルールは機械的に判定し、AIはその範囲で働くようにしている。ここが筋が通っています。

対応しているエージェント

記事では、以下のようなエージェントとの連携が挙げられています。

Claude Code
Codex
opencode
Pi
Cursor

ただし、全部が同じ強さで守られるわけではなく、
Hard と Advisory の違いがあります。

Hard: プロトコル層でツール呼び出しを止める
Advisory: ルールをコンテキストに入れるだけで、強制力は弱い

この違いはかなり大事です。
「指示したつもり」なのと「本当に止められる」のは別物ですからね。
本番運用を考えるなら、やっぱり Hard のほうが安心感はあります。

どんな人に向いている？

Statewrightは、次のような人に向いていそうです。

AIエージェントを開発業務に使いたい人
ただ動けばいいではなく、安全に動いてほしい人
作業を「調査」「実装」「テスト」に分けたい人
ローカルモデルや小さめのモデルを実用化したい人

逆に、
「AIに全部自由に任せたい」「細かい制約は面倒」という人には、少し重く感じるかもしれません。
でも、私はその“面倒”こそが本番では価値になると思います。自由なAIはデモでは華やかですが、実務ではルールがあるAIのほうが強いことが多いです。

まとめ

Statewrightは、AIエージェントに対して「状態ごとのルール」を与えるための guardrails です。
派手さはそこまでありませんが、AIを現実の作業に持ち込むうえで、かなり本質的な方向だと感じました。

特に、

ツールを絞る
状態ごとに役割を分ける
危険な操作を抑える
条件がそろったら次に進める

という考え方は、AIエージェントの弱点をうまく突いています。

個人的には、AIエージェントの未来は「より自由にすること」より、いかに賢く制約するかにかかっていると思います。
Statewrightはその答えのひとつとして、かなり説得力があるプロジェクトです。

参考: GitHub - statewright/statewright: State machine guardrails for AI agents

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ