世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-06-01

SQLiteだけで十分な durable workflows の話

キーポイント

この記事は、「durable execution（壊れにくい実行）」には、必ずしも巨大な基盤は要らないと主張しています。
DBOS が「Postgres があれば十分」と言った流れに対して、Obelisk は「もっと進めて、SQLite でも多くのケースで十分では？」と提案しています。
重要なのは 計算処理そのもの ではなく、workflow の状態を安全に残すこと だ、という考え方です。
SQLite は単体で transactional な永続性を持てるので、余計な DB サービスを増やさずに済みます。
Litestream を使えば、SQLite の変更を S3 互換の object storage に非同期でバックアップできます。
ただしこれは高可用性の共有DBの代わりではなく、多少の遅延や一部データ喪失の可能性を許容する設計です。
AI agents や実験的な workflow には、Postgres より SQLite のほうがシンプルで相性がいい場面が多い、というのがこの記事の見立てです。

この記事の要点をざっくり言うと

「durable workflows を作るのに、最初から大げさな仕組みは要らない。
小さな SQLite ファイル + バックアップ + 安い worker で、意外と十分なことが多いよ」という話です。

これ、かなり面白いです。
ふつう「重要なシステムを作るなら、まずは堅牢なDB、冗長化、監視、フェイルオーバー…」と考えがちですが、この記事はそこにちょっと待ったをかけています。
“本当に守るべきものは何か？” を見直すと、守るべきなのは高価なサーバー群ではなく workflow の履歴や状態 なんですよね、という発想です。私はこの割り切り方、かなり筋がいいと思います。

durable execution って何？

まず用語をやさしく言うと、durable execution は「途中で落ちても、あとから続きから再開できる実行」のことです。

たとえば AI agent が、

何かを調べる
API を叩く
結果を保存する
次の判断に進む

みたいな処理をしている途中でサーバーが落ちても、どこまで終わったか が残っていれば、最初からやり直さずに済みます。
この「どこまで進んだか」を残すのが workflow state です。

この記事の大事な主張はここで、
壊れない実行に必要なのは、必ずしも壊れにくい巨大インフラではない。 workflow state さえ durable にしておけばよい
という考え方です。

Obelisk の考え方

元記事は Obelisk という仕組みを前提にしています。
ざっくり言うと、workflow の進行状況を execution log として残し、そこから replay（記録をたどって再実行）できるようにする設計です。

execution log: 実行の記録帳みたいなもの
replay: 記録を見ながら、同じ流れを再現すること
activities: workflow の中で呼ばれる個別の処理。失敗したら retry できる

こういう設計だと、計算する worker 自体は安くてよくて、壊れてもまた立ち上げればいい。
私はこの「compute は使い捨てでよい、状態だけ守る」という発想が、今の AI 時代にすごく合っていると思います。AI agent の仕事って、かなり試行錯誤的で、しかも失敗しやすいですからね。

なぜ SQLite なのか

この記事が面白いのは、ここでいきなり SQLite を持ち上げるところです。

SQLite は、みんながよく知る軽量DBです。
でも軽量だからといって侮れなくて、ちゃんと transactional durable state を持てます。
transactional というのは、ざっくり言えば「途中で失敗したら中途半端な状態のまま残さず、きれいに成功か失敗かを扱える」という性質です。

SQLite のいいところは、この記事の文脈では次の通りです。

追加の database service がいらない
ネットワーク越しのやり取りがない
control plane が増えない
運用するものが少ない

つまり、ローカルのDBファイル1個で済む。
これは地味ですが、かなり強いです。システムは複雑になるほど壊れやすくなるので、「本当に必要な機械だけ残す」というのは合理的です。

個人的には、ここは“正しさ”より“運用の気楽さ”が勝つ場面がかなりあると思います。
理屈では高機能な分散DBが魅力的でも、実際には「設定が面倒」「障害時に見たい情報が散らばる」「小さな実験に重すぎる」ということがよくあります。SQLite はその逆で、気軽さが武器です。

Litestream がいい仕事をする

とはいえ、SQLite はローカルファイルなので、バックアップや持ち運びをどうするかが気になります。
そこで出てくるのが Litestream です。

Litestream は、SQLite の変更を S3-compatible object storage に非同期で流してくれる仕組みです。
ここでの object storage は、ファイルを置いておく倉庫のようなものだと思えばだいたい合っています。S3 は AWS の代表的な object storage ですね。

これがあると、

ローカルではすぐ使える
でも裏では外部ストレージにコピーされる
後から復元や移行、調査がしやすい

という構成ができます。

ただし、この記事はちゃんと caveat も書いています。
Litestream の replication は asynchronous、つまり「即時に完全同期」ではありません。
なので、SQLite の volume が消えるタイミングが悪いと、まだコピーされていない最新の書き込みは失われる可能性 があります。

ここは大事です。
つまりこの記事の提案は「絶対に一切失敗しないシステム」ではなく、多くの AI / 実験ワークロードにはこれで十分 という現実的なラインを狙っています。
この割り切りが良いんですよね。過剰な可用性を求めすぎず、でも最低限の durability は確保する、というバランス感覚です。

どういう運用になるのか

記事では、こういう運用モデルが想定されています。

Obelisk server を SQLite 付きで動かす
Litestream で S3 にバックアップする
必要なら observer が面白そうな DB を取り出す

ここでの observer は、たとえば「この agent は何をしたのか調べたい人」だと思えばOKです。
SQLite のファイルがそのまま残るので、local replay も debug もやりやすい。
これはかなり実務的です。ログがバラバラのサービスに散らばるより、「このファイルを見れば分かる」のほうが、後から圧倒的に楽なことが多いです。

AI agents に特に向いている理由

この記事が強く推しているのが、AI agents や AI-generated workflows への適性です。

その理由はシンプルで、

仕事が bursty（急に増えたり減ったりする）
実験的で、まだ運用形態が固まっていない
agent ごと、tenant ごとに小さく分けたほうが理解しやすい
壊れても全体が巻き込まれにくい

からです。

つまり、巨大な共有システムを1個作るより、
小さな server をたくさん並べて、それぞれに SQLite を持たせる ほうが合っているケースがある、というわけです。

私はこれはかなり納得感があります。
AI 系のワークロードって、よくも悪くも「まだ未成熟」なので、最初から大規模な共通基盤に押し込むと、かえって動かしづらいんですよね。
小さい単位で独立しているほうが、失敗の切り分けもしやすいし、「この agent だけ止める」がやりやすい。地味ですが、これが大きいです。