世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

非同期Dual Writeの落とし穴：ゼロダウンタイム移行が「データ破壊」になる理由

記事のキーポイント

Dual Write は、古いDBと新しいDBの両方に同時に書き込む移行手法
ただし 非同期 だと、片方だけ成功してもう片方が失敗することがあり、データ不整合 が起きる
「ゼロダウンタイム」と言っても、ゼロ不整合ではない のが本質的な怖さ
Stripeのような大規模組織は、shadow write、idempotency、reconciliation（突合作業） でこの問題に対処している
Dual Write をやるなら、監視・再試行・補償処理・継続的な検証 までセットで考える必要がある
面接では「片方のDBだけ失敗したらどうする？」がかなり良い質問になる

この記事が言っていることを、ざっくり一言でいうと

「Dual Writeは、うまく設計しないと“無停止移行”ではなく“静かに壊れる移行”になる」 という話です。

これ、かなり大事です。
ゼロダウンタイム移行というと、なんとなく「止めずに安全に引っ越せる魔法」っぽく聞こえますが、現実はそんなに甘くない。むしろ止まらないまま壊れるのがいちばん怖い。壊れた瞬間に気づけないからです。

Dual Writeって何？

Dual Write は、同じデータを古いシステムと新しいシステムの両方に書くやり方です。

たとえば、users テーブルを新しいDBへ移行したいとします。

既存の読み取りは旧DB
書き込みは旧DBと新DBの両方
最後に読み取り先を新DBへ切り替える

という流れです。

一見すると「これなら止めずに移行できそう」と思いますよね。
私も最初に見ると、かなり筋が良さそうに見えると思います。問題は、2回書くこと自体が安全ではないことです。

何がそんなに危ないのか

記事の中心はここです。

例：片方だけ成功する

ユーザーがプロフィールを更新したとします。

OldDB への書き込みは成功
NewDB への書き込みはネットワークタイムアウトで失敗

このとき、アプリが「旧DBが成功したからOK」と返してしまうと、新DBには古い情報が残るわけです。

これが1回だけならまだしも、実運用では何日も何週間も、こういう小さな失敗が積み重なります。
すると、最終的に新DBへ読み取りを切り替えた瞬間に、ユーザーは

更新したはずのプロフィールが戻る
注文履歴が抜ける
残高が合わない

みたいな地獄を見ることになります。

ここがこの話のいちばん嫌なところで、障害として見えるのは「移行が終わった後」 なんですよね。
つまり、移行中は静か。なのに、あとで爆発する。これは本当に厄介です。

Expand-Contractパターンの中で起こること

記事では、ゼロダウンタイム移行でよく使われる Expand-Contract パターンも紹介しています。

これはざっくりいうと、こんな流れです。

Expand
新しいスキーマやDBを追加し、古いシステムも残したまま動かす
Migrate Data
既存データを新側へ移す
Validate
古いDBと新しいDBを比べて、ズレがないか確認する
Contract
読み取りを新側へ切り替え、古い側を片付ける

この中で、Dual Write は Expand フェーズでよく使われます。

図としては、

アプリが書く先は old と new の2つ
読み取りは最初 old
データ移行のための backfill ジョブが別で動く

という構造です。

ただし、ここで重要なのは、DBを2つにまたがって書く操作は、原則として1つの原子的な処理ではない ということです。
専門用語でいう atomic は「全部成功するか、全部失敗するか」のこと。
Dual Write は普通、その保証がありません。

だから、片方成功・片方失敗 が起こりうる。
これは理屈では当たり前ですが、実装するときにうっかり忘れがちなんですよね。かなり人間っぽい落とし穴だと思います。

Stripeのやり方が示唆的で面白い

記事では、Stripe のような大規模な会社がどう対処しているかにも触れています。
Stripe は非常に多くのスキーマ変更を行っているようで、その前提として「Dual Write は失敗しうるもの」と割り切っているのがポイントです。

彼らの対策として挙げられているのは主に3つです。

1. Shadow Write

これは、本番と同じ書き込みを新システムにも流すけど、まだ本命扱いはしない 方式です。

新しいDBにはデータを入れてみるけれど、それを結果としては使わない。
いわば「本番リハーサル」です。

これ、かなり賢いと思います。
いきなり本番の正解にしないで、まずは負荷や整合性を観察する。これは現実的です。

2. Idempotency と Retries

idempotent（冪等） というのは、同じ処理を何回やっても結果が壊れない性質のことです。
たとえば、「同じ注文を2回送っても重複しない」ように作るイメージです。

Dual Write では片方が失敗したときに再試行が必要になります。
そのとき、冪等でないと「再試行したら二重登録された」みたいな事故が起きる。
これは本当にイヤなバグです。再試行が善意なのに、むしろ事故を増やすからです。

3. Continuous Reconciliation

ここがいちばん重要だと感じました。

reconciliation は、古いDBと新しいDBを定期的・継続的に比較して、ズレを見つけて直す作業です。
たとえば、

旧DBにはあるのに新DBにはない
値が微妙に違う

といった差分を自動検出します。

記事では、これを「安全網」と表現しています。
まさにその通りで、Dual Write を本番でやるなら、突合作業なしはかなり無謀 だと思います。

正直なところ、Dual Write の本体よりも、この reconciliation の方が本番ではよほど重要ではないか、という気すらします。
「書くこと」より「ズレを見つけて直すこと」の方が難しいからです。

よくある失敗パターン

記事では、Dual Write 実装でありがちな間違いも整理されています。

1. DBをまたいだ原子的処理だと思い込む

db1.save() と db2.save() を並べただけでは、当然ながら1つのトランザクションにはなりません。
片方成功、片方失敗は普通に起こります。

ここを「まあ順番に呼ぶだけでしょ」と軽く見ると、あとで痛い目を見る。
分散システムの怖さって、まさにこういうところにあります。

2. 移行中の読み取り戦略が曖昧

Dual Write している最中に、どこから読むのかをはっきり決めないといけません。

記事では、次の3パターンが挙げられています。

Read-Old
旧DBだけを読む。安全だが、新DBの内容は見えない
Read-New-Fallback-Old
新DBを優先し、なければ旧DBへ戻す
Read-Both-Merge
両方読んで統合する。複雑で遅くなりがち

個人的には、読み取りの正解を曖昧にしたまま移行を進めるのが一番危ない と思います。
書き込みの話ばかりに目が行きますが、実際には「どっちを真実とするか」を決める方がずっと大事です。

3. 監視と検証を軽視する

Dual Write と backfill ジョブを作っただけで安心してしまうのも危険です。

必要なのは、

成功率の監視
書き込み遅延の監視
差分検出
再試行状況の確認
アラート

です。

これがないと、静かにデータが壊れていく。
しかも静かなので、チーム全体が「順調です」と思い込んでしまう。ここが本当に怖いところです。

面接でも問われやすいポイント

記事の後半には、システムデザイン面接で聞かれそうな質問も載っています。

たとえば、

片方のDBへの書き込みは成功したが、もう片方が失敗したらどうする？

これに対しては、単に「リトライします」だけでは弱いです。
より強い答えとしては、

分散トランザクションを前提にしない
キュー（例: Kafka）に一度入れる
consumer が両方へ書く
失敗時は再試行
それでもダメなら dead-letter queue に送る
さらに継続的 reconciliation を回す

という流れが挙げられています。

要するに、同期的な完璧さを目指すのではなく、非同期で壊れたものを後から必ず直す仕組みを持つ という考え方です。
この発想はかなり現実的だと思います。

もう1つの面接質問は、

shadow write と dual write をどう使い分ける？

これも良い問いです。

shadow write は、まだ本番の真実にはしない検証段階
dual write は、移行期間中に両方を実運用する段階

という違いがあります。

私はこの区別、かなり重要だと思います。
似た言葉ですが、リスクの重さが全然違う からです。

この話の本質

この記事を読んでいちばん強く感じたのは、
「データ移行は、移す作業ではなく、壊れないように管理し続ける作業」 だということです。

Dual Write は便利です。
でも便利なぶん、油断しやすい。
そして、油断した瞬間に「ゼロダウンタイム」が「ゼロ整合性」になる。

ここが実に皮肉で、しかも現場ではかなりありがちな失敗だと思います。

まとめ

Dual Write はゼロダウンタイム移行でよく使うが、非同期だと不整合が避けられない
重要なのは「書くこと」より、ズレを検出し、修復する仕組み
Stripe級の組織でも、shadow write / idempotency / reconciliation を組み合わせて運用している
読み取り先を曖昧にしないこと、監視をサボらないことが大事
「移行が終わったら安心」ではなく、移行後もデータ一致を見張り続ける 必要がある

参考: The Production Problem with Async Dual Writes

同じ著者の記事

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。 File Searchがmultimodal対応 テキストだけでなく、画像も一緒に扱えるようになった custom metadataに対応 ファイルに `department: Legal` のようなラベルを付けて、整理・絞り込みしやすくなる page-level citationsを追加 どのページを根拠に答えたかを示しやすくなり、透明性が上がる RAGをより「実用」寄りに改善 プロトタイプだけでなく、業務アプリ