世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-30

Retry StormsでAPIが落ちる理由と、その防ぎ方をわかりやすく解説

この記事のキーポイント

Retry（再試行）は便利だが、無制限だと危険
ちょっとした遅延が、雪だるま式に大量アクセスへ化けます。
Autoscaling（自動拡張）は万能ではない
Retryで増えた“見せかけの負荷”に反応すると、逆に不安定になります。
Replication（複製）もやりすぎると詰まる
耐久性を上げる仕組みが、同期コストでボトルネックになることがあります。
分散システムは“相互に反応する”のが怖い
Retry、Autoscaling、Circuit breakerなどが同時に反応すると、障害が連鎖しやすいです。
大事なのは「完璧な信頼性」ではなく「制御された劣化」
無理に全部守るより、壊れ方を設計するほうが現実的です。

まず結論：APIは「守ろうとしすぎる」と逆に壊れる

今回の記事のテーマは、Retry Storms（再試行の嵐） です。
名前は少し物騒ですが、やっていることは単純で、「失敗したらもう一回投げる」をみんなが同時にやりすぎて、システム全体を押しつぶしてしまう、という話です。

これ、かなり“あるある”だと思います。
人間の感覚だと「1回失敗したなら、もう1回試せばいいじゃない」と思いがちです。実際、それで助かるケースは多い。でも、遅くなっている時に再試行を積み増すと、救済策が加害者に変わるんですよね。ここが本当に面白くて、怖いところです。

元記事では、API-led architecture（APIを中心にした構成）を前提に、次のような機能がそれぞれ“善意”で入っていると説明します。

Retries：一時的な失敗に備える
Replication：データを複製して失われにくくする
Autoscaling：負荷に応じてサーバーを増やす
Circuit breaker：障害の波及を止める

どれも単体なら正しい。でも、ストレス下では同時に暴走しうる。
この記事の主張はそこに尽きます。

Retry Storms：1回の失敗が3回分、9回分の負荷になる

Retryは「一時的なタイムアウトなら、もう一度試す」という仕組みです。
たとえば、あるサービスが一時的に遅くなっただけなら、再試行でうまくいくことがあります。これは確かに便利です。

ただし問題は、失敗したリクエストが、失敗したままでは終わらないこと。
1回のリクエストが3回までRetryされると、単純に考えて負荷は3倍です。しかも、それが複数レイヤーで起きると掛け算になります。

元記事の例では、こんな流れが描かれています。

Gateway
Experience API
Process API
System API
ERP / DB

この構成で各層が独立にRetryすると、1つの遅延が上流まで増幅します。
たとえば下流のDBが少し遅くなっただけで、上流のAPIが「まだ待てる、もう1回」と再試行し、その再試行がさらに下流を圧迫する。まさに悪循環です。

個人的には、ここは分散システムの“性格の悪さ”がよく出る部分だと思います。
単体では良い挙動が、組み合わせると最悪になる。ソフトウェア設計って、こういうところが本当に油断できません。

どう防ぐのか

記事では、Retryは次のようにbounded（上限付き）にすべきだとしています。

回数を制限する
Exponential backoff（失敗するたびに待ち時間を増やす）を使う
Jitter（少しランダムな揺らぎ）を入れる
システムがストレス状態ならRetryを止める

特にJitterは地味ですが重要です。
全員が同じタイミングで再試行すると、再び一斉攻撃みたいになるからです。
「ちょっと待ってから、しかも人それぞれズラして再挑戦する」という発想は、かなり賢いと思います。

Replicationは安心材料だが、同期しすぎると詰まる

Replicationは、データを複数の場所に複製することで、壊れにくくする仕組みです。
これも一見すると万能に見えます。データが飛んでも大丈夫そうですし、冗長性も上がる。いいことづくめに見えます。

でも元記事は、同期的なReplicationにはコストがあると指摘します。
書き込みのたびに複数レプリカへ同時反映するなら、そのぶん待ち時間も増えるし、調整の手間も増える。

つまり、耐久性を上げるつもりが、書き込みのボトルネックになるわけです。

記事の例では、書き込みが3つのReplicaにファンアウトし、トラフィックが増えるとレプリカ遅延が起き、クライアントがRetryし、結果として書き込み負荷がさらに増える、という流れが示されています。

これは、業務システムではかなり厄介です。
注文処理、請求、突合（reconciliation）みたいな領域では、「データが消えないこと」は大事ですが、同時に「処理が止まらないこと」も大事です。
どちらか片方だけを最大化すると、もう片方が死ぬことがある。ここは設計者泣かせですね。

どう考えるべきか

記事は、全部のデータに同じレベルの耐久性を求めないことを勧めています。

重要なトランザクション：強いdurability
ログやイベント：軽めのcoordination

これはかなり現実的です。
「全部を最高品質で」ではなく、「大事なものにだけ重い保証をかける」。
個人的には、こういう優先順位ベースの設計が、実運用では一番強いと思います。

Autoscalingは救世主にも爆弾にもなる

Autoscalingは、アクセスが増えたらインスタンスを増やす仕組みです。
クラウド時代の希望みたいな機能ですが、元記事はここにも落とし穴があると言います。

問題は、Retryで増えた負荷を、本物の需要だと誤認することです。
たとえば本当は100件のアクセスしかないのに、Retryで300件に見えていたら、システムは「うわ、需要が急増してる！」と判断してスケールアウトするかもしれません。

でも新しいインスタンスを立ち上げると、今度はそれ自体がDBやキャッシュに負荷をかける。
その結果、さらに遅くなる。さらにRetryが増える。
つまり、スケーリングが不安定さを加速するわけです。

これ、なかなか残酷です。
“助けようとした仕組み”が“混乱を広げる仕組み”になる。
分散システムは、こういうフィードバックの連鎖が本当に怖い。

何を見てスケールすべきか

元記事では、スケール判断を次のような信号に寄せるべきだとしています。

一時的なスパイクではなく、持続的な需要
レイテンシの分布の傾向
Retryを除いた organic RPS
キューの増加速度

要するに、見せかけのトラフィックではなく、本物のトラフィックを見るということです。
これ、当たり前のようで難しいんですよね。観測値はいつもノイズだらけなので。

本当の問題は「相互作用」だと記事は言う

この部分がこの記事の核心です。
Retry、Replication、Autoscaling、Circuit breakerは、それぞれ別の問題に反応しています。

Retryは latency に反応する
Replicationは write に反応する
Autoscalingは traffic に反応する
Circuit breakerは error rate に反応する

でも実際の障害時には、これらが同じ原因から同時に揺れ始めることがあります。
すると、個別には正しい反応でも、全体としては不安定なループになる。

記事では、分散システムは「フィードバックシステム」だと表現しています。
これはかなり本質的だと思います。
ソフトウェアは、ただの箱の集まりではなく、互いの出力が互いの入力になる“生き物”みたいなものなんですよね。

例：支払い突合APIが小さな遅延から大事故に変わる

元記事では、payment reconciliation API のシナリオが紹介されています。

流れはこんな感じです。

Gateway → Process API → Billing → ERP → Database

ここでERPが少し遅くなるとします。
すると：

ERP latency が 700ms に上がる
Billing が 500ms で timeout
Billing が 3回 retry
Process API も orchestration を retry
Gateway も client request を retry
Autoscaling がスパイクに反応
DB replication lag が増える
DLQ（Dead Letter Queue：処理失敗したメッセージの逃がし先）が増える

結果、小さな遅延がプラットフォーム全体の障害に変わる。
これ、かなりリアルです。単なる「遅い」から始まって、全体が勝手に大騒ぎする感じ。運用担当からすると悪夢だと思います。

では、どう守るのか：Bounded Reliabilityの考え方

元記事は、信頼性を“最大化”するのではなく、bounded reliability（上限付きの信頼性）として設計すべきだと述べます。
要するに、「どこまでも頑張る」のではなく、「ここまでは守る、ここから先はあきらめる」を決めることです。

1. Retry Budgetを決める

Retry Budgetは、Retryに使っていい“予算”のようなものです。
たとえば incoming RPS が 1,000、Retry count が 3 なら、effective load は 3,000 になります。
つまりRetryは、ただの保険ではなく負荷の増幅装置なんです。

だから、サービス全体で何回までRetryしてよいかを制限する必要があります。

2. エラーを見分ける

元記事は、全部のエラーをRetryしてはいけないと強調しています。

Connectivity：Retryしてよい
Timeout：Backoff付きでRetry
Validation：Retryしない
Auth：Retryせずアラート

これはかなり実務的です。
ValidationエラーをRetryしても、入力内容が間違っているだけなので直りません。
Authエラーも、再試行したところで認可が通るわけではない。
この当たり前を徹底するのが、意外と難しいんですよね。

3. Idempotencyを守る

Idempotency（冪等性）は、「何回やっても同じ結果になる」性質です。
Retryするなら、これがないと危険です。

たとえば決済や注文登録で、同じリクエストを2回送ったら2重処理になると困ります。
そのため、記事では transaction_id や correlation-id のような識別子を使う例が示されています。

ここは本当に重要です。
Retryは“同じことを何度もやる”仕組みなので、同じことを何度やっても安全である必要があります。
この原則がないと、リトライは保険ではなく事故の原因になります。

4. DLQとObservabilityをセットで持つ

DLQは、失敗したメッセージを一旦避難させる場所です。
ただ置くだけでは足りず、観測が必要だと記事は言います。

見るべき指標はたとえば：

Retry percentage
Timeout frequency
DLQ growth velocity
P95 latency の変化

P95 latency は、ざっくり言うと「遅い側から数えて5%の手前の値」です。
平均値よりも、体感に近い“遅さ”を捉えやすいので、運用でよく使われます。

まとめ：完璧を目指すより、壊れ方を設計する

この記事を読んで強く感じたのは、信頼性の仕組みは、足し算すると安心ではなくなるということです。
RetryもReplicationもAutoscalingも、ひとつひとつは正義です。
でも、上限なく組み合わせると、システムは“守られる”どころか“追い込まれる”。

だから大事なのは、こんな発想だと思います。

Retryは無制限にしない
Replicationは用途で分ける
Autoscalingは本当の需要を見る
エラー種別を見分ける
Idempotencyを前提にする
フィードバックループを監視する

個人的には、この文章のメッセージはかなり刺さりました。
「止まらない仕組みを作る」より、「止まり方を穏やかにする」ほうが、分散システムではずっと重要ではないかと思います。
理想論より現実論。派手さはないけれど、運用ではそっちが勝つ。そんな記事でした。

参考: How Retry Storms Crash API-Led Systems

同じ著者の記事

Excelのフォントが変わる原因を、.xlsxを解凍して確かめてみた

「テーマフォントが原因」というところまでは、探せば辿り着ける。だが実際にファイルの中で何が参照し合っているのかを見た人は少ない。.xlsxはただのZIPなので、覗くのに5分もかからない。手元の適当なブックで試すなら、拡張子を`.zip`に変えるか`unzip`コマンドを叩くだけでいい。 ``` $ unzip -l sample.xlsx Length Date Time Name --------- ---------- ----- ---- 1234 2026-07-01 09:00 xl/theme/theme1.xml 5678 2026-07-01 09:00 xl/styles.xml ... 2345 2026-07-01 09:00 xl/worksheets/sheet1.xml ``` 犯人は`xl/theme/theme1.xml`にいる。中を`cat`すると、こんな塊が出てくる。 ```xml <a:fontScheme name="Office"> <a:majorFont> <a:latin typeface="

papoo.work

Claude の Effort、実は3段階じゃない——xhigh/maxまで含めた5段階の使い分けとAPI仕様を深掘りする

以前の記事「[Claude の effort ってどう効くの？](https://note.com/modern_ferret431/n/nc8e88b771ab0)」では、Effortパラメータを Low / Medium / High の3段階として紹介した。実際のClaude APIはもう一段深い。現行モデル（Opus 4.8/4.7、Sonnet 5、Fable 5）では low / medium / high / xhigh / max の5段階が存在し、しかも「thinkingの予算」だった旧`budget_tokens`とは効かせ方そのものが違う。本稿ではAPI仕様に基づいて、モデル別の対応状況・挙動の違い・実運用での設計指針を整理する。旧世代（Sonnet 4.5以前）の extended thinking は `thinking: {type: "enabled", budget_tokens: N}` という固定トークン予算の指定だった。「thinkingにいくら使うか」だけを制御する、いわば一次元のノブだ。 Opus 4.6以降ではこれが非推奨化

papoo.work

Claudeの「超過課金」は自動発生しない——note記事の補足と2026年6月の仕様変更

先日、[「Claudeは weekly limit や 5hours limit を突き破ったときのペナルティ料金が半端ない」](https://note.com/modern_ferret431/n/n821d3055d109) という記事が話題になった。Claude CodeやOpusでコードベース解析を回していると、10分足らずで従量課金が発生し得るという警告は実体験として貴重だが、エンジニアが実際に運用判断をする上で誤解しやすいポイントがいくつかある。本記事はその補足として、Anthropic公式ドキュメントに基づき仕組みを整理する。最大の誤解ポイントはここ。Claude Pro/Maxで週次・5時間の利用上限に達しても、Usage credits（超過課金）を明示的に有効化していない限り、追加料金は一切発生しない。上限に達した場合の既定動作は「リセットまで待つ」だけで、勝手にAPI従量課金へ切り替わることはない。有効化するには以下の手順が必要: `Settings > Usage` から Usage credits セクションで Enable をクリック

papoo.work

【2026年7月版】Outlookが「起動しない・クラッシュを繰り返す」最新事情 — 6月末の一斉クラッシュはビルド2605が原因、直し方はほぼ一択

「昨日まで普通に使えていたClassic Outlookが、右クリックした瞬間に落ちる」「起動してもすぐ強制終了し、次はセーフモードで開く」——2026年6月末から、この手の悲鳴がまた一気に増えた。半年前・1年前に書かれた「Outlookが起動しない完全解決ガイド」的な記事が今また読まれているのは、まさに今、Classic Outlookのクラッシュが立て続けに起きているからだ。本稿は、2026年前半に発生した複数のクラッシュ事案を発生時期・影響ビルド・原因・修正状況で整理し直し、「自分のケースはどれで、何をすれば直るか」を最短で切り分けられるようにしたものだ。結論から言うと、直近の主犯は更新プログラムの回帰（リグレッション）で、多くは“Officeを最新へ更新するだけ”で直る。設定を9個いじる前に、まずここを見たほうが早い。 > ⚠️ 先に結論: 2026年6月29日ごろから急にClassic Outlookが落ち始めたなら、疑うべきは自分の設定ではなく **Microsoft 365 Apps バージョン2605（Build 20026.20182

papoo.work

【2026年7月版】Outlookの「送信済みメールが消える」が再燃 — 犯人はWindows更新プログラム KB5074109 の可能性

「送信は成功したのに、送信済みアイテムに残っていない」——Outlookの定番トラブルが、2026年に入ってから再び相談件数を増やしている。半年前(2026年1月)に出回った解説記事の手順は今でも基本として有効だが、2026年に急増した“送信済みが消える”の主犯は、従来の設定ミスではなく Windows のセキュリティ更新プログラムそのものであることが分かってきた。本稿はその現況を、切り分け順に整理し直したものだ。 > ⚠️ 先に結論: 1月中旬以降にClassic Outlook(デスクトップ版)で急に「送信済みに入らない」「Outlookが固まる」が始まったなら、まず疑うべきは自分の設定ではなく 更新プログラム KB5074109 と PSTファイルの置き場所(OneDrive配下かどうか) だ。設定を10個いじる前に、ここを先に見たほうが早い。 --- 2026年1月のWindowsセキュリティ更新 KB5074109 導入後、**Classic Outlookで送信メールが「送信済みアイテム」に記録されない／Outlookが終了しない・フ

papoo.work

【続報】サナエトークン、ついに「当事者2人の法廷闘争」へ――三崎優太氏が溝口勇児氏に内容証明、いまどこまで進んだか

前回まで、私たちはサナエトークン騒動を「補償」「金融庁」「高市首相の否定」という3つの軸で追ってきた。補償は6月10日に申請サイトが開き、金融庁の損失相談は6月時点で5件、首相は国会で改めて全面否定――というのが直近の現在地だった。ところが騒動はここへ来て、まったく別の局面に入っている。行政・補償の話から、当事者どうしの個人間紛争、それも法廷闘争へと重心が移ったのだ。本稿はその続報である。 https://papoo.work/doc/7de9f0cf1b564dc9 実業家の三崎優太氏（元「青汁王子」）が、実業家の溝口勇児氏に内容証明を送付したと明かし、「きっと裁判になる」と法廷闘争を予告した。三崎氏は溝口氏とみられる人物の会議音声を公開し、「責任を他人になすりつけている（＝トカゲの尻尾切り）」と批判。溝口氏は「編集で切り取っている」「補償対応はやっている」と反論した。 6月26日、三崎氏は両者が共同運営していたYouTube番組「REAL VALUE」からの脱退を表明。ただし本稿執筆時点（7月7日）で、**正式な「提訴」の公

papoo.work

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。特に

papoo.work