世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-21

12年物の古いコードベースにLLMをつないだら何が壊れたのか

古いシステムにAIを足すとき、いちばん壊れやすいのは「AIそのもの」ではなく、その前後にある既存の仕組みだ――この記事は、そんな現実をかなり生々しく教えてくれます。
DEV Communityの元記事では、2014年から動いているローン申請プラットフォームにLLMを組み込んだチームが、どこでつまずいたのかを順番に振り返っています。読んでいて「そりゃそうなるよね…」と何度も思いました。デモではうまくいくのに、本番では別世界。AI導入あるあるの、かなり本質的な話です。

この記事のキーポイント

LLMを通常の関数みたいに扱うと危ない
- 遅延や障害が起きたとき、画面全体や決済処理まで止まる
AI導入は実質「データ整備プロジェクト」になりがち
- 古いDBには、意味の曖昧な項目や表記ゆれが山ほどある
コスト監視は最初から必要
- AIは静かにお金を食うので、あとから気づくと請求額が怖い
解決策はLLMをアプリ本体から切り離すこと
- gateway を挟み、timeout・fallback・監査ログ・コスト計測を持たせる
AIはモデルより「つなぎ目」で失敗する
- 既存システムとの境界設計がいちばん大事

何が起きたのか：12年物の古いシステムにAIを足した現場

元記事の舞台は、2014年から動いているフィンテック系のローン申請プラットフォームです。
Node.js の backend と Postgres database を使い、しかも「数秒ごとに実際のお金が動く」checkout flow がある。つまり、ちょっとした不具合がそのまま売上や信用問題につながる、かなりシビアな環境です。

そこに持ち込まれた要望はこうです。

LLMを使ってローン申請を事前審査し、危険そうな申請を人間に回したい

言葉にすると簡単ですが、実際には全然簡単じゃない。
この記事の面白いところは、AIを入れたら何が壊れたかを「壊れた順」に並べている点です。これ、かなりリアルです。現場ってだいたい、一番派手な失敗からではなく、地味な前提のズレから崩れるので。

壊れたもの 1: 同期呼び出しで checkout が止まった

最初の実装は、いかにも「デモで見せやすい」作りでした。
application submission の処理の中で、そのまま LLM を呼ぶ。申請が来たらモデルに問い合わせ、risk score を返して、そのまま保存する。見た目はシンプルです。

でも本番では、モデル提供元が遅くなっただけで大事故になりました。
response time が 800ms から 19秒に悪化したとき、申請処理が全部ぶら下がって止まり、ローン申請が進まなくなったのです。

ここで重要なのは、LLMを「ちょっと賢い関数」みたいに置いてしまったことです。
普通の関数は、その場で高速に返る前提です。でもLLMは、

ネットワーク越し
外部サービス依存
遅くなることがある
たまに落ちることもある

という、むしろ「不安定な外部部品」です。

個人的には、この失敗はかなり本質的だと思います。
AI導入でつい忘れがちなのは、モデルの賢さと、システムの安定性は別問題だということです。賢くても遅ければUXは壊れますし、外部依存が強いほど障害の伝染も起きやすい。ここを甘く見ると、AIは便利どころか足を引っ張ります。

壊れたもの 2: データが汚すぎて、モデルが平気で間違った

timeout を直したあと、次に出てきた問題は「モデルが自信満々に間違える」ことでした。
しかも厄介なのは、出力がちゃんとして見えることです。フォーマットは整っている。説明もそれっぽい。なのに中身がズレている。

原因はモデルではなく、データでした。

元記事によると、applications table には「年収」を意味する列が3つあり、それぞれ別の intake form から10年以上かけて投入されていたそうです。
しかも中身は、

月収が入っているもの
通貨記号つきの文字列
形式がバラバラな値

などが混在していた。これではモデルがどれだけ頑張っても、入力がぐちゃぐちゃなので正しい判断は難しいです。

ここでの教訓はかなり重いです。
AI導入は、実はデータ整備の仕事になりやすい。
しかも古いシステムほど「その列、何を意味してるの？」という歴史的経緯が積み重なっています。運用の都合で増えたカラム、フォーム改修の名残、誰も覚えていない変換ルール……。こういう“技術的負債の化石”が、AIで一気に表面化するわけです。

この記事の表現を借りれば、これは「integration project」ではなく「data project wearing an AI hat」です。
これはうまい言い方だなと思いました。まさにその通りで、AIは魔法の粒ではなく、汚いデータを見えにくくする帽子ではありません。

壊れたもの 3: コスト監視が遅れて請求書が爆発した

次の問題は、お金です。
最初は少量のトラフィックだったので安く見えた。でもある日、別の product line にも機能が使われ、volume が一気に3倍に増えた。結果、月末の請求額が「桁、間違ってない？」と思うレベルになったそうです。

これはかなりわかりやすい落とし穴です。
AIのコストって、エラーのように即座に悲鳴を上げません。じわじわ積み上がるんです。だから latency や failure は監視していても、cost は後回しにされがち。で、気づいたときには請求書で現実を突きつけられる。

ここはかなり企業あるあるだと思います。
「まずは動かしてみよう」で始めると、コスト計測は後回しになります。でもAIは、動いた瞬間から請求が発生する。これは無料の実験道具ではなく、従量課金の外部サービスです。かなり当たり前なのに、忘れやすい。地味だけど重要なポイントです。

解決策: LLMをアプリの中から追い出し、gateway に隔離した

最終的にチームが採ったのは、LLMをアプリ本体に直結しない構成です。
代わりに gateway を置き、その先でAIを扱うようにしました。

gateway とは、ざっくり言えば「アプリと外部AIの間に立つ中継役」です。
アプリは gateway に対してだけ問い合わせればよく、LLM の細かい事情を知る必要がありません。

この gateway が持つ責任は、元記事では主に4つです。

1. Timeout と circuit breaking

model が遅ければ、待ち続けずに早めに諦める。
circuit breaking は、壊れた外部サービスに延々と突撃しないための仕組みで、「今は危ないから止める」という安全装置です。

2. Deterministic fallback

LLMがダメなら、古い rules-based score に戻す。
deterministic というのは「同じ入力なら同じ結果になる」こと。要するに、LLMが気まぐれでも、従来のルールベース判定という“確実に返る保険”を用意しておくわけです。

ここ、私はかなり重要だと思います。
AIって「精度が高いほうが勝ち」みたいに語られがちですが、本番では**“少し賢いが止まる”より、“そこそこでも確実に返る”**ほうが勝つ場面が多いです。特に金融みたいに止まれない業務ではなおさらです。

3. Cost と usage telemetry

telemetry は、システムの利用状況や動作状況を計測して送る仕組みのことです。
ここでは「1回ごとのコストや利用状況を記録する」ことが大事。急な増加があればアラートを出せるようになります。

4. Audit trail

audit trail は、あとから「何が起きたか」を追える記録です。
どの入力に対して、どの model version で、最終的に人間がどう判断したか。規制のある金融業界では、これはかなり重要です。
AIの判断をブラックボックスにしてしまうと、後から説明できません。これは単なる便利機能ではなく、責任の所在を守るための装置です。