世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-21

Swiggyが検索の候補表示を改善した話：OpenSearch上で動くリアルタイム機械学習ランキング

キーポイント

Swiggyは、検索窓に文字を打つたびに出るAutocompleteを、手作業のルールではなくMachine Learningで並び替える仕組みに変えた
検索候補の「取得」と「順位づけ」を分け、役割ごとに最適化している
OpenSearchの中でランキングを動かし、余計なサービス呼び出しを増やさず低遅延を守っている
Feature Storeを使って、リアルタイムの行動データと事前計算した特徴量をうまく扱っている
ユーザーのクリックや購入などを学習に戻すことで、モデルを継続的に更新できる

まず何が起きたのか

インドのフードデリバリー企業 Swiggy が、検索候補表示の仕組みをかなり本格的に刷新した、という話です。

検索窓に1文字打つと候補が出てくるあの機能、見た目は地味ですが、実は裏側ではかなり忙しい処理が走っています。しかも Autocomplete は、1回の検索で終わりではなく、キーを打つたびに再検索が起きるので、とにかく速さが命です。
ここが遅いと、ユーザーは「なんか引っかかるな」と感じてすぐ離れてしまう。地味だけど、サービスの体験を左右する重要パーツです。

Swiggy はここで、従来の「人が調整したルールベースの順位づけ」から、learning to rank を使った機械学習ランキングへ移行しました。
個人的には、これはかなり筋のいい進化だと思います。検索候補って、単純な文字一致だけでは「本当に今この人が欲しいもの」を当てにくいんですよね。ユーザーの行動履歴や人気度のような“文脈”が効くので、機械学習と相性がいい分野です。

何がすごいのか

この仕組みの面白いところは、単に「MLを使いました」では終わっていない点です。
Swiggy は、Autocomplete を次の2段階に分けています。

Candidate generation
まずは候補を広く集める
Ranking
集めた候補を、機械学習で並び替える

これは検索システムでは王道に近い設計です。
最初から完璧な答えを探すのではなく、まず「それっぽい候補」を素早く拾い、その後で精密に順位をつける。
たとえるなら、最初に売り場をざっと回って商品を集め、最後にレジ前で「どれを優先的に出すか」を決める感じです。

候補を集める段階：速さと広さを重視

Swiggy の候補生成では、OpenSearch を使った lexical retrieval と、embedding-based similarity search を組み合わせています。

lexical retrieval
文字列の一致や近さで探す方法
embedding-based similarity search
文章や語をベクトル化して、意味の近さで探す方法

つまり、「文字が合うもの」だけでなく「意味が近いもの」も拾うわけです。
これにより、ユーザーが少し曖昧な入力をしても候補を出しやすくなります。これは実際かなり便利で、検索体験の“抜け”を減らせます。

ただし、候補生成の段階はあくまで広く拾うことが目的なので、ここで細かく考えすぎないのがコツです。
速く、たくさん拾う。細かい判断は次のランキングに任せる。設計の切り分けがきれいです。

ランキング段階：ユーザーの今を見て並べ替える

候補が集まったら、次は ML モデルが順位を付けます。ここで使うのが、ユーザーの行動に関するリアルタイム信号です。

記事で挙げられているのは、たとえば次のようなものです。

![image_0012.png](https://imgopt.infoq.com/fit-in/3000x4000/filters:quality(85)/filters:no_upscale()/news/2026/05/swiggy-autocomplete-rt-ranking/en/resources/1Screenshot 2026-05-16 at 4.53.26 PM-1778975637105.png)

過去のユーザー行動履歴
クリック履歴
クエリの文脈
アイテムの人気度

要するに、「この人は最近何に反応したか」「今どんな検索をしているか」「みんなは何を選んでいるか」を見て、候補の順番を決めるわけです。
静的なルールより、かなり人間の感覚に近いです。「この人にはこれが上に来た方が自然だよね」という判断を、モデルに学ばせるイメージですね。

Feature Store が地味に重要

このシステムでは Feature Store も使われています。
Feature Store は、学習に使う特徴量と、実運用で使う特徴量をそろえて管理する仕組みです。

なぜ大事かというと、学習時と本番時でデータの持ち方がズレると、モデルがうまく動かないからです。
「学習では見えていた情報が、本番では使えない」みたいなことが起きると、せっかく作った ML が台無しになります。

Swiggy は、事前に計算した特徴量と、ストリーミングで来る最新の特徴量の両方を扱えるようにしていて、しかも重いリアルタイム計算を避けています。
これは実務っぽくて良いです。理想論より、ちゃんと遅延を守る工夫が入っているのが好印象です。

OpenSearchの中で動かすのがポイント

記事で特に重要なのは、ランキングモデルを OpenSearch の中で直接動かしていることです。

これによって、追加のサービスを挟まなくて済みます。
サービスを1つ増やすと、その分だけネットワークの往復が増えますし、障害点も増えます。Autocomplete はミリ秒単位の世界なので、余計なホップはかなり痛い。

つまり Swiggy は、
「MLを使う」ことより「MLを低遅延で使い切る」こと
に本気で取り組んでいるわけです。

これは地味ですが、かなり重要です。
モデルが賢くても、遅ければ使い物になりません。検索や推薦の現場では、賢さと速さの両立がいつも難所です。

ルールベースから学習ベースへ

以前は、手で調整した heuristic ranking、つまり「この条件なら上に出す」といったルールで順位を決めていたようです。
でもルールベースは、増やせば増やすほど複雑になります。しかも、ユーザー行動が変わるたびに人手で直すのはしんどい。

そこを ML に置き換えると、ユーザーのクリック率や購入、注文といった実データから、ランキングを自動で改善できます。
この発想はとても現代的です。個人的には、検索やレコメンドのような「答えが1つじゃない領域」は、ルールだけで追いかけるより ML の方がずっと自然だと思います。

もちろん、ML にすれば自動で全部うまくいくわけではありません。
学習データの品質や、遅延、再学習の頻度、説明しやすさなど、課題は山ほどあります。
でも、Swiggy はそこをちゃんと設計で受け止めているのがえらいところです。

継続学習のフィードバックループ

このシステムのもう一つの肝は、継続的なフィードバックループです。

ユーザーの

click-through rate
conversion
ordering behavior

といった信号を集めて、オフラインの学習パイプラインに流し、モデルを再生成して、model registry に保存し、オンラインへデプロイする。
つまり、使われ方を見ながらモデルを育てる流れです。

これはかなり実用的です。
検索候補の世界は流行り廃りが早いので、古いモデルのままだとすぐズレます。
新しい検索語やトレンドに、自動で追従できるのは大きな強みでしょう。

この設計の良さを一言でいうと

この事例の本質は、「ML を入れた」ではなく、「低遅延のまま ML を回す設計にした」ことだと思います。

Autocomplete は、ユーザーに見えないところで毎回ものすごく厳しい条件を要求されます。
その中で、

候補生成とランキングを分離する
Feature Store で特徴量をそろえる
OpenSearch の中でランキングする
追加のネットワーク往復を避ける
ユーザー行動で継続学習する

という構成は、かなりバランスがいいです。

派手さはないけれど、実運用で強い。
こういう設計は、技術記事としても実務のヒントとしてもかなりおいしいですね。

まとめ

Swiggy の事例は、検索候補のような“目立たないけど超重要な機能”を、機械学習でしっかり改善した好例です。
しかも、ただ精度を上げただけでなく、低遅延・継続更新・学習と本番の整合性までちゃんと考えているのがポイントです。

個人的には、こういう「AIで派手に見せる」話より、既存機能を現実的な制約の中で少しずつ賢くする話のほうがずっと面白いです。
現場で本当に価値が出るのは、たぶんこういうところなんだと思います。

参考: Swiggy Improves Search Autocomplete Using Real Time Machine Learning Ranking

同じ著者の記事

ブラウン大学で起きた「AIカンニング」騒動、大学の信頼はどう守るのか

ブラウン大学の経済学者ロベルト・セラーノ教授が、担当科目の試験で少なくとも50人がAIを使って不正をしたと訴えている。問題になったのは、持ち帰って解く形式の試験。自宅でじっくり考えられる反面、ChatGPTのようなAIを使いやすい。期末試験では平均点が一気に落ち、欠席者の多くが前回満点だったことから、教授は「証拠は圧倒的」と見ている。ブラウン大学の反応は鈍く、教授は「大学全体で学問の誠実さを守る議論が必要だ」と主張している。背景には、米国の名門大学で広がるAI利用の誘惑と、教育のあり方そのものを揺さぶる問題がある。ブラウン大学で起きたこの話、かなり重いです。しかも、ただの「試験でズルした人がいました」という話では終わりません。大学が長年かけて築いてきた信頼、つまり「ここで学んだ学生の成績には意味がある」という前提そのものが、AIの登場でぐらついている。この記事は、その現場で何が起きているのかをかなり生々しく伝えています。中心にいるのは、ブラウン大学の著名な経済学者ロベルト・セラーノ教授です。彼は、数学的経済学の上級学部生向け講義 ECON 1170 を担当していて、

papoo.work

AIにMRIを読ませたら、医師と真逆の答えが出た話

肩が痛い。だからMRIを撮った。そこまではよくある話です。ところがこのブログ記事は、そこで終わりません。著者はそのMRI画像を、OpenAI系のモデルではなく、Claude Code上で動かしたOpus 4.8に読ませて、「もう一つの診断」を引き出そうとします。で、出てきた答えがかなり衝撃的でした。医師は「腱板の部分断裂（Grade III）」と見たのに、AIは「腱は保たれている」と判断したんです。この差、かなり大きいです。しかも著者は、ただAIに雑に投げたわけではありません。DICOM形式のMRIデータを用意し、Claude Codeに必要なパッケージを入れさせ、かなり本気で解析させています。単なるお遊びではなく、「AIが医療画像をどこまで読めるのか」を自分の体で試した記録、と言ったほうが近いです。肩の痛みでMRIを撮った著者が、AIに画像の再読影をさせた人間の医師は「Grade IIIの部分断裂」と判断した Opus 4.8は最初、「腱は正常」と報告したその後、別の条件で再比較させた結果、AIは「明らかな断裂は見当たらない」と結論づけたただし著者自身は、AIも医師も完全に

papoo.work

AIコーディングは「レビュー」より「テスト」で殴るほうが強い、という話

著者は、AI coding を使っていると「人間なら即クビ」レベルの妙な挙動に何度も遭遇したが、それでも利用をやめるどころか、さらに使い込むようになった。この記事の中心テーマは、AI にコードを書かせるときは code review 以上に test process が大事 だ、という主張。その根拠として、著者は昔働いていた CPU 設計会社 Centaur のテスト文化を紹介する。そこでは、手書きテストより fuzzing や random testing を重視し、unit test はほぼ使わず、専任の test engineer がいた。著者は、AI 時代の開発でも「人間が全部レビューする」より、「大量の自動テストで叩く」ほうが現実的で、しかも強いと考えている。ただし、これは単なる理想論ではなく、実際にバグを見つけて直してきた現場の感覚から来ている。本文を読んでまず面白いのは、著者の出発点がかなり変わっていることです。AI coding を「便利な補助輪」ではなく、かなり攻めた実験装置として見ています。しかも、その最初の印象がすごい。バ

papoo.work

Apple Neural Engineの中身を、かなり踏み込んで覗いた研究

Appleの「Neural Engine」、通称ANEは、iPhoneやMacの中で静かに働く専用チップです。顔認識、写真の補正、音声処理、生成AIの一部まで、裏側でかなり多くの仕事を抱えています。ふだんはCore MLというApple公式の仕組み越しにしか使えないので、一般の開発者から見ると「中はブラックボックス」の代表格でした。今回のarXiv論文は、そのブラックボックスをかなり本気で分解したものです。しかも単なる憶測ではなく、Apple silicon上での直接計測と、private runtime、compiler、kernel driver、firmwareの静的解析を組み合わせている。こういう研究は地味に見えて、実はとても面白いです。Appleが“使わせるつもりのない層”にまで手を伸ばして、仕組みを記述しているわけですから。この論文は、Apple Neural Engineのアーキテクチャ、プログラミング方法、性能の限界をまとめた「リバースエンジニアリングのガイド」です。対象はA11世代のiPhone/iPadチップからA18、そしてM1からM5まで。かなり広い。特に

papoo.work

AMDでもここまで速い。GLM-5.2を“安く速く”動かしたWaferの話

Waferは、GLM-5.2をAMDのMI355X GPU上で動かし、かなり高い性能を出した。しかもポイントは「速い」だけでなく、「Blackwell系より2倍以上安いのに性能効率が高い」こと。ただし、AMDで最先端LLMをそのまま使うのは簡単ではなく、quantizationやinference frameworkの調整がかなり効いている。 speculative decode という高速化手法のために、ROCm向けの小さな修正も必要だった。個人的には、ここで見えるのは「GPUの勝負」だけではなく、「ソフトウェアの面倒をどこまで減らせるか」が勝負になってきた、という現実だと思う。 Waferの記事は、タイトルの通りかなりストレートです。要するに「1ドルあたりの性能、まだ伸ばせるし、しかも安くできる」という話です。対象はGLM-5.2というオープン系の大規模言語モデルで、これをAMD MI355X上でかなりうまく動かした、という内容でした。まず数字が強いです。Waferは、20k input / 1k output、cache hit rate 60% という条件で、1ノードあ

papoo.work

Codexに「見ちゃダメなファイル」を教える仕組みがほしい、という話

GitHubのopenai/codexリポジトリに、ちょっと地味だけどかなり重要な要望が出ています。内容はシンプルで、AIエージェントに読ませたくないファイルを明示的に除外したい、というものです。これ、派手さはないんですが実際にはかなり大事です。AIにコードを書かせる時代になっても、「これは見せていい」「これは絶対にダメ」の線引きは、人間がしっかり持っていないと危ない。そこをちゃんと仕組みにしよう、という提案です。このIssueで求められているのは、エージェントが読み込んだり、モデルに送ったりしてはいけないファイルやパスを明示できる機能です。しかも単なる一時的な指定ではなく、次の2段階を想定しています。リポジトリごとの設定ユーザー全体のグローバル設定たとえば、プロジェクト内に `.codexignore` のようなファイルを置いて「このリポジトリではこのファイル群は触るな」と定義する。一方で、ユーザー側にも「どのプロジェクトでも `.env` や秘密鍵っぽいものは見せない」という共通ルールを持てるようにしたい、という考えです。ここで面白いのは、**“プロジ

papoo.work

文字を画像にしてトークンを節約する、かなり変わったProxy「pxpipe」

Claude CodeのようなLLM向けツールで、長いテキストをそのまま送らず、画像に変換してからモデルに渡す仕組み文字がぎゅっと詰まった内容ほど得をしやすく、場合によってはトークン使用量を大きく削減できるただし万能ではなく、IDやハッシュのような“1文字でも間違えたら困る情報”は危ないだからこそ、安くなる場面と危ない場面を見極める設計になっている発想はかなり攻めているが、実務の痛点をちゃんと突いていて面白い pxpipeは、ひとことで言うと「LLMに渡す長文を、必要に応じて画像に圧縮してしまうローカルProxy」です。Proxyというのは、アプリとAPIのあいだに入って通信を中継する仕組みのこと。ブラウザの世界でいう“中継サーバー”みたいなものだと思えば大きく外れていません。普通、LLMにたくさんの文章を読ませると、そのぶんトークンが増えます。トークンは、AIが文章を扱うときの細かい単位で、課金やコンテキスト長の計算に使われます。つまり、長文を入れるほどお金も容量も食う。これは避けようがない、と思われがちです。でも pxpipe はそこに逆張りをします。大量のテキストをP

papoo.work

GPUの“待ち時間”を消すという発想が、Moondreamでかなり気持ちいい

Moondreamのブログ「Popping the GPU Bubble」は、AI推論を速くする話です。ただし、単に「GPUを強く使えば速くなる」という雑な話ではありません。むしろ逆で、GPUがサボってしまう“すき間時間”をどう消すかに真正面から向き合っています。ここが面白い。 AIの推論では、GPUが大量の計算をして次のトークン（ざっくり言うと、文章のかたまり）を出します。ところが実際には、GPUが計算している時間よりも、CPUが「次は何をやるか」を準備している時間のせいで、GPUが待たされることがあります。これが記事のいう GPU bubble です。風船みたいに膨らんだ無駄な待ち時間、という比喩ですね。 Moondreamはこの待ち時間を、pipelined decoding という方法で減らしています。要するに、「前のトークンの後片付けをCPUがしているあいだに、GPUは次のトークンの計算をもう始める」という並行処理です。これだけ聞くと当たり前に見えますが、実際に安全にやるのがかなり難しい。そこでこの記事では、その工夫をかなり丁寧に説明しています。

papoo.work

vLLMが狙うのは「賢いモデル」より先にあるものだった

vLLM Semantic Router は、1回のモデル呼び出しの裏で複数モデルを協調させる「micro-agent runtime」を目指しているユーザーから見ると API はたった1つでも、裏では confidence / ratings / ReMoM / fusion / workflows などの実行方式を切り替えられる重要なのは「全部を巨大なモデル1発に任せる」ことではなく、仕事の形に合ったループを選ぶことベンチマークでも、単一モデルの置き換えではなく「コラボレーションで性能を作る」発想が効いている個人的には、これはかなり面白い方向だと思う。モデルそのものを巨大化する競争だけでなく、サービング層が頭を使う時代に入ってきた感じがある vLLM の記事「Micro-Agent: Beat Frontier Models with Collaboration inside Model API」は、ひとことで言うと「モデルを返すだけのサーバー」から「モデルの力を組み立てるサーバー」へ、という話だ。普通、APIで `model` を指定したら、そのモデルが1回答えて終わり

papoo.work

データベースを「1台の箱」から解き放つ発想が面白い

Databricksのこの記事は、Postgresを土台にしたサーバーレスDB「Lakebase」と、その先にある「LTAP」という考え方を紹介しています。話がかなり技術寄りなので、最初は「何のことだ？」となるかもしれません。でも中身はわりとシンプルで、ひと言でいえばデータベースの“保存のしかた”を根っこから見直そうという話です。いま多くのデータベースは、書き込みログも実データも、だいたい1台のマシンの中で抱え込んでいます。この記事はそこを「そもそも古くないか？」と疑い、クラウド時代に合う形へ組み替えています。ここがかなり面白い。しかも単なる理想論ではなく、書き込みの安全性、読み取りの拡張、障害対策、分析処理との干渉まで一気に整理しているのがポイントです。伝統的なデータベースは、WAL（書き込みログ）と data files（実データ）を1台のマシンに持つ「monolith」になりがちその構造だと、データ消失のリスク、read replica の高コスト化、分析処理による遅延が起きやすい Lakebase は Postgres の compute を stat

papoo.work