世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-05-18

Sembleとは何か？ AIエージェント向けの“速くて賢い”コード検索ツールを解説

キーポイント

Semble は、AIエージェント向けに作られた code search ライブラリ
grep + read より 約98%少ない token で必要なコード断片を返す
フルコードベースの index と search を 1秒未満 でこなせるとされている
CPUだけで動く、API key不要、GPU不要、外部サービス不要という手軽さが強い
MCP server や AGENTS.md を使って、Claude Code や Cursor などの agent から使える
ふつうの文字列検索ではなく、自然言語で「何をしているコードか」を探せるのが面白い

まず、Sembleは何のためのツール？

GitHubで公開されている Semble は、ひとことで言うと「AIエージェントのためのコード検索エンジン」です。

ここでいう AIエージェントは、Claude Code や Cursor、Codex みたいに、コードを読んで修正案を考えたり、関連箇所を探したりする“賢い開発アシスタント”のことです。
こういうエージェントにとって、いちばん地味だけど重要なのが どこに目的のコードがあるか素早く見つけること なんですよね。

普通は grep で文字列を探して、見つかったファイルを read で開く、という流れになります。
ただ、このやり方はシンプルな反面、大量のファイルや長いファイルを読むと token をかなり消費する のが弱点です。LLM系のエージェントにとって token は「読み書きできる量」みたいなものなので、無駄に食うとかなり痛い。

Sembleはそこをかなり真正面から改善していて、必要なコード片だけを返す ことで、grep + read に比べて 約98%少ない token で済む、としています。これはかなり野心的で、正直おもしろいと思いました。

この記事の主張をざっくり言うと

SembleのREADMEで強調されているポイントは次の通りです。

速い
平均的なリポジトリを約250msで index し、query 応答は約1.5ms
高精度
benchmark 上で NDCG@10 が 0.854
※NDCG@10 は「上位10件の検索結果がどれだけ役に立つ順に並んでいるか」を測る指標です。高いほど良いです。
トークン効率が高い
関係あるコード断片だけ返すので、読む量が減る
ゼロセットアップに近い
CPUだけで動き、API keyもGPUも外部サービスも不要
MCP server として使える
Claude Code、Cursor、Codex、OpenCode などから使いやすい
ローカルもリモートも対応
ローカルの path だけでなく git URL も扱える

このへんを見ると、Sembleは「単なる検索ライブラリ」ではなく、エージェントの作業効率を上げるための実用品として設計されているのがわかります。ここが重要です。

何がそんなにうれしいのか

個人的にいちばん魅力を感じるのは、**“エージェントにちょうどいい情報量”を返す設計**です。

コード検索って、昔からある問題なのに、AIと組み合わせると急に難しくなるんですよね。
人間なら検索結果が多少多くても「まあ、ざっと見ればいいか」で済みます。でもAIは、読む量が増えるとすぐ token を食い、文脈が散らかり、結果として精度も落ちやすい。

Sembleは、そこを「全文を読ませる」のではなく、必要な断片だけを返す という発想で解いています。
この考え方はかなり筋がいいと思います。AIに大量のコードを丸投げするより、最初から狙い撃ちで絞るほうが賢い。人間のペアプロでも、まず関連箇所だけ見せてもらえたほうが助かりますしね。

使い方のイメージ

READMEでは、Sembleは自然言語で検索できると説明されています。

たとえば、

"authentication flow"
"save_pretrained"
"save model to disk"

のようなクエリを投げると、grep のように単語一致だけで探すのではなく、「その機能を実装している場所」っぽいコード断片を返してくれます。

これは地味ですが、実はかなり大きいです。
たとえば「認証の流れどこだっけ？」というとき、文字列として auth が入っている場所だけでは不十分なことが多い。login、session、token、middleware など、関連語はたくさんあります。Sembleのようなツールは、そこを意味ベースで探すのが売りです。

`find_related` も面白い

Sembleには find_related という機能もあります。これは、あるファイルと行番号を指定すると、そこに似たコードを探してくれるものです。

これ、かなり便利そうです。
「この関数と似た実装を他にも探したい」とか、「同じパターンを別の場所でどう書いているか見たい」という場面は多いです。
コードベースが大きくなるほど、こういう“似たもの探し”の価値は上がります。個人的には、単純検索よりこっちのほうが AI 時代っぽいなと思いました。

MCP server や AGENTS.md 連携が実用的

Sembleは MCP server として動かせます。MCPは、ざっくり言うと「AIツールが外部機能とやり取りするための共通の接続口」みたいなものです。
これを使うと、Claude Code や Cursor などから Semble を呼び出せます。

さらに README では、AGENTS.md や CLAUDE.md に設定を書いて、Bash 経由で使う方法も案内されています。
つまり、エージェントに“コード検索の標準装備”として組み込める わけです。

これが何を意味するかというと、エージェントが何かを調べるたびに、毎回雑に全ファイルを読む必要がなくなる、ということです。
AI開発のボトルネックって、意外とモデルの賢さそのものより、適切な情報を適切な量だけ渡すことだったりします。Sembleはその問題にかなり正面から取り組んでいる印象です。