世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと「テキストだけでなく画像もまとめて検索できるようになった」こと、そして「検索の根拠をページ単位で示しやすくなった」ことです。

これ、地味に見えてかなり重要です。RAG（検索拡張生成）を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。

キーポイント

File Searchがmultimodal対応
テキストだけでなく、画像も一緒に扱えるようになった
custom metadataに対応
ファイルに department: Legal のようなラベルを付けて、整理・絞り込みしやすくなる
page-level citationsを追加
どのページを根拠に答えたかを示しやすくなり、透明性が上がる
RAGをより「実用」寄りに改善
プロトタイプだけでなく、業務アプリでも使いやすくなる方向
Googleは効率性と検証性を強く意識
ただ賢いだけでなく、「ちゃんと説明できるAI」を目指しているのが見える

そもそもRAGって何？

RAGは Retrieval-Augmented Generation の略で、日本語では「検索拡張生成」と呼ばれることが多いです。

難しく聞こえますが、考え方はシンプルです。

まず資料を探す
見つけた資料をもとに
AIが回答を作る

つまり、AIにいきなり答えさせるのではなく、外部の資料を読ませてから答えさせる仕組みです。

これの良いところは、AIが「それっぽい嘘」を言いにくくなること。
個人的には、RAGの価値って「賢さ」よりも安心して使えることにあると思っています。特に業務用途では、ここが本当に大事です。

今回のアップデートは何がすごいのか

1. 画像とテキストを一緒に検索できるようになった

従来の検索は、どうしてもテキスト中心になりがちでした。
でも現実の資料って、文字だけじゃないですよね。

製品カタログの図
デザイン資料のスクリーンショット
研究資料のグラフ
契約書の図表や注釈
仕様書に埋め込まれた図版

こういう情報は、画像の中にしか意味がないことも多いです。

Googleによると、File Searchは画像とテキストをまとめて処理できるようになり、Gemini Embedding 2 modelによってnative image dataを理解するとのこと。
要するに、「画像ファイルもただの添付物ではなく、検索対象としてちゃんと見てくれる」わけです。

たとえば、クリエイティブ制作の現場で
「落ち着いた雰囲気の、青基調のビジュアルを探したい」
みたいな曖昧な依頼でも、キーワード検索だけよりずっと探しやすくなります。

これはかなり面白いです。
検索って本来、文字列を一致させる作業ではなくて、**“人間の意図を探し当てる作業”**なんですよね。画像対応は、その本来の方向に近づいた感じがあります。

2. custom metadataでファイル整理がしやすくなる

今回のアップデートでは、custom metadata も追加されました。
これは、ファイルに自分で好きなラベルを付けられる機能です。

例としてはこんな感じです。

department: Legal
status: Final
project: Alpha
region: Japan

これが何に効くかというと、データが増えたときの整理です。

ファイル検索の難しさって、「とりあえず全部突っ込めばいい」では終わらないところにあります。
資料が増えるほど、AIに渡す前の段階で

どの資料を優先するか
どの版が最新版か
どの部署の資料か
を管理しないと、検索結果が雑になります。

custom metadataは、いわば資料に付けるタグです。
検索対象を賢く絞り込めるので、大規模な運用ではかなり効いてくるはずです。

正直、こういう機能が一番「地味だけど本当に助かる」枠だと思います。
AIの派手なデモより、こういう実務向けの改善のほうが、現場では刺さることが多いです。

3. page-level citationsで根拠が見えやすくなる

今回のもう1つの重要ポイントが、page-level citations です。
これは、AIの答えが資料の何ページを根拠にしているかを示しやすくする機能です。

AIの弱点としてよく言われるのが、「もっともらしいけど、どこを見てそう言ったの？」問題です。
RAGはその弱点を減らすための仕組みですが、さらにページ単位で引用できるようになると、ユーザーは確認しやすくなります。

たとえば社内文書で

この規程はどこに書いてある？
この仕様変更の根拠は？
この数字はどの資料から取った？

といった質問に対して、答えと一緒に参照ページがわかれば、かなり安心です。

これは単なる便利機能ではなくて、AIの信頼性を上げるための土台だと思います。
生成AIは「答える」だけなら簡単に見えるけれど、業務で必要なのは答えた理由を説明できることなんですよね。

どんな場面で役立つのか

Googleは、このFile Searchを

週末のプロトタイプ作成
本番環境での大規模運用

のどちらにも使えるものとして紹介しています。

実際、使い道はかなり広そうです。

例1: 社内ナレッジ検索

社内マニュアル、議事録、図表入りの説明資料をまとめて検索して、質問に答える。

例2: クリエイティブ資産の検索

過去の広告素材やデザイン案を、画像の雰囲気や内容で探す。

例3: 文書レビュー支援

契約書や規程文書を検索し、該当ページを示しながら内容を確認する。

例4: 研究・技術資料の探索

論文、スライド、図表を含む資料から、必要な根拠を拾い上げる。

こうして見ると、今回のアップデートは「AIが賢くなった」というより、AIを仕事に組み込みやすくしたアップデートだと感じます。

個人的にここが重要だと思う

私が特に注目しているのは、Googleが今回の発表でefficient, verifiable RAG という方向をはっきり打ち出していることです。

この2つの単語、かなり本質的です。

efficient = 効率よく動く
verifiable = 確かめられる

AIは派手にしゃべれるだけでは足りません。
実運用では、速くて、整理しやすくて、根拠を追えることが大事です。

しかも今回は、テキストだけでなく画像まで対象にしている。
ここがかなり今っぽいです。現実の資料はもう「文章だけの世界」ではないので、マルチモーダル対応は自然な流れだと思います。

まとめ

Gemini APIのFile Searchは、今回のアップデートでかなり実務向けに進化しました。

特に大きいのは、

画像とテキストを一緒に検索できる
メタデータで整理できる
参照ページを示しやすい

この3点です。

RAGはもともと「AIの回答を資料で支える」ための仕組みですが、Googleはそこをさらに一歩進めて、**“資料をちゃんと扱えるAI検索基盤”**に近づけてきた感じがあります。

個人的には、こういうアップデートはかなり歓迎です。
AIの未来って、ただ会話が上手になることではなく、仕事の中でちゃんと使えることだと思うので。

参考: Gemini API File Search is now multimodal: build efficient, verifiable RAG

同じ著者の記事

AIエージェントに「状態」というルールを与えるStatewrightとは何か

Statewrightは、AIエージェントが使えるツールを状態ごとに制限するための guardrails（安全柵）です。発想はシンプルで、「モデルを賢くする」のではなく「問題を小さくする」こと。たとえば「調査中」「実装中」「テスト中」で、使える機能を変えます。これにより、AIが同じファイルを何度も読み続ける“空回り”や、危険な操作を防ぎやすくなります。 Claude Code、Codex、Cursor、opencode、Pi などと連携できる設計です。個人的には、これは「AIに自由を与えすぎない」という意味でかなり筋がいいと思います。いまのAIエージェントは便利ですが、放っておくと案外すぐ迷子になるので、この発想はかなり実用的です。 Statewrightは、GitHub上で公開されているオープンソースのプロジェクトで、説明としては 「State machine guardrails for AI agents」 とあります。ざっくり言うと、AIエージェントに対して今は何をしてよいかどのツールを使ってよいかどの操作は禁止か次の段階に進む条件は