PaPoo
cover
technews
Author
technews
世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

Gemini API File Searchがマルチモーダル対応に。RAGをもっと実用的にするGoogleの新アップデート

Googleが、Gemini APIのFile Searchツールを大きくアップデートしました。今回のポイントは、ざっくり言うと​「テキストだけでなく画像もまとめて検索できるようになった」​こと、そして​「検索の根拠をページ単位で示しやすくなった」​ことです。

これ、地味に見えてかなり重要です。RAG(検索拡張生成)を実際にアプリへ入れようとすると、「欲しい情報がうまく見つからない」「どの資料のどこを根拠に答えたのか説明しにくい」といった壁にぶつかりがちなんですよね。Googleはそこを、かなり実務寄りに改善してきた印象です。

キーポイント

そもそもRAGって何?

RAGは Retrieval-Augmented Generation の略で、日本語では「検索拡張生成」と呼ばれることが多いです。

難しく聞こえますが、考え方はシンプルです。

  1. まず資料を探す
  2. 見つけた資料をもとに
  3. AIが回答を作る

つまり、AIにいきなり答えさせるのではなく、​外部の資料を読ませてから答えさせる仕組みです。

これの良いところは、AIが「それっぽい嘘」を言いにくくなること。
個人的には、RAGの価値って「賢さ」よりも安心して使えることにあると思っています。特に業務用途では、ここが本当に大事です。

今回のアップデートは何がすごいのか

1. 画像とテキストを一緒に検索できるようになった

従来の検索は、どうしてもテキスト中心になりがちでした。
でも現実の資料って、文字だけじゃないですよね。

こういう情報は、​画像の中にしか意味がないことも多いです。

Googleによると、File Searchは画像とテキストをまとめて処理できるようになり、Gemini Embedding 2 modelによってnative image dataを理解するとのこと。
要するに、「画像ファイルもただの添付物ではなく、検索対象としてちゃんと見てくれる」わけです。

たとえば、クリエイティブ制作の現場で
「落ち着いた雰囲気の、青基調のビジュアルを探したい」
みたいな曖昧な依頼でも、キーワード検索だけよりずっと探しやすくなります。

これはかなり面白いです。
検索って本来、文字列を一致させる作業ではなくて、​**“人間の意図を探し当てる作業”**なんですよね。画像対応は、その本来の方向に近づいた感じがあります。

2. custom metadataでファイル整理がしやすくなる

今回のアップデートでは、​custom metadata も追加されました。
これは、ファイルに自分で好きなラベルを付けられる機能です。

例としてはこんな感じです。

これが何に効くかというと、​データが増えたときの整理です。

ファイル検索の難しさって、「とりあえず全部突っ込めばいい」では終わらないところにあります。
資料が増えるほど、AIに渡す前の段階で

custom metadataは、いわば資料に付けるタグです。
検索対象を賢く絞り込めるので、大規模な運用ではかなり効いてくるはずです。

正直、こういう機能が一番「地味だけど本当に助かる」枠だと思います。
AIの派手なデモより、こういう実務向けの改善のほうが、現場では刺さることが多いです。

3. page-level citationsで根拠が見えやすくなる

今回のもう1つの重要ポイントが、​page-level citations です。
これは、AIの答えが資料の何ページを根拠にしているかを示しやすくする機能です。

AIの弱点としてよく言われるのが、​​「もっともらしいけど、どこを見てそう言ったの?」問題です。
RAGはその弱点を減らすための仕組みですが、さらにページ単位で引用できるようになると、ユーザーは確認しやすくなります。

image_0002.svg

たとえば社内文書で

といった質問に対して、答えと一緒に参照ページがわかれば、かなり安心です。

これは単なる便利機能ではなくて、​AIの信頼性を上げるための土台だと思います。
生成AIは「答える」だけなら簡単に見えるけれど、業務で必要なのは答えた理由を説明できることなんですよね。

どんな場面で役立つのか

Googleは、このFile Searchを

のどちらにも使えるものとして紹介しています。

実際、使い道はかなり広そうです。

例1: 社内ナレッジ検索

社内マニュアル、議事録、図表入りの説明資料をまとめて検索して、質問に答える。

例2: クリエイティブ資産の検索

過去の広告素材やデザイン案を、画像の雰囲気や内容で探す。

例3: 文書レビュー支援

契約書や規程文書を検索し、該当ページを示しながら内容を確認する。

例4: 研究・技術資料の探索

論文、スライド、図表を含む資料から、必要な根拠を拾い上げる。

こうして見ると、今回のアップデートは「AIが賢くなった」というより、​AIを仕事に組み込みやすくしたアップデートだと感じます。

個人的にここが重要だと思う

私が特に注目しているのは、Googleが今回の発表でefficient, verifiable RAG という方向をはっきり打ち出していることです。

この2つの単語、かなり本質的です。

AIは派手にしゃべれるだけでは足りません。
実運用では、速くて、整理しやすくて、根拠を追えることが大事です。

しかも今回は、テキストだけでなく画像まで対象にしている。
ここがかなり今っぽいです。現実の資料はもう「文章だけの世界」ではないので、マルチモーダル対応は自然な流れだと思います。

まとめ

Gemini APIのFile Searchは、今回のアップデートでかなり実務向けに進化しました。

特に大きいのは、

この3点です。

RAGはもともと「AIの回答を資料で支える」ための仕組みですが、Googleはそこをさらに一歩進めて、​**“資料をちゃんと扱えるAI検索基盤”**に近づけてきた感じがあります。

個人的には、こういうアップデートはかなり歓迎です。
AIの未来って、ただ会話が上手になることではなく、​仕事の中でちゃんと使えることだと思うので。


参考: Gemini API File Search is now multimodal: build efficient, verifiable RAG

同じ著者の記事