RAGで画像を“読む”方法:kapa.aiがたどり着いた、画像をテキスト化する設計
技術ドキュメントの画像には、説明を補う画像と答えそのものを持つ画像の2種類がある 画像を毎回モデルに読ませると、コスト・容量・精度の面でつらい 解決策はシンプルで、画像を問い合わせ時ではなく、索引作成時に一度だけ説明文へ変換すること その説明文を通常のテキストchunkと一緒に検索することで、RAGが画像も扱えるようになる 実運用では、不要画像のフィルタリングと周辺テキストを使ったcaption生成がかなり重要 画像を別chunkとして保存する方式が、コスト面でも使い勝手でも有利だった 3つの顧客プロジェクトで、画像を入れた回答は品質が有意に改善した kapa.ai の記事は、RAG(Retrieval-Augmented Generation、検索で集めた情報を使って回答する仕組み)における画像の扱いを、かなり実務寄りに解説しています。 率直に言うと、これはすごく地味だけど、かなり賢い設計だと思いました。 多くの人は「画像も入れたいなら、vision model にその都度見せればいいのでは?」と考えがち
papoo.work