vision_model 関連記事まとめ（1件）

RAGで画像を“読む”方法：kapa.aiがたどり着いた、画像をテキスト化する設計

技術ドキュメントの画像には、説明を補う画像と答えそのものを持つ画像の2種類がある画像を毎回モデルに読ませると、コスト・容量・精度の面でつらい解決策はシンプルで、画像を問い合わせ時ではなく、索引作成時に一度だけ説明文へ変換することその説明文を通常のテキストchunkと一緒に検索することで、RAGが画像も扱えるようになる実運用では、不要画像のフィルタリングと周辺テキストを使ったcaption生成がかなり重要画像を別chunkとして保存する方式が、コスト面でも使い勝手でも有利だった 3つの顧客プロジェクトで、画像を入れた回答は品質が有意に改善した kapa.ai の記事は、RAG（Retrieval-Augmented Generation、検索で集めた情報を使って回答する仕組み）における画像の扱いを、かなり実務寄りに解説しています。率直に言うと、これはすごく地味だけど、かなり賢い設計だと思いました。多くの人は「画像も入れたいなら、vision model にその都度見せればいいのでは？」と考えがち

papoo.work

#vision_model