世界の技術ニュースをリアルタイムでキャッチし、日本語でわかりやすく発信。AI・半導体・スタートアップから規制動向まで、グローバルテックシーンの「今」をお届けします。

2026-06-04

RAGで画像を“読む”方法：kapa.aiがたどり着いた、画像をテキスト化する設計

記事のキーポイント

技術ドキュメントの画像には、説明を補う画像と答えそのものを持つ画像の2種類がある
画像を毎回モデルに読ませると、コスト・容量・精度の面でつらい
解決策はシンプルで、画像を問い合わせ時ではなく、索引作成時に一度だけ説明文へ変換すること
その説明文を通常のテキストchunkと一緒に検索することで、RAGが画像も扱えるようになる
実運用では、不要画像のフィルタリングと周辺テキストを使ったcaption生成がかなり重要
画像を別chunkとして保存する方式が、コスト面でも使い勝手でも有利だった
3つの顧客プロジェクトで、画像を入れた回答は品質が有意に改善した

まず結論：画像は“その場で見る”のではなく、“先に読んでおく”

kapa.ai の記事は、RAG（Retrieval-Augmented Generation、検索で集めた情報を使って回答する仕組み）における画像の扱いを、かなり実務寄りに解説しています。

率直に言うと、これはすごく地味だけど、かなり賢い設計だと思いました。
多くの人は「画像も入れたいなら、vision model にその都度見せればいいのでは？」と考えがちです。けれど、実際に大規模運用すると、毎回画像を読ませるのは高い・遅い・重い。しかも、画像が必要な回答はそこまで多くない。

そこでkapa.aiは、発想をひっくり返します。

問い合わせ時に画像を見るのをやめる
インデックス作成時（取り込み時）に一度だけ画像を説明文にする
その説明文を普通のテキストとして検索対象にする

これで、以後の検索・生成はほぼテキスト中心で回せます。
これはRAGの基本思想とも相性がいいです。RAGはもともと「重い処理は前もって済ませて、問い合わせ時はなるべく軽く」という思想に向いていますから、画像にもそれを当てはめたわけですね。

技術ドキュメントの画像は、思ったより重要

記事では、実際の顧客質問をたくさん見たうえで、画像には大きく2種類あると整理しています。

1. 説明を補う画像

たとえば、

「設定アイコンをクリックしてください」
その横に、どのアイコンかがわかるスクリーンショットがある

こういう画像です。

この場合、文字だけでも情報は伝わるのですが、画像があると「どこを押せばいいか」が一気にわかりやすくなります。
つまり、画像は答えの本体ではなく、行動しやすくするための補助です。

2. 答えそのものを持つ画像

こちらはもっと重要です。たとえば、

配線図
仕様表
認証一覧
色の対応表
回路図

のようなものです。

こういう画像は、画像の中にしか答えがないことがあります。
ここが面白いところで、画像は「見やすさ」だけの問題ではないんですよね。画像そのものがデータベースになっているケースがある。これは、ハードウェアや半導体、製品ドキュメントではかなり現実的です。

個人的には、この整理はとても本質的だと思いました。
「画像は飾り」ではなく、「画像は情報源」になりうる。ここを見誤ると、RAGの品質はあっさり崩れます。

なぜ問い合わせ時に画像を見せる方式ではダメなのか

最初に考えつくのは、検索で関連しそうなテキストを拾って、その周辺の画像もまとめて vision model に渡す方法です。
でもkapa.aiは、これを実運用で試した結果、かなり厳しいと判断しています。

理由は3つです。

1. コストが上がりすぎる

記事によると、raw image をそのまま扱うと、1リクエストあたりのコストがかなり増えます。

GPT系では 27%増
Claude系では 51%増

しかも、サービス全体で見ると「画像が必要な質問」は一部です。
それなのに、毎回画像処理の料金を払うのは無駄が大きい、というわけです。

これは現場感のある判断だと思います。
理論上は「画像も見れば精度が上がる」ですが、SaaSの運用では精度だけでは決められない。コストは正義です。

2. そもそも入りきらない

RAGでは、1つの質問に対して複数のchunk（文章のかたまり）が拾われます。
そのchunkが参照している画像を全部持ってくると、件数がすぐ膨らみます。

記事では、平均でも 20〜30枚、長い尾では 130枚超 になるとあります。
Claude は 30MB、OpenAI は 50MB の制限があるので、画像をたくさん詰め込むと簡単に限界に達します。

つまり、そもそも全部は見せられない。
見せる枚数を絞ると、今度は画像の意味が薄れる。なかなか嫌な状況です。

3. 画像の“細部”が検索しにくい

CLIP系の埋め込み（画像や文をベクトル化して近さで検索する仕組み）は便利ですが、技術ドキュメントの世界では弱点があります。

表や図の細かい差分
画像内の文字
注釈付きスクリーンショットの細部

こういう細かい情報が重要なのに、ベクトル検索ではそこがぼやけやすい。
短い質問文「Xの設定はどうする？」と画像ベクトルをうまく合わせるのも難しい。

要するに、技術文書の画像検索は、見た目以上に相性が悪いということです。

解決策はシンプル：画像を一度だけ“説明文”にする

kapa.ai の答えは、かなり割り切っています。

問い合わせ時に画像を読ませるのではなく、取り込み時に一度だけ画像を説明文へ変換する

流れはこうです。

インデックス作成時に vision language model を使って画像を説明する
その説明文を保存する
通常のテキストchunkと一緒に検索する
回答時には、画像そのものではなく説明文をモデルに渡す
元画像はURLで参照する

これなら、重い画像解析は一回だけです。
以降はテキスト検索なので、RAGのパイプラインがかなり素直になります。

ここで大事なのは、caption（画像説明）が単なる「alt text」の代用品ではないことです。
記事では、説明画像なら「何が写っているか」を、答えを持つ図表なら「表の値や図のラベル」を、必要なら文字起こしに近い形で記述するとしています。

つまり、画像を“雰囲気”で要約するのではなく、情報として再表現するわけです。
この発想はかなり強いです。

画像をテキストに落とすと、何がうれしいのか

一番大きい利点は、検索の土俵を揃えられることです。

RAGの検索は基本的にテキストが得意です。
なら、画像もテキストにしてしまえばいい。
すると、普通の文章と同じように関連性を判定できるようになります。

たとえば、色の対応表を考えてみてください。
画像をそのまま雑に抽出すると、表の構造が崩れて「何色が何に対応するか」が曖昧になりがちです。
でも、取り込み時にちゃんと説明文として保存しておけば、検索で拾えるし、回答もズレにくい。

記事が強調しているのは、画像が“答え”の場合こそ、テキスト化が効くという点です。
これ、地味ですが超重要です。
RAGの失敗って、だいたい「情報を持っているのに検索できない」ことで起きるので、先に構造を整えておくのは理にかなっています。

実運用では、まず“不要画像”を捨てる

とはいえ、画像を片っ端からcaption化すればいいわけではありません。
世の中の画像は、だいぶ雑多です。

ロゴ
アバター
SNSのプレビューカード
装飾バナー
意味の薄いイラスト

こういうものまで全部処理すると、コストのわりに得るものが少ない。

そこでkapa.aiは、まずヒューリスティクス（ざっくりしたルール）で明らかに不要なものを落としています。
さらに残った画像に対して、multimodal embedding を使ったゼロショット分類を行います。

結果として、

クリアな画像では 96.8% accuracy
あいまいな画像では 59.8% まで落ちる

としています。

ここが正直でいいところです。
「あいまいな画像はモデルでも判定しにくい」とはっきり認めている。
これは欠点というより、問題の本質は文脈不足だという話です。

たとえば、カウントダウンタイマーのスクリーンショットは、

単なる装飾バナーにも見える
チュートリアルの手順3にも見える

つまり、ピクセルだけでは区別できない。
この手の画像は、前後の文章と一緒に見ないと意味が決まりません。

個人的には、ここはAIの限界というより、人間が見ても文脈がないと判断しにくい領域だと思います。
だからこそ、context-aware classification（周辺文脈を使う分類）が次の一手になる、という話には納得感があります。

caption生成は、モデルの大きさより“周辺テキスト”が効く

captionを作るとき、何が効くのか。記事によると、重要なのは2つです。

1. 画像の前後の文章

画像単体を見せるより、前後の段落を一緒にモデルへ渡すと品質がかなり上がるそうです。

たしかに、ファイルアップロードのダイアログを見ただけでは、
「ただのWebページのフォーム」にしか見えません。
でも、前後の説明があれば、

どの製品の話か
どの操作手順の何番目か
どの機能の画面か

がわかる。
captionは、この文脈込みで初めて“検索に使える情報”になるわけです。

2. 高価なモデルは必ずしも必要ない

記事では、Claude 4.6 Sonnet から GPT 5.4 nano まで比較していて、
GPT 5.4 mini くらいの小さめモデルで十分よい結果だったとしています。

しかも、かなり安い。
大きいモデルを使えば何でもよくなる、というわけではないのが面白いところです。

これは現場ではかなり大事です。
画像の説明文なんて、毎回“超天才モデル”で生成する必要はない。
そこそこ賢くて、安くて、速いモデルのほうが、全体最適では勝ちやすい。私はここ、かなり実務的で好きです。

画像の保存方法は「別chunk」が勝った

captionをどう検索に載せるかも、実験しています。

方式A: inline

文書の中の画像を、本文の一部として混ぜ込む方法です。
イメージとしては、画像の説明を既存のchunkに埋め込む形。

方式B: separate

captionを独立したchunkとして保存する方法です。
本文はそのまま、画像説明だけ別の検索単位にする。

最初は inline のほうがよさそうに見えます。
だって、画像のすぐ近くにある文章と一緒に扱えるからです。

でも、結果はseparate の勝ちでした。

理由はシンプルで、inline は caption を含む chunk が毎回長くなり、画像に関係ない質問でも余計な情報を運んでしまうからです。
一方、separate なら、必要なときだけ検索で引っかかる。

結果として、

GPTでは、inline が per-query cost を 19%増
separate は 6%増
Claudeでは、separate がむしろ text-only より少し安い

という差が出ています。

これはかなり納得感があります。
RAGって、欲張って情報を混ぜすぎると逆に弱くなるんですよね。
「情報は近くにあるほどいい」は半分正しいけれど、検索システムでは独立した単位にしたほうがヒットしやすいことが多い。ここは実装者なら頷く人が多いはずです。

結果：画像を入れると、回答はちゃんと良くなった

記事の最終結果はかなり明快です。

3つの顧客プロジェクトで、GPT 5.1 と Claude 4.6 Sonnet を使って検証したところ、画像キャプションを入れた回答は、

画像が回答中で引用された割合: 10%〜64%
回答品質: text-only より有意に改善
1リクエストあたりのコスト: +1%〜6%
レイテンシ（最初の応答が出るまでの時間）: ほぼ維持
モデルの不確実性: 変化なし、またはやや低下
インデックス作成時の一回コスト: あり

さらに、画像は 94%〜99% の確率で正しく配置されたとしています。

この数字の何がすごいかというと、「画像を入れたら劇的に遅くなる」わけではなく、かなり小さい追加コストで効果が出ていることです。
しかも、回答品質はちゃんと上がっている。

派手ではないけれど、こういう改善が本当に強い。
実運用では、1問あたりの精度が少し上がるだけでも、サポートの手間や再質問率がじわじわ下がります。
私はこのタイプの改善が、いちばんプロダクト価値に効くと思っています。

この記事の面白さは、「画像AI」ではなく「検索設計」にある

この記事は、見た目には「vision model をどう使うか」の話に見えます。
でも本質は、むしろ検索設計の話です。

ポイントは、画像を無理に“その場で理解させる”ことではなく、

先に理解しておく
テキストに変換する
検索できる形にする
必要なときだけ使う

という流れに落とし込んだことです。

この設計は、かなりRAGらしいです。
RAGは、モデルの賢さだけで勝つものではなく、どんな情報を、どの形で、どのタイミングで渡すかで勝負が決まります。
kapa.ai はそこを、画像でもきっちりやった。そこが面白いし、重要だと思います。

個人的には、「画像をAIに見せれば何とかなる」という雑な発想より、
「画像を一度テキスト化して、検索のルールに乗せる」という発想のほうが、よほど実装として強いと感じました。
地味ですが、プロダクトはたいていこういう地味な勝ち方をします。

参考: How we index images for RAG - kapa.ai - Instant AI answers to technical questions

同じ著者の記事

【2026年7月版】Teamsの通知トラブル、実は「消えない」「減った」の2系統に分かれている

「Teamsで通知が届かない・音が鳴らない」というガイドは2025年3月ごろから定番のネタとして各所で書かれてきた。1年以上経った今もう一度読み直してみると、当時のチェックリストは今でも土台としては有効だが、2026年に入ってから起きている不具合は、当時想定されていなかった種類のものだとわかる。代表格が2つある。ひとつは4月中旬から報告が相次いだ「通知がデスクトップに張り付いたまま消えない」不具合。もうひとつは、Plannerのタスクチャット刷新に伴って意図的に仕様変更された「コメント通知が来なくなった」現象だ。前者はバグ、後者は仕様変更——原因が真逆なのに、ユーザー側からはどちらも「通知がおかしい」としか見えない。本稿ではこの2つを軸に、旧来のチェックリストをどう位置づけ直せばいいかを整理する。 --- 症状が「来ない」のか「消えない」のか「減った」のかで、疑うべき場所が変わる。 | 症状 | まず疑うもの | 対処 | |---|---|---| | バナーも音も一切来ない | 3層構造（後述）のどこかでオフになっている | 下記「3層」を上から順に確認

papoo.work

口座から引き落とされる「ゆうちょリヨウキヨク」とは？

ゆうちょ銀行の通帳やアプリを久しぶりに記帳したら、身に覚えのない「ゆうちょリヨウキヨク20595」のような行を見つけて青ざめた——という報告はSNSでも定期的に見かける。結論から言うと、これは不正利用の証拠ではなく、ゆうちょ銀行のATMネットワークが取引記録に付与する局番号入りの取扱店識別子だ。中身は難しくない。エンジニア視点で見ると、レガシーな勘定系システムが抱えがちな「表示制約」の実例として面白い。まず引っかかるのが、コンビニで下ろしたはずなのに「ゆうちょ」と印字される点だ。ファミリーマートに設置されている緑色のATMは、実はファミリーマート自前の機械ではなく、ゆうちょ銀行が設置・運用しているATMである。つまりコンビニのATMを使っても、勘定系から見れば「ゆうちょのATMを使った」という扱いになり、通帳には郵便局の窓口やATMで取引したときと同じフォーマットで記録が残る。ローソンやミニストップなど他チェーンでも同様の提携パターンがあり、見た目のブランドと処理系統が一致しないケースは珍しくない。「リヨウキヨク」の後ろに続く5桁の数字は、取引が行われた取扱局（支店・ATM

papoo.work

ChatGPTの「Something went wrong」、本当の原因はエラーメッセージの外側にある

「Something went wrong」——ChatGPTを使っていれば誰でも一度は見る、あの素っ気ない一文だ。以前このテーマを書いたときは原因と対処法を並べる形にしたが、半年ほど経って改めて見直すと、あの一文自体がほとんど何も語っていないことに気づく。フロントエンドが「予期しないエラーを捕捉した」ときの汎用キャッチ文であって、実際に起きていることは毎回まったく別物だ。今回は原因の切り分け方から書き直す。 ChatGPTのWeb UIはReactで組まれたSPAで、APIとのやり取りはストリーミング(Server-Sent Events)で行われる。サーバー側で429(レート超過)が返ろうが524(オリジンタイムアウト)が返ろうが、ストリームが途中で切れようが、フロントエンドの例外ハンドラは大半のケースをひとまとめにして「Something went wrong」に丸め込む。つまりこのメッセージは診断名ではなく、診断を放棄した結果の表示だ。原因を絞り込みたいなら、まずブラウザの開発者ツール(F12)でNetworkタブを開き、`conversation`宛のリクエストが何を返して

papoo.work

ChatGPTで「Something went wrong」が出る理由【2026年7月版：障害ポストモーテムとステータスページの読み方まで】

「Something went wrong. If this issue persists please contact us through our help center at help.openai.com.」——ChatGPT利用者なら一度は見たことがあるであろう定番のエラーだ。半年前に書かれた解説記事は「サーバー混雑」「セッション切れ」「ブラウザ拡張機能」といった原因を並べていたが、2026年7月時点ではその前提だけでは足りない。理由は3つある。(1) 2026年2月の大規模障害についてOpenAI自身が技術的な根本原因をポストモーテムで公開した、(2) わずか1週間前の7月14〜15日にも同系統の障害が再発した、(3) モデル・プラン・機能面が半年で別物になった（GPT-4→GPT-5.6、Free/Plus二択→Go追加、Library・Notes・音声モードの新設）ことで、エラーの出方と切り分け方自体が変わった。本稿はエンジニア向けに、表面的な対処法だけでなく「なぜ起きるか」の技術的背景まで掘り下げる。 > ⚠️ 注記: ChatGPTは

papoo.work

Excelのフォントが変わる原因を、.xlsxを解凍して確かめてみた

「テーマフォントが原因」というところまでは、探せば辿り着ける。だが実際にファイルの中で何が参照し合っているのかを見た人は少ない。.xlsxはただのZIPなので、覗くのに5分もかからない。手元の適当なブックで試すなら、拡張子を`.zip`に変えるか`unzip`コマンドを叩くだけでいい。 ``` $ unzip -l sample.xlsx Length Date Time Name --------- ---------- ----- ---- 1234 2026-07-01 09:00 xl/theme/theme1.xml 5678 2026-07-01 09:00 xl/styles.xml ... 2345 2026-07-01 09:00 xl/worksheets/sheet1.xml ``` 犯人は`xl/theme/theme1.xml`にいる。中を`cat`すると、こんな塊が出てくる。 ```xml <a:fontScheme name="Office"> <a:majorFont> <a:latin typeface="

papoo.work

Claude の Effort、実は3段階じゃない——xhigh/maxまで含めた5段階の使い分けとAPI仕様を深掘りする

以前の記事「[Claude の effort ってどう効くの？](https://note.com/modern_ferret431/n/nc8e88b771ab0)」では、Effortパラメータを Low / Medium / High の3段階として紹介した。実際のClaude APIはもう一段深い。現行モデル（Opus 4.8/4.7、Sonnet 5、Fable 5）では low / medium / high / xhigh / max の5段階が存在し、しかも「thinkingの予算」だった旧`budget_tokens`とは効かせ方そのものが違う。本稿ではAPI仕様に基づいて、モデル別の対応状況・挙動の違い・実運用での設計指針を整理する。旧世代（Sonnet 4.5以前）の extended thinking は `thinking: {type: "enabled", budget_tokens: N}` という固定トークン予算の指定だった。「thinkingにいくら使うか」だけを制御する、いわば一次元のノブだ。 Opus 4.6以降ではこれが非推奨化

papoo.work

Claudeの「超過課金」は自動発生しない——note記事の補足と2026年6月の仕様変更

先日、[「Claudeは weekly limit や 5hours limit を突き破ったときのペナルティ料金が半端ない」](https://note.com/modern_ferret431/n/n821d3055d109) という記事が話題になった。Claude CodeやOpusでコードベース解析を回していると、10分足らずで従量課金が発生し得るという警告は実体験として貴重だが、エンジニアが実際に運用判断をする上で誤解しやすいポイントがいくつかある。本記事はその補足として、Anthropic公式ドキュメントに基づき仕組みを整理する。最大の誤解ポイントはここ。Claude Pro/Maxで週次・5時間の利用上限に達しても、Usage credits（超過課金）を明示的に有効化していない限り、追加料金は一切発生しない。上限に達した場合の既定動作は「リセットまで待つ」だけで、勝手にAPI従量課金へ切り替わることはない。有効化するには以下の手順が必要: `Settings > Usage` から Usage credits セクションで Enable をクリック

papoo.work

【2026年7月版】Outlookが「起動しない・クラッシュを繰り返す」最新事情 — 6月末の一斉クラッシュはビルド2605が原因、直し方はほぼ一択

「昨日まで普通に使えていたClassic Outlookが、右クリックした瞬間に落ちる」「起動してもすぐ強制終了し、次はセーフモードで開く」——2026年6月末から、この手の悲鳴がまた一気に増えた。半年前・1年前に書かれた「Outlookが起動しない完全解決ガイド」的な記事が今また読まれているのは、まさに今、Classic Outlookのクラッシュが立て続けに起きているからだ。本稿は、2026年前半に発生した複数のクラッシュ事案を発生時期・影響ビルド・原因・修正状況で整理し直し、「自分のケースはどれで、何をすれば直るか」を最短で切り分けられるようにしたものだ。結論から言うと、直近の主犯は更新プログラムの回帰（リグレッション）で、多くは“Officeを最新へ更新するだけ”で直る。設定を9個いじる前に、まずここを見たほうが早い。 > ⚠️ 先に結論: 2026年6月29日ごろから急にClassic Outlookが落ち始めたなら、疑うべきは自分の設定ではなく **Microsoft 365 Apps バージョン2605（Build 20026.20182

papoo.work

【2026年7月版】Outlookの「送信済みメールが消える」が再燃 — 犯人はWindows更新プログラム KB5074109 の可能性

「送信は成功したのに、送信済みアイテムに残っていない」——Outlookの定番トラブルが、2026年に入ってから再び相談件数を増やしている。半年前(2026年1月)に出回った解説記事の手順は今でも基本として有効だが、2026年に急増した“送信済みが消える”の主犯は、従来の設定ミスではなく Windows のセキュリティ更新プログラムそのものであることが分かってきた。本稿はその現況を、切り分け順に整理し直したものだ。 > ⚠️ 先に結論: 1月中旬以降にClassic Outlook(デスクトップ版)で急に「送信済みに入らない」「Outlookが固まる」が始まったなら、まず疑うべきは自分の設定ではなく 更新プログラム KB5074109 と PSTファイルの置き場所(OneDrive配下かどうか) だ。設定を10個いじる前に、ここを先に見たほうが早い。 --- 2026年1月のWindowsセキュリティ更新 KB5074109 導入後、**Classic Outlookで送信メールが「送信済みアイテム」に記録されない／Outlookが終了しない・フ

papoo.work

【続報】サナエトークン、ついに「当事者2人の法廷闘争」へ――三崎優太氏が溝口勇児氏に内容証明、いまどこまで進んだか

前回まで、私たちはサナエトークン騒動を「補償」「金融庁」「高市首相の否定」という3つの軸で追ってきた。補償は6月10日に申請サイトが開き、金融庁の損失相談は6月時点で5件、首相は国会で改めて全面否定――というのが直近の現在地だった。ところが騒動はここへ来て、まったく別の局面に入っている。行政・補償の話から、当事者どうしの個人間紛争、それも法廷闘争へと重心が移ったのだ。本稿はその続報である。 https://papoo.work/doc/7de9f0cf1b564dc9 実業家の三崎優太氏（元「青汁王子」）が、実業家の溝口勇児氏に内容証明を送付したと明かし、「きっと裁判になる」と法廷闘争を予告した。三崎氏は溝口氏とみられる人物の会議音声を公開し、「責任を他人になすりつけている（＝トカゲの尻尾切り）」と批判。溝口氏は「編集で切り取っている」「補償対応はやっている」と反論した。 6月26日、三崎氏は両者が共同運営していたYouTube番組「REAL VALUE」からの脱退を表明。ただし本稿執筆時点（7月7日）で、**正式な「提訴」の公

papoo.work