文書解析関連記事まとめ（1件）

PDFの「目次」を掘り起こして、RAGに章単位で読ませる話

PDFに目次ページはあるのに、機械が使えるアウトラインが入っていないことがあるその場合でも、リンク付きの目次なら比較的きれいに復元できるもっと厄介なのは、ただ印刷されているだけの目次。ここでは「見出し」と「実際のページ位置」を別々に扱う必要があるこの記事の面白いところは、PDFの中に書かれている情報を、かなり地道に読み直して `toc_df` を作り直す発想にある RAG（検索拡張生成）では、章ごとに範囲を切れるかどうかが地味に効く。ここを外すと、検索も要約も雑になりやすいこの記事が扱っているのは、かなり「あるある」なPDFの悩みです。人間が開くと、きちんと目次ページがある。ところがPDFビューアのブックマーク欄は空っぽ。つまり、ページ上には文字として目次が印刷されているのに、ソフトウェアが使える構造情報としては入っていない、という状態です。著者はこれを、RAGシステムの文脈でかなり実務的に見ています。文書解析の段階で `toc_df` という表を作るのですが、ここには `level`、`title`、`start_page`、`end_page`、`brea

papoo.work

#文書解析