PDFの「目次」を掘り起こして、RAGに章単位で読ませる話
PDFに目次ページはあるのに、機械が使えるアウトラインが入っていないことがある その場合でも、リンク付きの目次なら比較的きれいに復元できる もっと厄介なのは、ただ印刷されているだけの目次。ここでは「見出し」と「実際のページ位置」を別々に扱う必要がある この記事の面白いところは、PDFの中に書かれている情報を、かなり地道に読み直して `toc_df` を作り直す発想にある RAG(検索拡張生成)では、章ごとに範囲を切れるかどうかが地味に効く。ここを外すと、検索も要約も雑になりやすい この記事が扱っているのは、かなり「あるある」なPDFの悩みです。人間が開くと、きちんと目次ページがある。ところがPDFビューアのブックマーク欄は空っぽ。つまり、ページ上には文字として目次が印刷されているのに、ソフトウェアが使える構造情報としては入っていない、という状態です。 著者はこれを、RAGシステムの文脈でかなり実務的に見ています。文書解析の段階で `toc_df` という表を作るのですが、ここには `level`、`title`、`start_page`、`end_page`、`brea
papoo.work