pdf2epub-paddle — スキャンPDFをEPUBに変換するPaddleOCRツール
2026/2/5
本リポジトリは、スキャンされた書籍PDFを「読みやすいEPUB」に変換するためのツールです。BaiduのPaddleOCR Layout Analysis APIを利用してページレイアウトを解析し、段落・見出し・画像・表を識別、見出しに基づく自動章分割や画像の埋め込みによって原稿の体裁を保ちながら電子書籍を生成します。OCRによるテキスト抽出と後処理(正規表現による見出し検出や段落結合)を組み合わせ、スキャン本を手早くEPUB化するワークフローを提供します(約300字)。