RefBib — 論文PDFから正確なBibTeXを抽出

Tool

概要

RefBibは、学術PDFの参考文献セクションを解析して標準的なBibTeXエントリへ変換することに特化したオープンソースツールです。特徴は「No AI, no hallucinations」という方針で、抽出した参照文字列をそのまま推測で生成するのではなく、GROBIDによる構造化パースで得たメタデータや、CrossRef・Semantic Scholar・DBLPのような確立された学術データベースへの照合結果を使って正確なBibTeXを構築します。ユーザー操作は極めてシンプルで、PDFを投入すれば自動的に参照が整形され.bibファイルとして出力されるため、論文執筆や文献管理の工数を大幅に削減します。

GitHub

リポジトリの統計情報

  • スター数: 14
  • フォーク数: 0
  • ウォッチャー数: 14
  • コミット数: 12
  • ファイル数: 9
  • メインの言語: TypeScript

主な特徴

  • PDFをドロップしてワンクリックで.bibを生成するシンプルなワークフロー
  • GROBIDによる信頼性の高い構造化パースと、CrossRef/Semantic Scholar/DBLPによる外部照合を組み合わせた参照解決
  • 大規模言語モデルを使わない方針で、誤情報(ハルシネーション)の回避を重視
  • TypeScriptで実装され、バックエンド中心の軽量構成を想定

技術的なポイント

RefBibの技術的核は「抽出→正規化→照合→出力」のパイプラインにあります。まずGROBIDのようなPDF-to-TEI/構造化テキストツールで参考文献ブロックを抽出し、個々の参照文字列を著者・タイトル・会議名・年などのフィールドへ分解します。次に、その分解情報を用いて外部サービスに問い合わせを行います。主な照合先はCrossRef(DOI→BibTeX変換)、Semantic Scholar(論文メタデータと識別子の照合)、DBLP(主にコンピュータサイエンス領域のデータ)で、これらを優先的に用いることで手元の文字列に対して「一次情報に基づく」正確なエントリを取得します。

照合では複数ソースからの結果を統合し、重複やバリエーション(表記揺れ)を解決するためのマッチングロジックが必要です。タイトルの類似度比較(正規化・小文字化・句読点削除)、著者行の正規化、年・巻・ページ情報の確認といったルールベースの処理が有効です。APIレート制限や未登録の文献に対しては、GROBIDが返す構造化メタデータを最終手段として用い、必要に応じて最低限のBibTeXエントリを生成します。

実装面ではTypeScriptを用いたバックエンドが中心で、HTTPクライアントの実装、非同期処理(多数の参照に対する並列問い合わせ)、エラー処理(タイムアウトや部分的失敗のフォールバック)、およびBibTeXの正確なシリアライズが重要です。また、各外部APIのライセンスや利用規約に配慮しつつ、再現性のある出力を保証するためにキャッシュやログを整備するのが現実的な運用設計です。RefBibは「生成」ではなく「照合」に重点を置くことで、研究・引用の信頼性を確保しています。

(上記はリポジトリのREADMEと一般的なワークフローに基づく紹介で、実装の細部はソースを参照してください。)

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • CLAUDE.md: file
  • LICENSE: file
  • README.md: file
  • backend: dir

…他 4 ファイル

バックエンドディレクトリには、PDF処理と外部API連携を担うコードが含まれている想定です。GROBIDとの通信、CrossRef/Semantic Scholar/DBLPへの問い合わせ、BibTeX生成ロジック、APIキー管理やエラーハンドリングの実装がここに集約されている可能性があります。

まとめ

PDFから信頼できるBibTeXを迅速に生成する、実用性の高い参照抽出ツールです。

リポジトリ情報:

READMEの抜粋:

RefBib

Extract all references from an academic PDF and get standard BibTeX entries — in one click.

Drop a PDF, get .bib. That’s it.

No AI, no hallucinations. RefBib does not use large language models. Every BibTeX entry comes from verified academic databases — CrossRef, Semantic Scholar, and DBLP — or directly from GROBID’s structured PDF parse. Nothing is genera…