Epsteinファイル — LLM最適化ヒエラルキー索引システム
概要
Epstein Filesは、米下院監視委員会のJeffrey Epsteinコレクションに含まれる2,897件の歴史的文書を対象に、LLMでの探索・検索を効率化する目的で作られた階層型索引システムです。原文データ本体(約60.7MB)をそのまま保持しつつ、665KB程度の戦略的に構成された索引群(マスター索引、分類別インデックス、要約)を用いることで、LLMへ投げるコンテキスト量を大幅に削減しつつ必要な情報へ迅速に到達できる設計になっています。Anthropic Claude向けのワークフローやプロンプト設計を意識し、MITライセンスで公開されています。
リポジトリの統計情報
- スター数: 14
- フォーク数: 3
- ウォッチャー数: 14
- コミット数: 4
- ファイル数: 16
- メインの言語: 未指定
主な特徴
- 階層化された索引設計(マスター索引+専門インデックス+要約)で高速な探索を実現。
- 約60.7MBの全文データに対して665KBの索引のみで高いカバレッジを達成(トークン削減率約95%をうたう)。
- Anthropic ClaudeなどLLMと連携するための最適化(プロンプト設計や要約の粒度調整を意識)。
- MITライセンスで再利用可能、研究・検証用途に適したメタデータ中心の提供。
技術的なポイント
このプロジェクトの核心は「最小限のメタデータで最大限のナビゲーション性を提供する」ことにあります。具体的には、原文ファイル群を直接フルコンテキストでLLMに渡すのではなく、まずマスター索引(高レベルの目次・参照)を用いて関連文書の候補を絞り込み、そこから専門カテゴリ別インデックス(たとえば書簡、法的文書、位置情報など)や要約テキストにドリルダウンする流れを想定しています。索引自体は665KBと小さく抑えられており、LLMへ送るコンテキストのコスト(トークン数)を劇的に削減します。
実装面では、索引はプレーンテキストやMarkdownベースのファイル群として構成されているため、特別な依存やビルド手順を必要とせず、任意のリトリーバルパイプラインに組み込めます。READMEではHaiku 4.5やAnthropic Claudeとの親和性が示されており、要約の粒度や検索キーをLLMの挙動に合わせて設計することで、問い合わせ→候補絞込→該当文書の全文参照、という効率的なワークフローが実現可能です。
また、規模的なトレードオフとして「索引の小ささ」と「索引から復元可能な検索精度」のバランスが重視されています。大規模埋め込みベースのベクター検索とは異なり、ここでは人間が读取しやすく編集可能な階層索引を採用しているため、透明性と追跡可能性が高く、法的文書の検証作業やアーカイブ研究に向きます。一方で、意味的な類似検索や曖昧検索の自動化を強化する場合は、外部で埋め込み生成やベクターDBと組み合わせることが推奨されます。最後にデータは公的記録に基づくものですが、利用に際しては出典の明示と倫理的配慮が必要です。
プロジェクトの構成
主要なファイルとディレクトリ:
- .claude: dir
- CLAUDE.md: file
- INDEX_CORRESPONDENCE.md: file
- INDEX_LEGAL.md: file
- INDEX_LOCATIONS.md: file
…他 11 ファイル
まとめ
LLM中心の調査ワークフローに適した、軽量で実践的な階層索引セット。
リポジトリ情報:
- 名前: epstein-files
- 説明: Epstein files: LLM-optimized hierarchical index system for 2,897 historical documents. Navigate 60.7 MB using 665 KB of strategic indexes—master index, specialized categories, and summaries—saving 95% of context tokens while maintaining full dataset access.
- スター数: 14
- 言語: null
- URL: https://github.com/ChrisSc/epstein-files
- オーナー: ChrisSc
- アバター: https://avatars.githubusercontent.com/u/893430?v=4