LinearRAG — 大規模コーパス向け線形GraphRAG(Relation-free)

AI/ML

概要

LinearRAGは、GraphRAGと呼ばれる「検索強化生成(Retrieval-Augmented Generation)」のうち、グラフ構造を用いた拡張をより効率化するための手法と実装を提供するリポジトリです。本プロジェクトの核心は「relation-free(関係情報を明示的に付与しない)」なグラフ構築で、これはグラフノード間のエッジを関係ラベルやLLMによる関係推定に依存せず生成するアプローチを指します。READMEでは「グラフ構築時のLLMトークンコストを排除する」ことを強調しており、これにより大規模コーパスでも線形(スケールしやすい)に動作することを目標としています。リポジトリには論文へのリンクや実験用スクリプト、簡潔な実装が含まれ、研究の再現や実運用での評価がしやすくなっています。

GitHub

リポジトリの統計情報

  • スター数: 11
  • フォーク数: 0
  • ウォッチャー数: 11
  • コミット数: 12
  • ファイル数: 5
  • メインの言語: Python

主な特徴

  • relation-freeなグラフ構築により、グラフ生成時にLLMのトークンコストを発生させない。
  • 大規模コーパスでも「線形スケーリング」を目指す設計で高速・低コスト。
  • GraphRAGパイプラインの効率化に焦点を当てた実装と実験コードを収録。
  • Pythonで軽量にまとめられており、実験再現や拡張が容易。

技術的なポイント

LinearRAGが提案する「relation-free」方針は、従来のGraphRAGにおける“ノード間に意味的ラベル(関係)を付与するためにLLMを利用する”というプロセスを省く点に特徴があります。通常、関係ラベル付与にはプロンプトを用いたLLM呼び出しが必要であり、大規模データではトークンコストとレイテンシが問題になります。本プロジェクトでは、関係ラベルなしでノード間の接続を構築することで、そのコストを根本的に削減します。結果としてグラフ構築は外部モデル呼び出しをほとんど伴わないため、処理が軽量化され、入力サイズに対して線形に近い時間・メモリ効率で扱える点が利点です。

技術的に期待される手法の要素は以下の通りです(リポジトリの説明に基づく推定も含むため、実装の詳細は実コードを参照してください)。

  • トークンベースのLLM処理を避ける代わりに、ベクトル埋め込み(dense embeddings)や近傍検索による類似度に基づくノード接続を行う可能性が高い。これにより、外部APIコストを発生させずに大規模データを処理できる。
  • グラフは「関係ラベルを持たない無向/有向の近傍グラフ」または「重み付き類似度エッジ」によって表現され、後段のRAGエンジンはこの構造を用いて文脈選択やスパースな伝播を行う。
  • 構築アルゴリズムは線形時間/空間が目標であり、チャンク化やストリーミング処理、インデックス化(例:ANNやメモリ効率の良いデータ構造)と相性が良い設計が想定される。
  • 性能面のトレードオフとして、明示的な関係情報を持たないことで細粒度の推論や因果的な関係理解が弱まる可能性があるが、検索品質と生成精度のバランスを実験で示すことが期待される。

READMEの冒頭にはarXivリンクや実験結果を示すバッジが配置されており、論文に基づく理論的根拠とコード実行による再現性の両方を重視しています。実際の利用では、既存のRAG/GraphRAG実装に対してグラフ構築部分だけを置き換えることで、コスト削減とスケール改善の恩恵が得られる設計になっている点が実務的にも有用です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • figure: dir
  • readme.md: file
  • requirements.txt: file
  • run.py: file
  • src: dir

(run.pyやsrc配下に、データ処理・グラフ構築・評価スクリプトが含まれている想定。requirements.txtで依存ライブラリを管理。)

まとめ

GraphRAGのグラフ構築コストを排し大規模運用を目指す実用的な実装。再現・統合が容易。

リポジトリ情報:

READMEの抜粋:

LinearRAG: Linear Graph Retrieval-Augmented Generation on Large-scale Corpora

A relation-free graph construction method for efficient GraphRAG. It eliminates LLM token costs during graph construction, making GraphRAG faster and more efficient than ever.

arXiv:2506.08938