DeepSearch-FlashRAG — FlashRAGベースのスマートDeepSearch設計
概要
このリポジトリは「2025 CCF BDCI 大数据与计算智能大赛」の DeepSearch(英博云 - 基于FlashRAG的智能DeepSearch系统设计)トラック向けに作られたソリューション実装です。コンペ期間中に短期間で構築されたプロトタイプながら、FlashRAG を中核に据えたRAGパイプラインを構築し、検索(retrieval)と生成(generation)を統合した設計で高スコアを達成。READMEには経緯、チーム情報、成績(A榜 Top 5 / B榜 Top 7)や評価時のデータ漏洩問題への言及があり、学習・再現のための最小限の実装が含まれます。(約300字)
リポジトリの統計情報
- スター数: 13
- フォーク数: 1
- ウォッチャー数: 13
- コミット数: 5
- ファイル数: 3
- メインの言語: Python
主な特徴
- FlashRAGベースのシンプルなRAGパイプライン実装
- コンペ向けに最適化された推論スクリプト(inference.py)
- 短期間で動作する実用的なプロトタイプ、学習用として最適
- READMEに設計意図と競技での成績、問題点の記録あり
技術的なポイント
本プロジェクトは、Retrieval-Augmented Generation(RAG)の実践的な適用例として価値があります。中心技術は「FlashRAG」と呼ばれる軽量化・高速化を意識したRAG変種で、主に次の要素で構成される想定です:まずドキュメントコーパスから埋め込みを計算し(sentence-transformer系やOpenAI embeddingsを想定)、高速なベクトル検索で候補文書を取得。次に取得文書をプロンプトテンプレートに組み込み、外部LLMへ投げて最終応答を生成します。コンペ環境では候補生成の多様性(複数Kの取得)、取得後のフィルタリングや簡易的なリランキング、プロンプト設計(コンテキスト長管理、指示文の工夫)が勝敗に直結します。実装は Python で最低限のファイル構成に抑え、inference.py は推論フロー(ベクトル検索→プロンプト生成→LLM呼び出し→出力整形)を担う想定。READMEからはデータセットの扱い(BrowseComp / WebWalker が評価に影響した点)や短期間での試行錯誤のログが読み取れ、実務やコンペでの運用上の注意(データリーク、評価分布の偏り)も示唆されています。(約700字)
プロジェクトの構成
主要なファイルとディレクトリ:
- assets: dir
- inference.py: file
- readme.md: file
(assets フォルダはプロンプトテンプレート、サンプルデータ、モデルやベクトルDB設定用の小ファイル群などを含むことが想定されます。inference.py は推論用エントリポイントで、ベクトル検索→プロンプト組立→LLM呼び出しのフローを実装しています。)
まとめ
短期間で作られた実践的RAGプロトタイプ。学習・競技実装の出発点として有用。
リポジトリ情報:
- 名前: DeepSearch-FlashRAG
- 説明: 2025 CCF BDCI DeepSearch 赛道 Top 方案
- スター数: 13
- 言語: Python
- URL: https://github.com/liongliong/DeepSearch-FlashRAG
- オーナー: liongliong
- アバター: https://avatars.githubusercontent.com/u/91876676?v=4
READMEの抜粋:
2025 CCF BDCI - 基于 FlashRAG 的智能 DeepSearch 系统设计
队伍名称:不是有效的JSON格式
最终成绩:A榜 Top 5 / B榜 Top 7
(本文は公開されているリポジトリ内容とREADMEの抜粋に基づく要約・解説です。実際の実装詳細はリポジトリ参照のうえ確認してください。)