DeepSearch-FlashRAG — FlashRAGベースのスマートDeepSearch設計

AI/ML

概要

このリポジトリは「2025 CCF BDCI 大数据与计算智能大赛」の DeepSearch(英博云 - 基于FlashRAG的智能DeepSearch系统设计)トラック向けに作られたソリューション実装です。コンペ期間中に短期間で構築されたプロトタイプながら、FlashRAG を中核に据えたRAGパイプラインを構築し、検索(retrieval)と生成(generation)を統合した設計で高スコアを達成。READMEには経緯、チーム情報、成績(A榜 Top 5 / B榜 Top 7)や評価時のデータ漏洩問題への言及があり、学習・再現のための最小限の実装が含まれます。(約300字)

GitHub

リポジトリの統計情報

  • スター数: 13
  • フォーク数: 1
  • ウォッチャー数: 13
  • コミット数: 5
  • ファイル数: 3
  • メインの言語: Python

主な特徴

  • FlashRAGベースのシンプルなRAGパイプライン実装
  • コンペ向けに最適化された推論スクリプト(inference.py)
  • 短期間で動作する実用的なプロトタイプ、学習用として最適
  • READMEに設計意図と競技での成績、問題点の記録あり

技術的なポイント

本プロジェクトは、Retrieval-Augmented Generation(RAG)の実践的な適用例として価値があります。中心技術は「FlashRAG」と呼ばれる軽量化・高速化を意識したRAG変種で、主に次の要素で構成される想定です:まずドキュメントコーパスから埋め込みを計算し(sentence-transformer系やOpenAI embeddingsを想定)、高速なベクトル検索で候補文書を取得。次に取得文書をプロンプトテンプレートに組み込み、外部LLMへ投げて最終応答を生成します。コンペ環境では候補生成の多様性(複数Kの取得)、取得後のフィルタリングや簡易的なリランキング、プロンプト設計(コンテキスト長管理、指示文の工夫)が勝敗に直結します。実装は Python で最低限のファイル構成に抑え、inference.py は推論フロー(ベクトル検索→プロンプト生成→LLM呼び出し→出力整形)を担う想定。READMEからはデータセットの扱い(BrowseComp / WebWalker が評価に影響した点)や短期間での試行錯誤のログが読み取れ、実務やコンペでの運用上の注意(データリーク、評価分布の偏り)も示唆されています。(約700字)

プロジェクトの構成

主要なファイルとディレクトリ:

  • assets: dir
  • inference.py: file
  • readme.md: file

(assets フォルダはプロンプトテンプレート、サンプルデータ、モデルやベクトルDB設定用の小ファイル群などを含むことが想定されます。inference.py は推論用エントリポイントで、ベクトル検索→プロンプト組立→LLM呼び出しのフローを実装しています。)

まとめ

短期間で作られた実践的RAGプロトタイプ。学習・競技実装の出発点として有用。

リポジトリ情報:

READMEの抜粋:

2025 CCF BDCI - 基于 FlashRAG 的智能 DeepSearch 系统设计

队伍名称:不是有效的JSON格式

最终成绩:A榜 Top 5 / B榜 Top 7


(本文は公開されているリポジトリ内容とREADMEの抜粋に基づく要約・解説です。実際の実装詳細はリポジトリ参照のうえ確認してください。)