概要

このリポジトリは「2025 CCF BDCI 大数据与计算智能大赛」の DeepSearch（英博云 - 基于FlashRAG的智能DeepSearch系统设计）トラック向けに作られたソリューション実装です。コンペ期間中に短期間で構築されたプロトタイプながら、FlashRAG を中核に据えたRAGパイプラインを構築し、検索（retrieval）と生成（generation）を統合した設計で高スコアを達成。READMEには経緯、チーム情報、成績（A榜 Top 5 / B榜 Top 7）や評価時のデータ漏洩問題への言及があり、学習・再現のための最小限の実装が含まれます。（約300字）

リポジトリの統計情報

スター数: 13
フォーク数: 1
ウォッチャー数: 13
コミット数: 5
ファイル数: 3
メインの言語: Python

主な特徴

FlashRAGベースのシンプルなRAGパイプライン実装
コンペ向けに最適化された推論スクリプト（inference.py）
短期間で動作する実用的なプロトタイプ、学習用として最適
READMEに設計意図と競技での成績、問題点の記録あり

技術的なポイント

本プロジェクトは、Retrieval-Augmented Generation（RAG）の実践的な適用例として価値があります。中心技術は「FlashRAG」と呼ばれる軽量化・高速化を意識したRAG変種で、主に次の要素で構成される想定です：まずドキュメントコーパスから埋め込みを計算し（sentence-transformer系やOpenAI embeddingsを想定）、高速なベクトル検索で候補文書を取得。次に取得文書をプロンプトテンプレートに組み込み、外部LLMへ投げて最終応答を生成します。コンペ環境では候補生成の多様性（複数Kの取得）、取得後のフィルタリングや簡易的なリランキング、プロンプト設計（コンテキスト長管理、指示文の工夫）が勝敗に直結します。実装は Python で最低限のファイル構成に抑え、inference.py は推論フロー（ベクトル検索→プロンプト生成→LLM呼び出し→出力整形）を担う想定。READMEからはデータセットの扱い（BrowseComp / WebWalker が評価に影響した点）や短期間での試行錯誤のログが読み取れ、実務やコンペでの運用上の注意（データリーク、評価分布の偏り）も示唆されています。（約700字）

プロジェクトの構成

主要なファイルとディレクトリ：

assets: dir
inference.py: file
readme.md: file

（assets フォルダはプロンプトテンプレート、サンプルデータ、モデルやベクトルDB設定用の小ファイル群などを含むことが想定されます。inference.py は推論用エントリポイントで、ベクトル検索→プロンプト組立→LLM呼び出しのフローを実装しています。）

まとめ

短期間で作られた実践的RAGプロトタイプ。学習・競技実装の出発点として有用。

リポジトリ情報：

名前: DeepSearch-FlashRAG
説明: 2025 CCF BDCI DeepSearch 赛道 Top 方案
スター数: 13
言語: Python
URL: https://github.com/liongliong/DeepSearch-FlashRAG
オーナー: liongliong
アバター: https://avatars.githubusercontent.com/u/91876676?v=4

READMEの抜粋：

2025 CCF BDCI - 基于 FlashRAG 的智能 DeepSearch 系统设计

队伍名称：不是有效的JSON格式

最终成绩：A榜 Top 5 / B榜 Top 7

（本文は公開されているリポジトリ内容とREADMEの抜粋に基づく要約・解説です。実際の実装詳細はリポジトリ参照のうえ確認してください。）

DeepSearch-FlashRAG — FlashRAGベースのスマートDeepSearch設計