DAComp — データエージェント評価ベンチマーク
概要
DACompは、データ関連タスクを自律的に遂行する「データエージェント」を対象に、データライフサイクル全体をカバーする評価基盤を提供するプロジェクトです。リポジトリはPythonで実装され、タスク定義、評価ハーネス、サンプルエージェント、およびメタデータやアセットを含んでいます。論文、ウェブサイト、Hugging Face上のデータセットとも連携しており、研究コミュニティが比較研究・再現実験を行いやすい設計です。
リポジトリの統計情報
- スター数: 45
- フォーク数: 0
- ウォッチャー数: 45
- コミット数: 11
- ファイル数: 8
- メインの言語: Python
主な特徴
- データインテリジェンスのフルライフサイクル(発見→前処理→変換→解析→可視化→デプロイ)を網羅したベンチマーク設計。
- タスク定義と評価基準がモジュール化されており、エージェント実装の差分比較や拡張が容易。
- 論文(arXiv)・ウェブサイト・Hugging Faceデータセットと連携し、データと評価結果の公開・再現を支援。
- Pythonベースでサンプルコード/テンプレートが用意され、研究・実務での導入障壁が低い。
技術的なポイント
DACompの技術的中核は「評価ハーネス」と「タスクモジュール」の分離にあります。タスクモジュールは具体的なデータ関連作業(例:欠損値処理、結合、SQLクエリ生成、可視化生成など)を定義し、評価ハーネスがそれらに対する入力・期待出力・評価指標(正確さ、処理時間、冗長率、可読性など)を一元管理します。これにより、異なるエージェント(ルールベース・MLベース・大規模言語モデルを利用するもの)を同一基準で比較可能です。設計はプラグイン式で、エージェントインターフェース(API)はラッパー層を通じて統一され、ログ収集や実験の再現に必要なメタ情報(シード、依存パッケージ、実行環境)を自動記録します。さらに、Hugging Face上のデータセット連携により、多様な実データを用いた評価が容易になっており、論文で提示されたメトリクスと結果の再現性を高める仕組みも整備されています。これらは研究者が新しいエージェント戦略を実装して公平に比較検証するための基盤を提供する点で重要です。
プロジェクトの構成
主要なファイルとディレクトリ:
- .gitignore: file
- LICENCE: file
- README.md: file
- assets: dir
- dacomp-da: dir
…他 3 ファイル
(注)リポジトリはコンパクトにまとまっており、assets配下にロゴや図示素材、dacomp-da配下にコア実装やタスク定義、サンプルエージェントが配置されている想定です。READMEはプロジェクト概要、関連リンク(Website / Paper / Dataset)への導線を提供しています。
まとめ
データエージェントの性能比較と再現性ある評価を支援する実用的なベンチマーク基盤。
リポジトリ情報:
- 名前: DAComp
- 説明: DAComp:Benchmarking Data Agents across the Full Data Intelligence Lifecycle
- スター数: 45
- 言語: Python
- URL: https://github.com/ByteDance-Seed/DAComp
- オーナー: ByteDance-Seed
- アバター: https://avatars.githubusercontent.com/u/202897071?v=4
READMEの抜粋: