EnConda-Bench — Python環境構成評価ベンチマーク
概要
EnConda-Benchは、Pythonプロジェクトの環境構成(パッケージ依存、環境変数、設定ファイル、インストールスクリプトなど)に関する現実的な障害を対象に、AIエージェントの能力を評価するためのエンドツーエンドなベンチマークです。本プロジェクトは、単なる成功/失敗のスコアではなく「プロセスレベルの軌跡(trajectory)」を重視し、エージェントがどのように問題を探索し、解決策を提案・適用したかの時系列的な挙動を収集・評価できます。Dockerを用いた再現実行環境、評価コード、推論用モジュール、ベンチ用データセットが含まれており、LLMベースの補助や自動修復エージェントの比較実験に適した設計になっています。
リポジトリの統計情報
- スター数: 34
- フォーク数: 1
- ウォッチャー数: 34
- コミット数: 2
- ファイル数: 10
- メインの言語: Python
主な特徴
- 問題発見から修復までの「プロセス軌跡」を評価するフレームワーク設計
- Dockerベースで再現可能な環境を提供し、実際の依存性トラブルを再現
- 評価スクリプトと推論モジュールにより、複数のエージェントやLLMの一括比較が可能
- ベンチマーク用データセット(Benchmark_Data)や評価基準を同梱
技術的なポイント
EnConda-Benchの技術的な核は「プロセスレベルの軌跡(trajectory)評価」にあります。多くのベンチマークが最終結果のみを評価するのに対して、本プロジェクトはエージェントの行動列(コマンド実行、ファイル変更、診断出力、リトライやロールバック等)を時系列で記録し、探索・修復戦略の有効性や効率を定量化します。実装面ではDockerfilesフォルダに用意された複数のコンテナ設定で環境を固定化し、Inferenceフォルダのエージェントラッパーが標準入出力を介して操作を自動化します。Evaluationディレクトリには成功率、修復までのステップ数、時間、無駄な試行(冗長コマンド)などのメトリクスを算出するスクリプトがあり、定量比較が容易です。Benchmark_Dataは典型的な依存衝突やバージョン不一致、インストールスクリプトの失敗ケースを含み、現実的な障害パターンでエージェントを試験できます。さらに、プロジェクトは結果再現のためのログ保存と差分解析をサポートしており、エージェントの振る舞い解析やデバッグに適しています(約700字)。
プロジェクトの構成
主要なファイルとディレクトリ:
- .DS_Store: file
- Benchmark_Data: dir
- Dockerfiles: dir
- Evaluation: dir
- Inference: dir
- README.md: file
- requirements.txt: file
- run_benchmark.py: file
- utils.py: file
- LICENSE: file
…他 5 ファイル
まとめ
プロセス軌跡重視の実践的ベンチで、環境設定エージェント評価に有用。
リポジトリ情報:
- 名前: EnConda-Bench
- 説明: Code for paper “Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents”
- スター数: 34
- 言語: Python
- URL: https://github.com/TencentYoutuResearch/EnConda-Bench
- オーナー: TencentYoutuResearch
- アバター: https://avatars.githubusercontent.com/u/45961649?v=4
READMEの抜粋:
EnConda-Bench: Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents
A comprehensive benchmark framework for evaluating AI agents’ performance on Python environment configuration tasks.
🌟 Project Overview
EnConda-Bench is an end-to-end environment configuration benchmark system specifically designed to evaluate the capabilities of large language models and AI agents in identifying, analyzing, and fixing Python environment configuration errors. …