概要

EnConda-Benchは、Pythonプロジェクトの環境構成（パッケージ依存、環境変数、設定ファイル、インストールスクリプトなど）に関する現実的な障害を対象に、AIエージェントの能力を評価するためのエンドツーエンドなベンチマークです。本プロジェクトは、単なる成功/失敗のスコアではなく「プロセスレベルの軌跡（trajectory）」を重視し、エージェントがどのように問題を探索し、解決策を提案・適用したかの時系列的な挙動を収集・評価できます。Dockerを用いた再現実行環境、評価コード、推論用モジュール、ベンチ用データセットが含まれており、LLMベースの補助や自動修復エージェントの比較実験に適した設計になっています。

リポジトリの統計情報

スター数: 34
フォーク数: 1
ウォッチャー数: 34
コミット数: 2
ファイル数: 10
メインの言語: Python

主な特徴

問題発見から修復までの「プロセス軌跡」を評価するフレームワーク設計
Dockerベースで再現可能な環境を提供し、実際の依存性トラブルを再現
評価スクリプトと推論モジュールにより、複数のエージェントやLLMの一括比較が可能
ベンチマーク用データセット（Benchmark_Data）や評価基準を同梱

技術的なポイント

EnConda-Benchの技術的な核は「プロセスレベルの軌跡（trajectory）評価」にあります。多くのベンチマークが最終結果のみを評価するのに対して、本プロジェクトはエージェントの行動列（コマンド実行、ファイル変更、診断出力、リトライやロールバック等）を時系列で記録し、探索・修復戦略の有効性や効率を定量化します。実装面ではDockerfilesフォルダに用意された複数のコンテナ設定で環境を固定化し、Inferenceフォルダのエージェントラッパーが標準入出力を介して操作を自動化します。Evaluationディレクトリには成功率、修復までのステップ数、時間、無駄な試行（冗長コマンド）などのメトリクスを算出するスクリプトがあり、定量比較が容易です。Benchmark_Dataは典型的な依存衝突やバージョン不一致、インストールスクリプトの失敗ケースを含み、現実的な障害パターンでエージェントを試験できます。さらに、プロジェクトは結果再現のためのログ保存と差分解析をサポートしており、エージェントの振る舞い解析やデバッグに適しています（約700字）。

プロジェクトの構成

主要なファイルとディレクトリ：

.DS_Store: file
Benchmark_Data: dir
Dockerfiles: dir
Evaluation: dir
Inference: dir
README.md: file
requirements.txt: file
run_benchmark.py: file
utils.py: file
LICENSE: file

…他 5 ファイル

まとめ

プロセス軌跡重視の実践的ベンチで、環境設定エージェント評価に有用。

リポジトリ情報：

名前: EnConda-Bench
説明: Code for paper “Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents”
スター数: 34
言語: Python
URL: https://github.com/TencentYoutuResearch/EnConda-Bench
オーナー: TencentYoutuResearch
アバター: https://avatars.githubusercontent.com/u/45961649?v=4

READMEの抜粋：

EnConda-Bench: Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents

A comprehensive benchmark framework for evaluating AI agents’ performance on Python environment configuration tasks.

🌟 Project Overview

EnConda-Bench is an end-to-end environment configuration benchmark system specifically designed to evaluate the capabilities of large language models and AI agents in identifying, analyzing, and fixing Python environment configuration errors. …

EnConda-Bench — Python環境構成評価ベンチマーク