EnConda-Bench — Python環境構成評価ベンチマーク

AI/ML

概要

EnConda-Benchは、Pythonプロジェクトの環境構成(パッケージ依存、環境変数、設定ファイル、インストールスクリプトなど)に関する現実的な障害を対象に、AIエージェントの能力を評価するためのエンドツーエンドなベンチマークです。本プロジェクトは、単なる成功/失敗のスコアではなく「プロセスレベルの軌跡(trajectory)」を重視し、エージェントがどのように問題を探索し、解決策を提案・適用したかの時系列的な挙動を収集・評価できます。Dockerを用いた再現実行環境、評価コード、推論用モジュール、ベンチ用データセットが含まれており、LLMベースの補助や自動修復エージェントの比較実験に適した設計になっています。

GitHub

リポジトリの統計情報

  • スター数: 34
  • フォーク数: 1
  • ウォッチャー数: 34
  • コミット数: 2
  • ファイル数: 10
  • メインの言語: Python

主な特徴

  • 問題発見から修復までの「プロセス軌跡」を評価するフレームワーク設計
  • Dockerベースで再現可能な環境を提供し、実際の依存性トラブルを再現
  • 評価スクリプトと推論モジュールにより、複数のエージェントやLLMの一括比較が可能
  • ベンチマーク用データセット(Benchmark_Data)や評価基準を同梱

技術的なポイント

EnConda-Benchの技術的な核は「プロセスレベルの軌跡(trajectory)評価」にあります。多くのベンチマークが最終結果のみを評価するのに対して、本プロジェクトはエージェントの行動列(コマンド実行、ファイル変更、診断出力、リトライやロールバック等)を時系列で記録し、探索・修復戦略の有効性や効率を定量化します。実装面ではDockerfilesフォルダに用意された複数のコンテナ設定で環境を固定化し、Inferenceフォルダのエージェントラッパーが標準入出力を介して操作を自動化します。Evaluationディレクトリには成功率、修復までのステップ数、時間、無駄な試行(冗長コマンド)などのメトリクスを算出するスクリプトがあり、定量比較が容易です。Benchmark_Dataは典型的な依存衝突やバージョン不一致、インストールスクリプトの失敗ケースを含み、現実的な障害パターンでエージェントを試験できます。さらに、プロジェクトは結果再現のためのログ保存と差分解析をサポートしており、エージェントの振る舞い解析やデバッグに適しています(約700字)。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .DS_Store: file
  • Benchmark_Data: dir
  • Dockerfiles: dir
  • Evaluation: dir
  • Inference: dir
  • README.md: file
  • requirements.txt: file
  • run_benchmark.py: file
  • utils.py: file
  • LICENSE: file

…他 5 ファイル

まとめ

プロセス軌跡重視の実践的ベンチで、環境設定エージェント評価に有用。

リポジトリ情報:

READMEの抜粋:

EnConda-Bench: Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents

A comprehensive benchmark framework for evaluating AI agents’ performance on Python environment configuration tasks.

🌟 Project Overview

EnConda-Bench is an end-to-end environment configuration benchmark system specifically designed to evaluate the capabilities of large language models and AI agents in identifying, analyzing, and fixing Python environment configuration errors. …