DEPO:LLMエージェントの二重効率性選好最適化

AI/ML

概要

DEPOは、LLMベースのエージェントを対象に「Dual-Efficiency(性能と効率性の両立)」を目標とした選好最適化手法のコード&データ公開リポジトリです。論文実験を再現するためのデータセット登録(dataset_info.json)や、実験設定をまとめたefficient_agent配下のYAMLファイル群、学習・評価に必要なスクリプト群が含まれており、研究者やエンジニアが論文の手法を実験・拡張しやすい構成になっています。設定ファイルを編集するだけでローカル環境で実験を始められる点が特徴です。

GitHub

リポジトリの統計情報

  • スター数: 4
  • フォーク数: 0
  • ウォッチャー数: 4
  • コミット数: 2
  • ファイル数: 10
  • メインの言語: Python

主な特徴

  • AAAI 2026論文に対応するコードとデータを公開:再現性重視のプロジェクト構成。
  • 設定駆動(YAML)で実験を管理:dataset_info.jsonとefficient_agent/*.yamlで柔軟に切り替え可能。
  • モジュラー実装:データ登録、エージェント、学習・評価パイプラインが分離され拡張しやすい。
  • 軽量でローカル実験に適した設計:小規模リソースでも始められるよう工夫あり。

技術的なポイント

DEPOのコアは「選好(preference)情報を用いた最適化」を、単純な性能向上だけでなく計算資源・レイテンシなどの効率性指標と同時に扱える点にあります。本リポジトリは論文で提案されたアルゴリズムの実験基盤を提供し、主に以下の技術要素が注目されます。

  1. 設定とデータの分離
  • データセット情報はDEPO/data/dataset_info.jsonで管理され、ファイルパスやメタ情報を外部に切り出すことで実験の再利用性を高めています。これにより複数データセットの比較やデータ差し替えが容易です。
  1. YAMLベースの実験設定
  • efficient_agent/*.yaml によって学習ハイパーパラメータ、モデル選択、評価基準、ログ設定などを統一的に記述可能。実験の再現性と一貫性を担保し、ハイパーパラメータ探索やアブレーションが管理しやすい設計です。
  1. 二重効率性の定式化と最適化ワークフロー
  • 論文名が示す通り、単一の報酬関数ではなく「性能」と「効率性」を同時に評価するための複合的な目的関数や選好ラベルの扱いが実装されています。実験基盤は、報酬モデルや選好データを読み込み、エージェントの行動生成・評価・更新のループを回せるようになっており、効率指標(例えば推論コストや平均応答時間)を学習目標に組み込める構造です。
  1. モジュール性と拡張性
  • エージェント実装はefficient_agent以下にまとまっており、異なる最適化手法や軽量化技術(例えば蒸留、パラメータ効率学習、キャッシュやバッチ化によるレイテンシ改善)を差し替えて評価できます。コードはPython中心で、既存のトレーニングループや評価スクリプトとの統合を容易にする構成です。
  1. 再現性・実験管理の配慮
  • READMEにある通り、実行前にdataset_info.jsonとYAML設定を編集する手順が明記されており、ローカル環境での再現実験を重視しています。実験ログやメトリクスの出力先をYAMLで指定でき、比較実験を体系的に行うための基盤が整えられています。

総じて、DEPOは論文のアイデアを実験ベースで検証・拡張できる「設定駆動の研究基盤」を提供しており、効率性(コスト)を評価軸に組み込む点で実運用を意識した設計が伺えます。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .DS_Store: file
  • LICENSE: file
  • README.md: file
  • data: dir
  • efficient_agent: dir

…他 5 ファイル

(使い始めの流れ)

  1. DEPO/data/dataset_info.json をローカルデータのパスに更新。
  2. DEPO/efficient_agent/*.yaml を編集して実験設定を整える。
  3. 学習・評価スクリプトを実行して結果を確認。READMEとProject Pageに詳細が記載されています。

まとめ

論文実験を再現し、効率性を重視したLLMエージェント研究を手早く始められる実用的なリポジトリです。

リポジトリ情報:

READMEの抜粋:

DEPO

This is the official data and code of the paper: DEPO: Dual-Efficiency Preference Optimization for LLM Agents

Project Page: Link

1) Configure Paths

Before training, update both of the following:

  • Dataset registry

    DEPO/data/dataset_info.json

    Point each dataset entry to your local files.

  • Experiment configs

    DEPO/efficient_agent/*.yaml

    Edit any fields tha…