OPFV — 非定常下における将来オフポリシー評価と学習

AI/ML

概要

OPFVは「Future off-policy evaluation & learning under non-stationarity」を掲げるリポジトリで、時間変化(非定常性)を伴う環境下でのオフライン評価・学習を扱います。既存のオフポリシー評価(importance samplingやdoubly robust等)を将来推定に適用・拡張し、環境のドリフトや時間依存性を考慮した評価指標や実験パイプラインを整備することを目的としています。Open Bandit Pipelineとの連携やDockerを使った再現可能な実行環境が用意されており、研究実験や比較評価に適した実装群を含みます(約300字)。

GitHub

リポジトリの統計情報

  • スター数: 11
  • フォーク数: 1
  • ウォッチャー数: 11
  • コミット数: 5
  • ファイル数: 10
  • メインの言語: Python

主な特徴

  • 非定常(時間変化)を考慮した将来オフポリシー評価/学習の実装・実験パイプライン
  • Open Bandit Pipeline(OBP)との連携を想定した設計
  • Python >= 3.12 環境向け、Dockerで再現可能な実行環境
  • MITライセンスで研究目的の利用や改変が容易

技術的なポイント

OPFVは「時間変化するデータ分布下でのオフポリシー評価(OPE)」という課題にフォーカスしています。従来のOPEは収集済みログに基づき過去のポリシーや対象ポリシーの期待報酬を推定しますが、環境が非定常だと過去の推定が将来にそのまま適用できない問題が生じます。本リポジトリでは、時間的な分布シフト(コンテキスト分布や報酬モデルの変化)を明示的に扱うための設計がなされている点が特徴です。技術的には、重要度サンプリング(IS)や重み付け、Doubly Robust(DR)型推定量に時間重みや窓関数を導入する手法、モデルベース推定とモデル修正による将来予測、時系列的なクロスバリデーションや時間分割による評価プロトコルを想定しています。また、OBPスタックとの連携により、バンディット評価の既存実装と統合しやすく、複数の評価指標や粒度(時刻別・期間別)での比較が可能です。Dockerfileや .github ワークフローにより再現性とCI連携を確保している点も実験リポジトリとしての重要な利点です。(約700字)

プロジェクトの構成

主要なファイルとディレクトリ:

  • .github: dir
  • .gitignore: file
  • Dockerfile: file
  • LICENSE: file
  • README.md: file

…他 5 ファイル

まとめ

非定常環境でのオフポリシー評価を研究実験向けに整備した軽量な実装集です。(50字程度)

リポジトリ情報:

READMEの抜粋:

OPFV
Future off-policy evaluation & learning under non-stationarity

Python License: MIT Open Bandit Pipeline