概要

OPFVは「Future off-policy evaluation & learning under non-stationarity」を掲げるリポジトリで、時間変化（非定常性）を伴う環境下でのオフライン評価・学習を扱います。既存のオフポリシー評価（importance samplingやdoubly robust等）を将来推定に適用・拡張し、環境のドリフトや時間依存性を考慮した評価指標や実験パイプラインを整備することを目的としています。Open Bandit Pipelineとの連携やDockerを使った再現可能な実行環境が用意されており、研究実験や比較評価に適した実装群を含みます（約300字）。

リポジトリの統計情報

スター数: 11
フォーク数: 1
ウォッチャー数: 11
コミット数: 5
ファイル数: 10
メインの言語: Python

主な特徴

非定常（時間変化）を考慮した将来オフポリシー評価／学習の実装・実験パイプライン
Open Bandit Pipeline（OBP）との連携を想定した設計
Python >= 3.12 環境向け、Dockerで再現可能な実行環境
MITライセンスで研究目的の利用や改変が容易

技術的なポイント

OPFVは「時間変化するデータ分布下でのオフポリシー評価（OPE）」という課題にフォーカスしています。従来のOPEは収集済みログに基づき過去のポリシーや対象ポリシーの期待報酬を推定しますが、環境が非定常だと過去の推定が将来にそのまま適用できない問題が生じます。本リポジトリでは、時間的な分布シフト（コンテキスト分布や報酬モデルの変化）を明示的に扱うための設計がなされている点が特徴です。技術的には、重要度サンプリング（IS）や重み付け、Doubly Robust（DR）型推定量に時間重みや窓関数を導入する手法、モデルベース推定とモデル修正による将来予測、時系列的なクロスバリデーションや時間分割による評価プロトコルを想定しています。また、OBPスタックとの連携により、バンディット評価の既存実装と統合しやすく、複数の評価指標や粒度（時刻別・期間別）での比較が可能です。Dockerfileや .github ワークフローにより再現性とCI連携を確保している点も実験リポジトリとしての重要な利点です。（約700字）

プロジェクトの構成

主要なファイルとディレクトリ：

.github: dir
.gitignore: file
Dockerfile: file
LICENSE: file
README.md: file

…他 5 ファイル

まとめ

非定常環境でのオフポリシー評価を研究実験向けに整備した軽量な実装集です。（50字程度）

リポジトリ情報：

名前: opfv
説明: 説明なし
スター数: 11
言語: Python
URL: https://github.com/tatsu432/opfv
オーナー: tatsu432
アバター: https://avatars.githubusercontent.com/u/80372303?v=4

READMEの抜粋：

OPFV
Future off-policy evaluation & learning under non-stationarity

OPFV — 非定常下における将来オフポリシー評価と学習

OPFV — 非定常下における将来オフポリシー評価と学習

概要

リポジトリの統計情報

主な特徴

技術的なポイント

プロジェクトの構成

まとめ

OPFV
Future off-policy evaluation & learning under non-stationarity

OPFV — 非定常下における将来オフポリシー評価と学習

概要

リポジトリの統計情報

主な特徴

技術的なポイント

プロジェクトの構成

まとめ

OPFVFuture off-policy evaluation & learning under non-stationarity

OPFV
Future off-policy evaluation & learning under non-stationarity