MAPO: 混合アドバンテージ方策最適化(MAPO)
2025/9/24
本リポジトリは「MAPO: MIXED ADVANTAGE POLICY OPTIMIZATION」の実装を提供します。著者らによる arXiv 論文(2509.18849)に基づき、複数のアドバンテージ推定を混合して方策勾配の分散とバイアスを制御し、学習の安定性とサンプル効率を改善することを目的とした手法を扱います。小規模ながら論文のコア部分を再現するためのコードと補助ファイルを含み、研究目的の検証や拡張に利用できます。(約300字)