TDRM: 時間差分で滑らかにする報酬モデル(TDRM)
2025/9/19
TDRMは「Smooth Reward Models with Temporal Difference for LLM RL and Inference」という研究の実装リポジトリで、報酬モデル(Reward Model)学習に時間差分(Temporal Difference, TD)手法を導入することで、LLMを用いた強化学習(RL)や推論時スコアリングの安定化と滑らかさを狙います。本リポジトリは論文コード、設定ファイル、解析用スクリプトを含み、RLHFや報酬設計の実運用に向けた実装例を提供します。(約300字)