DR Tulu — 深層研究(Deep Research)向け強化学習モデル
2025/11/18
本リポジトリ「dr-tulu」は、長尺の研究タスク(Deep Research, DR)に特化した強化学習(RL)フレームワークと実験資産を収めたものです。論文・データ・モデル(Hugging Faceコレクション)・ブログ・デモ映像と連携し、進化する採点基準(evolving rubrics)を導入して言語モデルの長文生成と評価を共同最適化することを目的としています。DR Tulu-8Bなどのモデルや学習ループ、エージェント実装、評価資産が含まれ、研究複製や拡張の出発点として使えます(約300字)。