TinyZeroWithSFT の紹介:小型モデルで学ぶ自己検証と探索
2025/12/2
TinyZeroWithSFT は、DeepSeek R1 Zero の再現実験を小規模に実装したリポジトリです。カウントダウンや乗算といったタスクを対象に、veRL をベースにした強化学習(RL)と SFT(教師あり微調整)を組み合わせ、3B級のベース言語モデルに自己検証(self‑verification)や探索(search)能力を獲得させる手法を提示します。低コスト(<$30)で実験可能な点も特徴です。