TinyZeroWithSFT の紹介:小型モデルで学ぶ自己検証と探索

AI/ML

概要

TinyZeroWithSFT は、DeepSeek R1 Zero の手法を小規模・低コスト環境で再現することを目的とした研究実装です。カウントダウン(countdown)や乗算(multiplication)といった合成タスクを題材に、veRL フレームワーク上で強化学習(RL)を用いた方策最適化を行い、3B クラスのベース言語モデルが自己検証や探索的推論を自律的に獲得する過程を観察します。リポジトリには実験結果のグラフや設定、実行スクリプトが含まれており、比較実験(SFT の有無など)を通した挙動解析に重点を置いています。

GitHub

リポジトリの統計情報

  • スター数: 6
  • フォーク数: 0
  • ウォッチャー数: 6
  • コミット数: 30
  • ファイル数: 33
  • メインの言語: Python

主な特徴

  • DeepSeek R1 Zero の再現実験を小規模に実施(カウントダウン・乗算タスク)
  • veRL を基盤とした RL パイプラインの実装・検証
  • SFT(教師あり微調整)あり/なしでの比較実験を収録
  • WandB ログや学習曲線による定量的な評価と可視化

技術的なポイント

本プロジェクトの技術的肝は「小型モデルでの RL による自己検証能力の獲得」を再現・解析する点にあります。具体的には、veRL 上で実装した方策最適化(リポジトリ内では GRPO 系の手法を用いた比較が示唆される)を通じ、3B クラスの言語モデルに対してタスク成功率を報酬信号として学習させます。SFT(教師あり微調整)は初期方策の改善・安定化に寄与し、SFT の有無で学習の収束速度や最終性能がどう変わるかを比較可能にしています。実験結果は学習曲線(validation スコア、応答長など)として保存され、GRPO_wo_SFT_* という図からは「SFT 無し」の挙動が可視化されていることが分かります。また WandB による実験ログを公開しており、超パラメータや報酬設計、評価プロトコルを再現するための情報が提供されています。全体として、巨大モデルを用いずに済むことでコストが抑えられ(作者は<$30 と明記)、研究や教育目的で手軽に試せる点が実用上の利点です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • GRPO_wo_SFT_response_length.png: file
  • GRPO_wo_SFT_val_score.png: file
  • Notice.txt: file
  • README.md: file

…他 28 ファイル

(ファイル群にはトレーニング/評価スクリプト、設定ファイル、実験結果の可視化画像、依存関係や使用方法を示すドキュメントが含まれていることが想定されます。)

まとめ

小規模環境で RL による自己検証を再現し、SFT の影響を比較できる実験リポジトリ。

リポジトリ情報:

READMEの抜粋:

TinyZero

image

TinyZero is a reproduction of DeepSeek R1 Zero in countdown and multiplication tasks. We built upon veRL.

Through RL, the 3B base LM develops self-verification and search abilities all on its own

You can experience the Ahah moment yourself for < $30

Twitter thread: https://x.com/jiayi_pirate/status/1882839370505621655

Full experiment log: https://wandb.ai/jiayipan/TinyZero