onpolicydistillation(オンポリシー・ディスティレーション)
2025/10/30
onpolicydistillation は、Colab ノートブック形式で提供される実験的リポジトリです。Qwen3-0.6b(小型学生モデル)に対して、Qwen3-4b-Instruct-2507(大型教師モデル)を用いた on-policy distillation(OPD)を実演し、数学問題データセット GSM8K における性能改善を目指します。ノートブックは教師モデルによる応答生成、学生モデルの模倣学習、評価までのワークフローを含み、低コストでのモデル改善手法を試すためのハンズオン資料になっています。