分布整合シーケンス蒸留(DASD)による長いChain-of-Thought推論の強化

AI/ML

概要

本リポジトリ「dasd-thinking」は、Distribution-Aligned Sequence Distillation(DASD)という手法に関するコード・資料をまとめたものです。タイトルや同梱の技術報告書から、長いChain-of-Thought(CoT)推論を対象に、教師モデル(大規模言語モデル)が生成する長い推論列を生徒モデルへ効率的かつ性能を落とさず蒸留することを狙っていることが分かります。assets にロゴや補助ファイル、train ディレクトリに学習用スクリプト、dasd_technical_report.pdf に技術的詳細が含まれています。大規模モデルの計算資源を削減しつつ推論品質を維持する研究開発向けのリポジトリです。

GitHub

リポジトリの統計情報

  • スター数: 11
  • フォーク数: 2
  • ウォッチャー数: 11
  • コミット数: 3
  • ファイル数: 4
  • メインの言語: 未指定

主な特徴

  • Distribution-Aligned Sequence Distillation(DASD)という、長いCoTを対象にした蒸留アプローチを提案/実装している点。
  • 技術報告書(dasd_technical_report.pdf)を同梱し、理論的背景や実験設定を参照できる。
  • train ディレクトリに学習用スクリプトが含まれており、実験再現や改良が可能。
  • 小規模モデルへ長期推論能力を移すことを想定した実装・資産群が整備されている点。

技術的なポイント

リポジトリ名とREADMEのタイトルから読み取れる技術的な焦点は「長いChain-of-Thought(長い推論過程)」を如何に小さなモデルへ劣化なく伝えるか、という点です。Chain-of-Thoughtは多段推論や中間ステップを含むため、単純なトークン単位のクロスエントロピーだけで蒸留すると重要な推論構造が失われがちです。DASD のような手法は、生成シーケンスの分布(出力確率分布や潜在的な構造)を教師と生徒で整合させることを目的とし、次のような要素を取り入れている可能性があります。

  • シーケンスレベルの整合:部分列や中間ステップごとに分布合わせを行い、推論の流れが生徒でも保たれるようにする。
  • 確率分布のアライメント:教師の出力分布(トークン確率やロジット)に対するKLダイバージェンス等を用いた損失で、生徒が同様の不確実性や選択肢を模倣するよう促す。
  • 長文シーケンスの扱い:メモリ負荷を抑えるためのチャンク化(分割教師信号)、再帰的蒸留、または教師からの中間表現を利用する手法を併用している可能性が高い。
  • 学習戦略:段階的蒸留(短いCoT→徐々に長いCoTへ移行)やデータ拡張によるロバスト化、温度スケーリングや重み付け損失による重要部分強調などの訓練テクニックが採用され得る。

さらに、実践的な観点では、蒸留により推論コスト(計算時間/メモリ)を削減しつつ、推論の透明性やデバッグしやすさを向上させることが期待されます。技術報告書には詳細な実験設定、評価ベンチマーク(CoTタスク)、教師と生徒のモデル構成、評価指標(正答率だけでなく中間ステップの一致や論理的一貫性の測定)などがまとめられているはずで、これを参照することで再現性ある検証が可能です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • README.md: file
  • assets: dir
  • dasd_technical_report.pdf: file
  • train: dir

まとめ

長いCoTを小規模モデルへ効率的に移すための実践的な蒸留リソース集です(50字程度)。

リポジトリ情報:

READMEの抜粋:

Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning

Ali

GitHub  GitHub 

[![Hugg…