LiteCoST — 長文QA向けChain-of-Structured-ThoughtとSLM微調整フレームワーク
概要
LiteCoSTは「Long-Document QA with Chain-of-Structured-Thought and Fine-Tuned SLMs」の公式実装リポジトリで、長大な文書に対する質問応答タスクを対象に設計された二段階のRL強化フレームワークを提供します。核心はChain-of-Structured-Thought(CoST)と呼ばれる、中間の「構造化思考」を明示的に生成・利用する設計と、それを踏まえてSmall Language Models(SLMs)を微調整する方針です。研究コード、データ準備、学習・評価スクリプト、事前学習済み/微調整済みモデル(Hugging Face経由)を通じて、長文QAでの高精度化と軽量モデル運用の両立を目指します。
リポジトリの統計情報
- スター数: 12
- フォーク数: 0
- ウォッチャー数: 12
- コミット数: 2
- ファイル数: 11
- メインの言語: Python
主な特徴
- Chain-of-Structured-Thought(CoST):長文QA用に中間的で構造化された思考過程を生成・利用する手法を採用。
- 二段階RL強化学習:中間思考の生成と最終回答生成を含む二段階の学習でSLMを微調整し、性能を向上。
- 小型モデルに最適化:大規模モデルを使わずにSLMを強化学習で微調整し、長文理解の性能を引き上げる点にフォーカス。
- 再現性と公開モデル:学習/評価コードの提供と、Hugging Faceでのモデル公開により実験の追試が容易。
技術的なポイント
LiteCoSTは「長文をそのまま単一の黒箱に渡して答えさせる」アプローチを改め、中間表現としての構造化思考(CoST)を明示的に導入する点が特徴です。実装上は二段階の処理パイプラインを想定しており、第一段階で文書を要素ごとに解析して構造化思考を生成し、第二段階でその思考を参照しながら最終回答を生成します。SLM(Small Language Model)を対象に、単純な教師あり微調整に加え、報酬信号を用いるRL強化学習でポリシーを改善する設計になっており、長文からの情報抽出と推論において効率的に学習できるよう工夫されています。実装はPythonベースで、データセット整備、学習スクリプト、評価用ユーティリティが含まれ、Hugging Face Hubに連携されたモデルも利用可能なため、研究・実用の両面で試しやすい構成です。
プロジェクトの構成
主要なファイルとディレクトリ:
- .DS_Store: file
- Loong: dir
- README.md: file
- assets: dir
- dataset: dir
…他 6 ファイル
(上記はリポジトリのトップ構成の抜粋です。Loongやdatasetディレクトリにはデータ前処理や実験用スクリプトがまとまっている想定です。)
利用法の概略
- リポジトリをクローンして依存パッケージをインストール。
- datasetディレクトリでデータを用意・整形(READMEに記載の形式に従う)。
- 第一段階(CoST生成)と第二段階(回答生成)のスクリプトを順に実行して学習・評価を行う。
- Hugging Faceに公開されたモデルがあるため、推論部分は既存モデルをダウンロードしてすぐに試用可能。
READMEにはOpenReviewのリンクやHuggingFaceモデルへの参照があり、論文との対応や結果の確認も容易です。
長所と注意点
長所:
- 長文QA特有の困難(長い文脈からの必要情報抽出、段階的推論)に直接アプローチする設計。
- SLMを対象にしているため、計算資源の制約下でも適用可能性が高い。
- コードとモデルの公開で再現性が担保されやすい。
注意点:
- 実験や再現にはデータ前処理・学習設定の理解が必要。
- RL強化学習を用いるため、報酬設計や安定化の工夫が必要になる可能性あり。
まとめ
長文QAでの実用的かつ再現可能なSLM強化アプローチを示す有望な公式実装。
リポジトリ情報:
- 名前: LiteCoST
- 説明: 🔥[ICLR’26] Official repository for the paper “Long-Document QA with Chain-of-Structured-Thought and Fine-Tuned SLMs”
- スター数: 12
- 言語: Python
- URL: https://github.com/HKUSTDial/LiteCoST
- オーナー: HKUSTDial
- アバター: https://avatars.githubusercontent.com/u/176130785?v=4
READMEの抜粋:
Long-Document QA with Chain-of-Structured-Thought and Fine-Tuned SLMs
A two-stage RL-enhanced framework that equips SLMs for high-accuracy long-document QA.