概要

Rolling Forcingは「Autoregressive Long Video Diffusion in Real Time」というタイトルの研究実装で、テキスト条件付きの動画拡散モデルをストリーミング（逐次）で動かすための手法を示しています。論文・ウェブページを通じて提案される主張は、単一GPU上で約16fpsのリアルタイム生成が可能であり、さらに数分に及ぶ長尺動画を生成する際に生じがちな誤差蓄積（ドリフト）を最小限に抑えられる点です。基本的な方針はオートリグレッシブに短いチャンク（ウィンドウ）単位でフレームを生成し、前の生成結果を条件として継続的に出力することで時間的一貫性を維持する一方、「forcing」と呼ばれる制御的な介入（例えば教師強制相当のスケジューリングや条件付け調整）により誤差の累積を抑える点にあります。研究ページとarXiv論文（2509.25161）が参照可能です。

リポジトリの統計情報

スター数: 15
フォーク数: 0
ウォッチャー数: 15
コミット数: 3
ファイル数: 1
メインの言語: 未指定

主な特徴

単一GPUでリアルタイム（約16fps）テキスト→動画生成を実現
オートリグレッシブ（逐次）生成で長尺（数分）動画の生成が可能
「Rolling Forcing」と呼ばれる誤差抑制メカニズムによりドリフトを軽減
ストリーミングや配信用途を想定した実装・評価を提示

技術的なポイント

論文とリポジトリの要点を技術的観点から整理すると、主に以下の要素で構成されています。まず生成戦略としてオートリグレッシブに短い時間窓（チャンク）を順次生成する設計が採られています。各チャンク生成時に直前のフレーム列を条件として与えることで時間的一貫性を保ち、全体としては長尺化しても局所的な誤差が全体に波及しにくい構造です。次に「Rolling Forcing」と呼ぶ工夫は、逐次生成における「教師強制（teacher forcing）」的な要素や条件付けのリセット／調整を含む制御戦略で、これによりモデルが自己生成出力に過度に依存して誤差を拡大するのを抑えます。Diffusionベースの生成過程は計算コストが高いため、実時間性を満たすためにいくつかの推論最適化（潜在空間での拡散、ステップ数削減、FP16推論、効率的なスケジューラや逐次デコーダパイプラインの採用など）が用いられていると推測されます。加えて、ストリーミングでの滑らかさを確保するため、チャンク間での重なり（オーバーラップ）とブレンディング、あるいは条件表現（テキスト埋め込みや過去フレームの特徴）を工夫して継続的な視覚的整合性を維持している点が重要です。評価面では、フレーム品質と時間的一貫性の双方を考慮した比較や、人間評価・自動指標による長尺生成の安定性検証が論文で示されている点が注目されます。実装はリポジトリに概要とリンクが置かれており、詳細は公開論文とウェブページで補完されます。

プロジェクトの構成

主要なファイルとディレクトリ：

README.md: file

READMEの抜粋：

Rolling Forcing: Autoregressive Long Video Diffusion in Real Time

Website | Paper

Rolling Forcing performs real-time streaming text-to-video generation at 16 fps on a single GPU and is capable of producing multi-minute-long videos with minimal error accumulation. <img width=“1102” height=“532” alt=“Screenshot 2025-09-30 at 13 21 19” src=“https://github.com/user-attachments/assets/194bd647-508c-4d…

まとめ

単一GPUで長尺動画をリアルタイムに生成することを目指した実装・研究で、ストリーミング向けの工夫が評価点です（50字程度）。

リポジトリ情報：

名前: RollingForcing
説明: 説明なし
スター数: 15
言語: null
URL: https://github.com/TencentARC/RollingForcing
オーナー: TencentARC
アバター: https://avatars.githubusercontent.com/u/83739826?v=4

※ 詳細な実装や使用方法、ライセンス、依存関係についてはREADMEおよび論文ページを参照してください。

Rolling Forcing — 自動回帰型長尺動画ディフュージョンのリアルタイム生成