OmniForcing — リアルタイム音声映像共同生成フレームワーク

概要

OmniForcingは、オーディオとビジュアルを同時に生成するための新しい実装フレームワークです。従来の拡散（diffusion）ベースの生成モデルは高品質ですが逐次的で計算コストが高く、リアルタイム性が求められる応用には向きません。本プロジェクトは、双方向のオーディオ・ビジュアル拡散モデルを「ストリーミング可能な自己回帰（autoregressive）生成器」へ効率的に蒸留する手法を提案・実装しており、単一GPUでの低遅延同時生成を実現します。リポジトリには論文図表やデモ画像（static）などが含まれ、研究再現と実用化の橋渡しを目指しています。

リポジトリの統計情報

スター数: 11
フォーク数: 0
ウォッチャー数: 11
コミット数: 4
ファイル数: 2
メインの言語: 未指定

主な特徴

双方向（audio↔video）拡散モデルをストリーミング自己回帰生成器へ蒸留する仕組みを実装。
単一GPUで動作する低遅延の同時音声・映像生成を目指す設計。
ストリーミング処理（チャンク単位）による逐次生成でリアルタイム性を確保。
リポジトリは論文実装の中核（READMEと静的デモ画像）を含む最小構成。

技術的なポイント

OmniForcingの核心は「拡散モデル→自己回帰モデルへの蒸留」と「ストリーミング設計」の組合せにあります。拡散モデルは高品質な生成を可能にする一方で、反復的なサンプリングが必要で遅延が大きくなりがちです。本研究はまず、高品質な双方向オーディオ・ビジュアル拡散モデル（教師モデル）を用意し、これを教師として自己回帰型の学生モデルへ知識蒸留を行います。蒸留により、拡散過程の確率的挙動と時間的整合性を自己回帰的なトークン予測に写し取り、推論時に1ステップごとの反復を大幅に削減します。

ストリーミング面では、音声と映像の時間的整合性を保ちながらチャンク単位で逐次生成するための設計が重点です。具体的には、時間窓（ウィンドウ）や履歴コンテキストを持つ自己回帰デコーダを採用し、生成中に過去の出力を参照することで滑らかな連続性を確保します。オーディオはスペクトログラムや符号化トークン、映像はフレームや視覚トークンとして扱い、クロスモーダルな条件付け（例：音声から映像へ、映像から音声へ）を同じ生成過程で扱えるよう共同表現を学習します。

実装上の工夫としては、GPUメモリとレイテンシを抑えるためのモデル圧縮や効率的なバッチング、逐次デコード時のキャッシュ利用、及び低レイテンシI/Oパイプラインの整備が考慮されています。結果として、単一のGPU上でリアルタイムに近いレイテンシで同時生成を行える点が大きな利点です。一方で、高品質な拡散教師からの蒸留は教師の性能に依存し、学習時の安定化やトレードオフ（品質 vs レイテンシ）の調整が重要になります。また、同期ズレやモード崩壊を避けるためのクロスモーダル損失や一貫性損失の設計も鍵となります。リポジトリは論文実装の核を提供しており、研究者や開発者はここから評価指標やデータセット、最適化を追加して実用化を進められます。

プロジェクトの構成

主要なファイルとディレクトリ：

README.md: file
static: dir

まとめ

リアルタイム同時音声・映像生成に挑む、拡散→自己回帰蒸留の実装フレームワーク。

リポジトリ情報：

名前: OmniForcing
説明: Official implementation of “OmniForcing: Unleashing Real-time Joint Audio-Visual Generation”[arXiv:2603.11647]. OmniForcing is the first framework to distill bidirectional audio-visual diffusion models into streaming autoregressive generators, enabling real-time joint audio-video generation on a single GPU.
スター数: 11
言語: null
URL: https://github.com/OmniForcing/OmniForcing
オーナー: OmniForcing
アバター: https://avatars.githubusercontent.com/u/268454520?v=4