WorldCanvas — 参照画像・軌跡・テキストで描くイベント生成
概要
WorldCanvasは、参照画像・軌跡情報・テキスト指示を組み合わせて「イベント」を描画することを目的とした研究実装リポジトリです。リード論文やプロジェクトページ、Hugging Face上のモデル重みへのリンクがREADMEに記載されており、研究成果の再現や推論を行うための最低限のスクリプト群(WorldCanvas_inference.py、WorldCanvas_inference_refimage.py)と、拡散合成用のdifffynthモジュール、Deepspeedの設定がまとめられています。リポジトリ自体は小規模ながら、参照画像条件付けや軌跡ベースの挙動制御といったマルチモーダル生成の実装を確認できる点が特徴です。
リポジトリの統計情報
- スター数: 21
- フォーク数: 0
- ウォッチャー数: 21
- コミット数: 2
- ファイル数: 11
- メインの言語: Python
主な特徴
- 参照画像、軌跡(trajectory)、テキストプロンプトを組み合わせた条件付き生成を実現
- Diffusion合成用コンポーネント(diffsynth)を含み、サンプリング戦略が実装されている想定
- Deepspeed設定が同梱され、大規模モデルの効率的な学習/推論を想定した構成
- 推論スクリプト(参照画像対応版含む)によりモデル重みでの再現が容易
技術的なポイント
WorldCanvasはマルチモーダル条件付けに重きを置いた生成パイプラインを提供しており、技術的に注目すべき点は「異種情報の統合方法」と「効率的な推論実装」の二点に集約されます。まず条件入力として参照画像が与えられる場合、画像特徴を抽出して潜在表現へマージし、軌跡情報(座標系列やベクトル場)は時間的・空間的制約としてモデルへ与える設計が想定されます。テキストは一般的にテキストエンコーダ(例:CLIPやTransformerベースのエンコーダ)で埋め込み化され、サンプリング時にはU-Net系の拡散モデルに対するクロスアテンションや条件付けマップとして注入されます。こうしたクロスモーダルな融合は、生成対象の見た目(参照画像由来)と動作(軌跡由来)、意味的指定(テキスト由来)を同時に満たすために重要です。
リポジトリ内のdifffynthディレクトリは拡散モデルのサンプリングループ、スケジュール、ノイズスケジューラ、サンプラー(DDIMやPLMSなど)を管理するモジュール群を想定させます。WorldCanvas_inference.py系スクリプトは、モデル重みの読み込み、条件テンプレートの組み立て、サンプラー呼び出し、生成結果の後処理(可視化、保存)までの推論ワークフローを実装しており、参照画像あり/なしのフローを分けることで実験を整理しています。
Deepspeed関連の設定が含まれる点は、実運用や大規模モデルでのメモリ最適化(ZeROやオフロード、バッチ分割など)を容易にする工夫です。これによりGPUリソースの制約下でも比較的大きなモデルを動かせるため、研究再現性や実験速度の向上に寄与します。同梱のモデル重みはHugging Faceに公開されており、READMEに論文・プロジェクトページへのリンクが明示されているため、実装と論文の対応関係を確認しながら実験を進められます。
一方で注意点として、リポジトリのコミット数やファイル数が少ない点から完全な学習コードや評価スクリプトが省略されている可能性が高く、論文の再現には追加実装や外部依存(データセット、トレーニングコンフィグ、事前学習済みバックボーン)が必要になることが予想されます。実験を行う際はREADMEと論文を照合し、Hugging Face上のモデルカードとDeepspeed設定を参照して環境を整備することを推奨します。
プロジェクトの構成
主要なファイルとディレクトリ:
- README.md: file
- WorldCanvas_inference.py: file
- WorldCanvas_inference_refimage.py: file
- deepspeed_config: dir
- diffsynth: dir
…他 6 ファイル
まとめ
参照画像・軌跡・テキストを組み合わせたマルチモーダル生成の研究実装で、推論とDeepspeed最適化が中心の実用的なリポジトリです(約50字)。
リポジトリ情報:
- 名前: WorldCanvas
- 説明: 説明なし
- スター数: 21
- 言語: Python
- URL: https://github.com/pPetrichor/WorldCanvas
- オーナー: pPetrichor
- アバター: https://avatars.githubusercontent.com/u/63088309?v=4
READMEの抜粋:
The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text
[📄 Paper] [🌐 Project Page] [🤗 Model Weights]
https://github.com/user-attachments/assets/cc8f7fd6-fd89-47e9-b2bf-38298131d1f7
_**Hanlin Wang1,2, [Hao Ouyang…