ComfyUI-PainterAI2V(Wan2.2対応 InfiniteTalk 対口型ノード)
概要
PainterAI2Vは、ComfyUIワークフロー向けに設計されたInfiniteTalkベースの対口型(リップシンク)ノードです。Wan2.2の二重モデル(高ノイズ/低ノイズ)アーキテクチャに最適化され、両モデルに対して適切なパッチ処理を並列して行うことで、公式ワークフローと同等の結果を再現します。最大の特徴は動画フレームレート(video_fps)を1〜120fpsで指定できる点で、これにより音声フレームと映像フレームを正確に同期させ、従来の25fps固定による音ズレ問題を解消します。さらに、開始フレームと終了フレームを個別に指定する「首/尾フレーム制御」や、プロンプト駆動のモーション・カメラ操作のサポートを備え、映像制作の自由度と制御性を高めています。
リポジトリの統計情報
- スター数: 9
- フォーク数: 1
- ウォッチャー数: 9
- コミット数: 7
- ファイル数: 4
- メインの言語: Python
主な特徴
- video_fpsパラメータによる1〜120fpsのフレームレート同期制御で音声と映像のズレを解消
- Wan2.2の高ノイズ(0–2ステップ)/低ノイズ(2–4ステップ)二段階モデルに対する並列パッチ適用
- 開始(start_image)と終了(end_image)フレームの3モード制御(首のみ/尾のみ/首尾固定)
- プロンプト駆動のモーションとカメラ移動サポート、およびComfyUI用ワークフローファイルを同梱
技術的なポイント
PainterAI2Vの技術的な核は、音声→リップシンク情報変換(InfiniteTalk)と、Wan2.2の二段階拡散モデル処理を両立させる点にあります。多くの既存実装が25fpsにハードコーディングされているため、音声の時間解像度と映像のフレームレートが不一致になりやすく、これが口元のズレ(Audio-Video sync issue)を生みます。本ノードはvideo_fpsパラメータを導入し、音声を指定フレームレートに合わせてフレーム化(フレーム分割もしくは時間ベースのラベリング)することで、音声のフォネティック情報と各映像フレームのマッチング精度を高めます。これにより1fpsから120fpsまで幅広く設定可能で、遅いタイムラプスから高フレームレートのスローモーションまで対応できます。
Wan2.2対応の実装では、拡散過程の「高ノイズ段(初期ステップ)」と「低ノイズ段(後期ステップ)」に対して、それぞれ適切なパッチを当てる必要があります。PainterAI2Vは高ノイズモデル(ステップ0–2)と低ノイズモデル(ステップ2–4)を同時に扱い、ノイズレベルに応じた条件付けや顔・口元のテンプレート適用を行うことで、公式ワークフローと同等の品質を維持します。具体的には、開始/終了フレームを用いる場合、ノードは指定フレームの画像を初期潜在に差し込み(start_image)、または最終フレームとして後処理で固定(end_image)するための差分制御を行います。首尾両方を指定すれば、動画全体の構図と最終表情を強制でき、ストーリーボード的な制御が可能です。
音声処理面では、InfiniteTalkの特性を活かして音声から口形(viseme)情報を抽出し、これをフレーム毎の条件情報として拡散モデルのガイダンスに変換します。ComfyUIのノード構造に適合するようにPythonでノードを実装(PainterAI2V.py)し、ワークフロー定義ファイル(painter audio+firstlastframe image to video-infinitetalk.json)を同梱して、ユーザーが既存のComfyUIフローに簡単に組み込めるよう配慮されています。
注意点としては、PainterAI2V自体はノード実装とワークフロー定義を提供するのみで、Wan2.2の実体モデルやInfiniteTalkの依存資源は別途準備が必要な点、そして現在コミット数・ファイル数が少ないため高度なカスタマイズやGUI上の詳細なパラメータ管理はユーザー側で補う必要がある点です。利用時の推奨設定としては、音声サンプリング周波数を映像フレームレートと整合させること、開始/終了画像は映像解像度とアスペクト比を合わせること、denoisingステップの分配をWan2.2の想定に従うことが挙げられます。
プロジェクトの構成
主要なファイルとディレクトリ:
- PainterAI2V.py: file
- README.md: file
- init.py: file
- painter audio+firstlastframe image to video-infinitetalk.json: file
まとめ
ComfyUIでWan2.2とInfiniteTalkを組み合わせ、精密なフレーム同期と首尾フレーム制御を可能にする実践的なノード実装です。
リポジトリ情報:
- 名前: ComfyUI-PainterAI2V
- 説明: PainterAI2V integrates InfiniteTalk lip-sync with Wan2.2’s dual-model architecture, enabling precise frame-rate synchronized audio-visual generation with first/last frame control. It supports prompt-driven motion and camera movements while patching both high/low noise models
- スター数: 9
- 言語: Python
- URL: https://github.com/princepainter/ComfyUI-PainterAI2V
- オーナー: princepainter
- アバター: https://avatars.githubusercontent.com/u/124643595?v=4
READMEの抜粋:
ComfyUI-PainterAI2V
节点特点
专为 Wan2.2 双模型工作流优化的 InfiniteTalk 对口型节点,支持首尾帧精确控制
- 帧率同步控制:新增
video_fps参数,可自定义设置视频帧率(1-120fps),音频口型自动匹配该帧率,完美解决原生硬编码 25fps 导致的音画不同步问题 - Wan2.2 双模型架构:同时支持高噪模型(0-2步)和低噪模型(2-4步)并行打补丁,保持与官方工作流完全一致
- 三模式首帧控制:
- 仅首帧:传入
start_image,视频从首帧开始生成并全程对口型 - 仅尾帧:传入
end_image,视频最终定格指定画面并对口型 - 首尾帧:同时传入 `sta…
- 仅首帧:传入