ComfyUI-PainterAI2V(Wan2.2対応 InfiniteTalk 対口型ノード)

AI/ML

概要

PainterAI2Vは、ComfyUIワークフロー向けに設計されたInfiniteTalkベースの対口型(リップシンク)ノードです。Wan2.2の二重モデル(高ノイズ/低ノイズ)アーキテクチャに最適化され、両モデルに対して適切なパッチ処理を並列して行うことで、公式ワークフローと同等の結果を再現します。最大の特徴は動画フレームレート(video_fps)を1〜120fpsで指定できる点で、これにより音声フレームと映像フレームを正確に同期させ、従来の25fps固定による音ズレ問題を解消します。さらに、開始フレームと終了フレームを個別に指定する「首/尾フレーム制御」や、プロンプト駆動のモーション・カメラ操作のサポートを備え、映像制作の自由度と制御性を高めています。

GitHub

リポジトリの統計情報

  • スター数: 9
  • フォーク数: 1
  • ウォッチャー数: 9
  • コミット数: 7
  • ファイル数: 4
  • メインの言語: Python

主な特徴

  • video_fpsパラメータによる1〜120fpsのフレームレート同期制御で音声と映像のズレを解消
  • Wan2.2の高ノイズ(0–2ステップ)/低ノイズ(2–4ステップ)二段階モデルに対する並列パッチ適用
  • 開始(start_image)と終了(end_image)フレームの3モード制御(首のみ/尾のみ/首尾固定)
  • プロンプト駆動のモーションとカメラ移動サポート、およびComfyUI用ワークフローファイルを同梱

技術的なポイント

PainterAI2Vの技術的な核は、音声→リップシンク情報変換(InfiniteTalk)と、Wan2.2の二段階拡散モデル処理を両立させる点にあります。多くの既存実装が25fpsにハードコーディングされているため、音声の時間解像度と映像のフレームレートが不一致になりやすく、これが口元のズレ(Audio-Video sync issue)を生みます。本ノードはvideo_fpsパラメータを導入し、音声を指定フレームレートに合わせてフレーム化(フレーム分割もしくは時間ベースのラベリング)することで、音声のフォネティック情報と各映像フレームのマッチング精度を高めます。これにより1fpsから120fpsまで幅広く設定可能で、遅いタイムラプスから高フレームレートのスローモーションまで対応できます。

Wan2.2対応の実装では、拡散過程の「高ノイズ段(初期ステップ)」と「低ノイズ段(後期ステップ)」に対して、それぞれ適切なパッチを当てる必要があります。PainterAI2Vは高ノイズモデル(ステップ0–2)と低ノイズモデル(ステップ2–4)を同時に扱い、ノイズレベルに応じた条件付けや顔・口元のテンプレート適用を行うことで、公式ワークフローと同等の品質を維持します。具体的には、開始/終了フレームを用いる場合、ノードは指定フレームの画像を初期潜在に差し込み(start_image)、または最終フレームとして後処理で固定(end_image)するための差分制御を行います。首尾両方を指定すれば、動画全体の構図と最終表情を強制でき、ストーリーボード的な制御が可能です。

音声処理面では、InfiniteTalkの特性を活かして音声から口形(viseme)情報を抽出し、これをフレーム毎の条件情報として拡散モデルのガイダンスに変換します。ComfyUIのノード構造に適合するようにPythonでノードを実装(PainterAI2V.py)し、ワークフロー定義ファイル(painter audio+firstlastframe image to video-infinitetalk.json)を同梱して、ユーザーが既存のComfyUIフローに簡単に組み込めるよう配慮されています。

注意点としては、PainterAI2V自体はノード実装とワークフロー定義を提供するのみで、Wan2.2の実体モデルやInfiniteTalkの依存資源は別途準備が必要な点、そして現在コミット数・ファイル数が少ないため高度なカスタマイズやGUI上の詳細なパラメータ管理はユーザー側で補う必要がある点です。利用時の推奨設定としては、音声サンプリング周波数を映像フレームレートと整合させること、開始/終了画像は映像解像度とアスペクト比を合わせること、denoisingステップの分配をWan2.2の想定に従うことが挙げられます。

プロジェクトの構成

主要なファイルとディレクトリ:

  • PainterAI2V.py: file
  • README.md: file
  • init.py: file
  • painter audio+firstlastframe image to video-infinitetalk.json: file

まとめ

ComfyUIでWan2.2とInfiniteTalkを組み合わせ、精密なフレーム同期と首尾フレーム制御を可能にする実践的なノード実装です。

リポジトリ情報:

READMEの抜粋:

ComfyUI-PainterAI2V


image

节点特点

专为 Wan2.2 双模型工作流优化的 InfiniteTalk 对口型节点,支持首尾帧精确控制

  • 帧率同步控制:新增 video_fps 参数,可自定义设置视频帧率(1-120fps),音频口型自动匹配该帧率,完美解决原生硬编码 25fps 导致的音画不同步问题
  • Wan2.2 双模型架构:同时支持高噪模型(0-2步)和低噪模型(2-4步)并行打补丁,保持与官方工作流完全一致
  • 三模式首帧控制
    • 仅首帧:传入 start_image,视频从首帧开始生成并全程对口型
    • 仅尾帧:传入 end_image,视频最终定格指定画面并对口型
    • 首尾帧:同时传入 `sta…