概要

PainterAI2Vは、ComfyUIワークフロー向けに設計されたInfiniteTalkベースの対口型（リップシンク）ノードです。Wan2.2の二重モデル（高ノイズ／低ノイズ）アーキテクチャに最適化され、両モデルに対して適切なパッチ処理を並列して行うことで、公式ワークフローと同等の結果を再現します。最大の特徴は動画フレームレート（video_fps）を1〜120fpsで指定できる点で、これにより音声フレームと映像フレームを正確に同期させ、従来の25fps固定による音ズレ問題を解消します。さらに、開始フレームと終了フレームを個別に指定する「首/尾フレーム制御」や、プロンプト駆動のモーション・カメラ操作のサポートを備え、映像制作の自由度と制御性を高めています。

リポジトリの統計情報

スター数: 9
フォーク数: 1
ウォッチャー数: 9
コミット数: 7
ファイル数: 4
メインの言語: Python

主な特徴

video_fpsパラメータによる1〜120fpsのフレームレート同期制御で音声と映像のズレを解消
Wan2.2の高ノイズ（0–2ステップ）／低ノイズ（2–4ステップ）二段階モデルに対する並列パッチ適用
開始（start_image）と終了（end_image）フレームの3モード制御（首のみ／尾のみ／首尾固定）
プロンプト駆動のモーションとカメラ移動サポート、およびComfyUI用ワークフローファイルを同梱

技術的なポイント

PainterAI2Vの技術的な核は、音声→リップシンク情報変換（InfiniteTalk）と、Wan2.2の二段階拡散モデル処理を両立させる点にあります。多くの既存実装が25fpsにハードコーディングされているため、音声の時間解像度と映像のフレームレートが不一致になりやすく、これが口元のズレ（Audio-Video sync issue）を生みます。本ノードはvideo_fpsパラメータを導入し、音声を指定フレームレートに合わせてフレーム化（フレーム分割もしくは時間ベースのラベリング）することで、音声のフォネティック情報と各映像フレームのマッチング精度を高めます。これにより1fpsから120fpsまで幅広く設定可能で、遅いタイムラプスから高フレームレートのスローモーションまで対応できます。

Wan2.2対応の実装では、拡散過程の「高ノイズ段（初期ステップ）」と「低ノイズ段（後期ステップ）」に対して、それぞれ適切なパッチを当てる必要があります。PainterAI2Vは高ノイズモデル（ステップ0–2）と低ノイズモデル（ステップ2–4）を同時に扱い、ノイズレベルに応じた条件付けや顔・口元のテンプレート適用を行うことで、公式ワークフローと同等の品質を維持します。具体的には、開始/終了フレームを用いる場合、ノードは指定フレームの画像を初期潜在に差し込み（start_image）、または最終フレームとして後処理で固定（end_image）するための差分制御を行います。首尾両方を指定すれば、動画全体の構図と最終表情を強制でき、ストーリーボード的な制御が可能です。

音声処理面では、InfiniteTalkの特性を活かして音声から口形（viseme）情報を抽出し、これをフレーム毎の条件情報として拡散モデルのガイダンスに変換します。ComfyUIのノード構造に適合するようにPythonでノードを実装（PainterAI2V.py）し、ワークフロー定義ファイル（painter audio+firstlastframe image to video-infinitetalk.json）を同梱して、ユーザーが既存のComfyUIフローに簡単に組み込めるよう配慮されています。

注意点としては、PainterAI2V自体はノード実装とワークフロー定義を提供するのみで、Wan2.2の実体モデルやInfiniteTalkの依存資源は別途準備が必要な点、そして現在コミット数・ファイル数が少ないため高度なカスタマイズやGUI上の詳細なパラメータ管理はユーザー側で補う必要がある点です。利用時の推奨設定としては、音声サンプリング周波数を映像フレームレートと整合させること、開始/終了画像は映像解像度とアスペクト比を合わせること、denoisingステップの分配をWan2.2の想定に従うことが挙げられます。

プロジェクトの構成

主要なファイルとディレクトリ：

PainterAI2V.py: file
README.md: file
init.py: file
painter audio+firstlastframe image to video-infinitetalk.json: file

まとめ

ComfyUIでWan2.2とInfiniteTalkを組み合わせ、精密なフレーム同期と首尾フレーム制御を可能にする実践的なノード実装です。

リポジトリ情報：

名前: ComfyUI-PainterAI2V
説明: PainterAI2V integrates InfiniteTalk lip-sync with Wan2.2’s dual-model architecture, enabling precise frame-rate synchronized audio-visual generation with first/last frame control. It supports prompt-driven motion and camera movements while patching both high/low noise models
スター数: 9
言語: Python
URL: https://github.com/princepainter/ComfyUI-PainterAI2V
オーナー: princepainter
アバター: https://avatars.githubusercontent.com/u/124643595?v=4

READMEの抜粋：

ComfyUI-PainterAI2V

节点特点

专为 Wan2.2 双模型工作流优化的 InfiniteTalk 对口型节点，支持首尾帧精确控制

帧率同步控制：新增 video_fps 参数，可自定义设置视频帧率（1-120fps），音频口型自动匹配该帧率，完美解决原生硬编码 25fps 导致的音画不同步问题
Wan2.2 双模型架构：同时支持高噪模型（0-2步）和低噪模型（2-4步）并行打补丁，保持与官方工作流完全一致
三模式首帧控制：
- 仅首帧：传入 start_image，视频从首帧开始生成并全程对口型
- 仅尾帧：传入 end_image，视频最终定格指定画面并对口型
- 首尾帧：同时传入 `sta…

ComfyUI-PainterAI2V（Wan2.2対応 InfiniteTalk 対口型ノード）