ComfyUI向け FL PixelGen — ピクセル空間拡散ノードとLoRAトレーニング
概要
ComfyUI-FL-PixelGenは、PixelGen(ピクセル空間の拡散モデル実装)をComfyUIの拡張として組み込み、ノードベースでのテキスト→画像生成やLoRAトレーニングを可能にする小規模なプラグイン集です。主にJiTトランスフォーマーデノイザーを使った純ピクセル空間生成、Qwen3によるテキスト条件付け、flow-matchingに基づくサンプリング手法をサポートします。ComfyUIのワークフローへシームレスに追加でき、生成とLoRA学習を同一ノードグラフ上で試行錯誤できます。導入は比較的軽量で、UIのアイコンやJSアセットを含む構成になっています。(約300字)
リポジトリの統計情報
- スター数: 4
- フォーク数: 1
- ウォッチャー数: 4
- コミット数: 3
- ファイル数: 11
- メインの言語: Python
主な特徴
- PixelGenベースの「ピクセル空間」拡散生成をComfyUIのノードとして提供
- JiT(Just-in-Time)トランスフォーマーデノイザーによる実行最適化
- Qwen3テキスト条件付けでテキスト→画像生成を強化
- LoRAトレーニングノードで軽量ファインチューニングをノード内完結
技術的なポイント
この拡張の核となるのは「ピクセル空間での拡散モデル」と「ComfyUIノード統合」です。従来の多くのテキスト→画像手法は潜在空間(latent)での拡散を採用しますが、PixelGenはピクセル空間で直接生成を行うため、潜在変換に起因する再構成誤差を避ける利点があります。その代償として計算・メモリ負荷は高くなるため、実行性能を補うためにJiTコンパイルされたトランスフォーマーデノイザーを用いて高速化しています。テキスト条件付けにはQwen3を用いることで、強力な言語モデル由来の埋め込みを生成に活用します。サンプリングはflow-matchingに基づく方式を採用しており、従来の拡散ステップよりサンプル品質と効率のトレードオフを改善することが期待されます。さらにLoRAノードは、全パラメータを微調整せずに低ランクアダプタを学習できるため、リソース制約下でのカスタムスタイルや条件応答の適応に有効です。ComfyUI上でノード接続だけでこれらの要素を組み合わせられる点が、実験やワークフロー構築を容易にします。実際の運用ではGPUメモリや計算時間の制約を考慮した設計・設定が重要です。
プロジェクトの構成
主要なファイルとディレクトリ:
- .gitignore: file
- README.md: file
- init.py: file
- assets: dir
- js: dir
- node_definitions.py: (想定)ComfyUIノード定義を含む主要モジュール
- lora_training.py: (想定)LoRAトレーニング関連ノード実装
- pixelgen_integration.py: (想定)PixelGenモデル呼び出しラッパー
- requirements.txt: (想定)依存パッケージ記述
- icons/ UI用アセットやSVG: dir
…他 6 ファイル
(注記)実際のファイル名はリポジトリの最新状態を参照してください。assetsやjsはUI表示・インタラクション用の小さなフロントエンド資産を含み、init.pyはComfyUI拡張としての登録エントリポイントになっています。
まとめ
ComfyUIでピクセル空間生成とLoRAトレーニングを手軽に試せる有望な拡張です。(約50字)
リポジトリ情報:
- 名前: ComfyUI-FL-PixelGen
- 説明: FL PixelGen - Pixel-space diffusion text-to-image generation and LoRA training nodes for ComfyUI
- スター数: 4
- 言語: Python
- URL: https://github.com/filliptm/ComfyUI-FL-PixelGen
- オーナー: filliptm
- アバター: https://avatars.githubusercontent.com/u/55672949?v=4
READMEの抜粋:
FL PixelGen
Pixel-space diffusion text-to-image generation and LoRA training nodes for ComfyUI, powered by PixelGen. Generate high-quality images directly in pixel space using a JiT transformer denoiser with Qwen3 text conditioning and flow matching sampling — entirely within ComfyUI’s node graph.