Qwen-Image-Edit-StreamDiffusion — 高速リアルタイム画像編集WebUI
概要
Qwen-Image-Edit-StreamDiffusionは、Qwen-Image-Edit-2509モデルを用いた「高速リアルタイム画像編集」向けのWebUI実装です。StreamDiffusion / StreamDiffusion2に触発された設計により、推論ステップ数の削減や実行時コンパイル(torch.compile)、量子化など複数の最適化を組み合わせており、デフォルト設定(28ステップ)から最適化(2〜4ステップ)+コンパイルで最大17〜28倍の実行速度向上を報告しています。ベンチマークスクリプトが同梱され、性能改善の効果を再現・比較しやすい構成です。
リポジトリの統計情報
- スター数: 8
- フォーク数: 1
- ウォッチャー数: 8
- コミット数: 7
- ファイル数: 15
- メインの言語: Python
主な特徴
- Qwen-Image-Edit-2509モデルに対応したWebUI実装(リアルタイム編集志向)
- StreamDiffusion系のアプローチを活かしたステップ削減による高速化
- torch.compileや量子化(int8)など複数の最適化手法を組み合わせたベンチマーク付き
- 再現性を意識したベンチマークスクリプト群(比較・評価が容易)
技術的なポイント
本プロジェクトは「精度を大きく落とさずに処理時間を削減する」実践的な最適化群が中心です。READMEのベンチマーク表を見ると、標準の28ステップ構成から、ステップ数を4や2に削減することで大幅な処理時間短縮を実現しており、さらにtorch.compileを併用することで追加のスループット改善が得られていると示されています。付属スクリプトからは以下の技術的な注目点が読み取れます。
- ステップ削減(StreamDiffusion風の逐次推論やスキップ戦略)により必要な反復回数を減らすことでレイテンシを下げる。
- torch.compileを用いたモデルの実行時コンパイルにより、バックエンド最適化(演算融合や不要オーバーヘッドの除去)を利用し、推論速度をさらに向上させる。
- int8などの量子化(benchmark_int8.py)の検討により、メモリ帯域と計算コストの削減を狙うことが可能。量子化は場合によって精度と速度のトレードオフになるため、実験で最適点を探る設計になっている。
- benchmark_compile.pyやbenchmark_optimizations.pyなどのスクリプトは、様々な最適化組み合わせの効果を定量化できるように設計されており、実運用に向けたチューニングが行いやすい。
全体として、モデル側の変更を大きく伴わずに「ワークフロー」「実行環境」「量子化・コンパイル」といった外部的最適化で実用的な高速化を図るアプローチが取られており、低レイテンシでの画像編集を求めるユースケースに適しています。
プロジェクトの構成
主要なファイルとディレクトリ:
- .gitignore: file
- README.md: file
- benchmark_compile.py: file
- benchmark_int8.py: file
- benchmark_optimizations.py: file
…他 10 ファイル
(ベンチマークや最適化スクリプトが中心で、実行環境や依存関係の確認がしやすい構成です。)
まとめ
実用的な最適化群でリアルタイム画像編集を大幅高速化した軽量なWebUI実装。
リポジトリ情報:
- 名前: Qwen-Image-Edit-StreamDiffusion
- 説明: 説明なし
- スター数: 8
- 言語: Python
- URL: https://github.com/shi3z/Qwen-Image-Edit-StreamDiffusion
- オーナー: shi3z
- アバター: https://avatars.githubusercontent.com/u/332821?v=4
READMEの抜粋:
Qwen-Image-Edit-2509 StreamDiffusion WebUI
Fast real-time image editing WebUI using Qwen-Image-Edit-2509 model. Inspired by StreamDiffusion and StreamDiffusion2
Speed Improvements
| Configuration | Time/Image | FPS | Speedup |
|---|---|---|---|
| Original (28 steps) | 114.7s | 0.009 fps | 1x |
| Optimized (4 steps) | 9.5s | 0.11 fps | 12x |
| + torch.compile | 6.9s | 0.14 fps | 17x |
| Optimized (2 steps) | 4.1s | 0.24 fps | 28x |
Achieved 17-28x speedup w…