ComfyUI-QwenPromptRewriterによるプロンプト強化ツール

AI/ML

概要

ComfyUI-QwenPromptRewriterは、Qwen(千問)大規模言語モデル(LLM)を用いて、画像生成AIに入力するプロンプトを自動的にリライトし、Qwen-Image/Editのオンライン版の挙動や能力と一致させることを目的としたツールです。Pythonで実装されており、ComfyUIのノードとして組み込むことで、ユーザーは簡単にプロンプトの改良や最適化を実現できます。APIキーを設定してQwenのAPIを呼び出し、モデルのスタイルに応じたプロンプト変換を繰り返し実施。これにより、画像生成の品質向上や表現力の拡大を狙っています。

GitHub

リポジトリの統計情報

  • スター数: 10
  • フォーク数: 0
  • ウォッチャー数: 10
  • コミット数: 9
  • ファイル数: 9
  • メインの言語: Python

主な特徴

  • Qwen大規模言語モデルを利用したプロンプト自動書き換え機能
  • ComfyUI環境下のノード実装により既存ワークフローに容易に統合可能
  • プロンプトスタイル(Qwen-Image_Edit、Qwen-Image)に応じた最適化対応
  • API呼び出しの失敗時リトライ機能搭載で安定した動作を実現

技術的なポイント

本プロジェクトの技術的な中核は、Qwen LLMを利用したプロンプトリライト機能です。Qwenは中国の千問(Qwen)AIが開発した大規模言語モデルであり、自然言語の意味やニュアンスを深く理解した上で、指定されたスタイルに沿った表現に書き換えを行います。ComfyUI-QwenPromptRewriterでは、このQwen-Image/Editのオンライン版で用いられるプロンプトの特性を模倣し、同様の効果や機能をローカル環境で得られるように設計されています。

具体的には、ユーザーから入力された初期プロンプトをAPI経由でQwen LLMに送信し、応答として返されるリライト済みプロンプトを受け取ります。これにより、より洗練された指示文が生成され、画像生成モデルへの入力として最適化されます。API呼び出し時に障害が発生した場合は最大リトライ回数を設定でき、通信の不安定さをカバーしつつ安定した処理が可能です。

また、ComfyUIのノードとして組み込まれているため、GUI上でプロンプト改善ノードを配置し、他のノードと連携した複雑なパイプラインの中で自然に利用できます。これにより、プロンプトエンジニアリングの専門知識がなくても、簡単にプロンプトの質を向上させることができます。

さらに、スタイル指定により、Qwen-Image_Edit用にはqwen-vlシリーズモデルを用いるなど、モデルの特性に対応した最適化が行える点も特徴です。これにより、画像編集や生成の目的に応じて適切な表現に変換でき、ユーザーの多様なニーズに応えます。

APIキーの管理や設定もREADMEに詳述されており、実装のハードルを下げる工夫がなされています。全体として、最新のLLM技術を画像生成のプロンプト設計に応用し、ユーザーの利便性と生成結果の品質向上を両立した先進的なプロジェクトと言えます。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: Git管理除外ファイルの指定
  • LICENSE: ライセンス情報
  • README.md: 英語版のプロジェクト説明
  • README_zh.md: 中国語版のプロジェクト説明
  • init.py: Pythonパッケージ初期化ファイル
  • nodes.py: ComfyUI用ノードの実装
  • config.py: 設定管理関連ファイル
  • utils.py: 補助的なユーティリティ機能群
  • img/: プレビュー画像やノード構成図の保存ディレクトリ

まとめ

Qwen LLMを活用したプロンプト自動書き換えツールで、ComfyUI環境における画像生成の品質向上を支援。

リポジトリ情報: