ComfyUI 用 Qwen3-TTS(音声クローン&微調整UI)

AI/ML

概要

ComfyUI-FL-Qwen3TTS は、ComfyUI のノードとして動作する Qwen3-TTS 向け拡張です。主な機能は音声クローン(短い音声サンプルから話者の特徴を再現)、テキスト記述に基づく声質デザイン(“若々しい女性の声” などの指示から合成音声を生成)、複数のプリセットスピーカー、そしてローカル環境で利用できる組み込みのファインチューニングUI(訓練の進捗をリアルタイムで表示)です。ComfyUI のノードグラフに直接組み込み、既存のワークフローにシームレスに統合できます。

GitHub

リポジトリの統計情報

  • スター数: 17
  • フォーク数: 1
  • ウォッチャー数: 17
  • コミット数: 2
  • ファイル数: 14
  • メインの言語: Python

主な特徴

  • Qwen3-TTS モデル群を利用した高度な TTS ノード(ComfyUI 向け)
  • 音声クローン機能:少量の音声サンプルから話者性を再現
  • テキストベースの声デザインとプリセットスピーカーをサポート
  • 組み込みのファインチューニングUI(リアルタイム訓練ダッシュボード)

技術的なポイント

この拡張は ComfyUI のノードとして Python で実装され、Qwen3-TTS ファミリの音声合成能力を ComfyUI のグラフワークフローへ組み込むことを目的としています。README の記述からは次の技術的要点が読み取れます。

  • モデル連携: Alibaba の Qwen3-TTS を前提にしており、推論用ノードと学習(ファインチューニング)用インターフェースを備えます。推論ノードはテキスト入力と音声条件(話者埋め込みやデザインプロンプト)を受け、波形または保存可能な音声ファイルを出力する構成が想定されます。
  • 音声クローン手法: 少量の音声から話者特徴を抽出して再合成する機能を提供。内部では話者埋め込み(speaker embedding)を生成する仕組みか、軽量なアダプタ層をファインチューニングするアプローチを採用している可能性が高く、これにより既存の大規模TTSモデルを効率よく特定話者へ適応させます。
  • テキストベースの声デザイン: 「暖かい声」「機械的な語り」などのテキスト記述を声質条件としてモデルに与えることで、プロンプト駆動の声質制御が可能です。これはプロンプト埋め込みや条件付けトークンを用いた制御の拡張として実装されることが多い設計です。
  • ファインチューニングUI: 訓練を開始・監視するための UI が内蔵されており、リアルタイムの学習曲線(損失、メトリクス)、バッチ単位のログ、サンプル合成のプレビューを表示できるダッシュボード機能を持ちます。assets と js ディレクトリが含まれていることから、簡易的なWebUIやフロントエンド資産を提供していると推察されます。
  • ComfyUI との統合: ノードベースで他の処理(テキスト前処理、ポストプロセッシング、ファイル操作)と組み合わせ可能。ユーザーは視覚的なフロー内でモデル呼び出しや微調整を組み込めます。
  • 実行環境と性能: 高品質な合成とファインチューニングを前提に GPU(CUDA)環境が望ましく、混合精度やバッチ処理により訓練時間を短縮する配慮が行われている可能性があります。モデルの重みや実行時の依存は README や元リポジトリ(Qwen3-TTS)側の指示に従う必要があります。
  • 拡張性と安全性: ノード構造は他ノードとの連携や差し替えがしやすく、既存の ComfyUI 環境へ容易に導入できます。一方、声質クローンは倫理的・法的配慮が必要な機能であり、利用は適切な許諾と用途に限定すべき点も注意喚起されています(README にも記載がある可能性あり)。

これらの技術要素により、ComfyUI 上での音声合成ワークフローが豊かになり、開発者はモデル選択、音声設計、ローカル微調整を一つの環境で扱えます。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • README.md: file
  • init.py: file
  • assets: dir
  • js: dir

…他 9 ファイル

まとめ

ComfyUI 上で Qwen3-TTS を活用した音声クローンと微調整を手軽に試せる実践的な拡張です。

リポジトリ情報:

READMEの抜粋:

FL Qwen3 TTS

Advanced text-to-speech nodes for ComfyUI powered by Alibaba’s Qwen3-TTS model family. Features voice cloning, voice design from text descriptions, predefined speakers, and a built-in fine-tuning UI with real-time training dashboard.

Qwen3-TTS [![Patreon](https://img.shields.io/badge/Patreon-Support%20Me-F96854?style=for-the-badg