蛐蛐 (ququ) — 中国語特化の次世代デスクトップ音声ワークフロー

AI/ML

概要

蛐蛐 (QuQu) は「中国語のために生まれた次世代のスマート音声ワークフロー」を掲げるデスクトップ向けオープンソースプロジェクトです。ローカルで動作するFunASR等のASRモデルを組み込み、音声入力からテキスト化、さらに可変な大規模言語モデル(LLM)を利用した意図解釈・対話管理までをワンストップで扱える設計が特徴です。プラットフォームはmacOS・Windows・Linuxに対応を想定し、プライバシー重視のオンデバイス処理、エージェントベースの拡張性、アクセシビリティ改善の方針などをドキュメントで明示している点も魅力です。

GitHub

リポジトリの統計情報

  • スター数: 19
  • フォーク数: 0
  • ウォッチャー数: 19
  • コミット数: 11
  • ファイル数: 22
  • メインの言語: JavaScript

主な特徴

  • FunASRなどのローカルASRを統合し、中国語音声の高精度なオンデバイス認識を目指す
  • 可変なLLMバックエンド(ローカル/リモートどちらでも想定)を組み合わせた対話処理
  • デスクトップ向け(macOS/Windows/Linux)での動作を想定したワークフローとUI統合
  • エージェント定義やアクセシビリティ改善など、運用面のドキュメントが充実

技術的なポイント

QuQuの技術的要点は「オンデバイスASR」と「柔軟なLLM連携」を中核にしたパイプライン設計にあります。まず音声入力はローカルに配置されたFunASR等のASRモデルで前処理・音声認識が行われ、ネットワークに送らず端末内で文字起こしを完結させられるため、プライバシー性や低遅延を確保できます。その上で得られたテキストは、プロジェクト内のエージェント定義(AGENTS.md)に従って、意図分類・ダイアログ管理・タスク実行に振り分けられます。エージェントアプローチは複数の専門Agentを組み合わせることで、コマンド実行や情報検索、会話型返答などをモジュール化して実装できる点が肝です。

LLM側は「可配置」である点が重要です。ローカルで動く軽量モデルや、外部APIの大型モデルまでを切り替えて利用できる設計により、用途や利用環境(オフライン重視 vs. 高度な生成重視)に応じた最適化が可能です。さらに環境変数ファイル(.env.example)による設定管理、アクセシビリティに関する改善ガイド(ACCESSIBILITY_FIX.md)、およびライセンスやリリース情報が用意され、開発・デプロイの実務面にも配慮されています。実装言語がJavaScriptであることから、Electron等を使ったデスクトップアプリ化や、Node.jsベースのサーバ部・クライアント部の分離といった一般的なアーキテクチャパターンが想定されます。拡張性・運用性・リージョナル(中国語)特化のバランスが取れた設計が目を引きます。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .env.example: 環境変数やAPIキー、モデルパスなどの設定サンプルファイル。ローカル実行時の調整ポイント。
  • .gitignore: ビルド成果物や機密ファイルを除外するための設定。
  • ACCESSIBILITY_FIX.md: アクセシビリティ向上のための修正点や推奨設定をまとめたドキュメント。画面読み上げやキーボード操作への配慮に言及している想定。
  • AGENTS.md: エージェント(機能モジュール)設計や実装ガイド。複数Agentの連携や役割分担、実行フローの例が含まれる。
  • LICENSE: Apache-2.0 のライセンス文。商用利用や改変に関する条件を明示。
  • README.md(抜粋あり): プロジェクトの概要、目標、バッジ(ライセンス・プラットフォーム・リリース)等を掲載。
  • package.json(想定): 依存関係、スクリプト、エントリポイントの定義。JavaScript製プロジェクトの要。
  • src/ または app/(想定): アプリケーション本体のソースコード。ASR連携、LLMクライアント、UI(ElectronやWeb UI)の実装が入る想定。
  • assets/(想定): ロゴやアイコン、スクリーンショット等の静的資産。
  • scripts/(想定): ビルド・起動・テスト用の補助スクリプト。
  • …他 17 ファイル

各ファイルは、ローカルASRモデルのパス設定やLLMエンドポイントの切替を容易にする設計になっている点が読み取れます。AGENTS.mdやACCESSIBILITY_FIX.mdの存在は、単なるPoCではなく実運用や拡張を視野に入れた丁寧なドキュメント体制を示しています。

まとめ

中国語に特化したオンデバイスASRと可変LLMを組み合わせ、デスクトップ用途での実用性と拡張性を両立しようとする実用的なプロジェクトです(50字)。

リポジトリ情報:

READMEの抜粋:



蛐蛐 (QuQu)

为中文而生的下一代智能语音工作流

License Platform