潜在空間で可視化する音楽ビジュアライザ(latent-musicvis)

AI/ML

概要

latent-musicvisは、音声データをStable Audio VAEで64次元の潜在ベクトルに変換し、UMAPで3次元に射影してインタラクティブに可視化するプロジェクトです。ブラウザ上で3Dプロットを操作し、任意の点をクリックすることで元の音声チャンクを再生できる「再生同期」機能を備えています。サーバー側でエンコードやデータ配信を行い、クライアント側(explorer.html)でビジュアライゼーションと再生を担当するシンプルな構成で、音楽の潜在空間における類似性・変化を直感的に探索できます。

GitHub

リポジトリの統計情報

  • スター数: 12
  • フォーク数: 2
  • ウォッチャー数: 12
  • コミット数: 4
  • ファイル数: 5
  • メインの言語: HTML

主な特徴

  • Stable Audio VAEで音声を64次元の潜在ベクトルにエンコード
  • UMAPで3次元に縮約し、ブラウザでインタラクティブに可視化
  • 点をクリックして対応する音声チャンクを即座に再生(再生同期)
  • 軽量なサーバー(server.py)と単一HTMLインターフェースで動作

技術的なポイント

本プロジェクトのコアは「エンコード → 次元削減 → 可視化/再生」という典型的な潜在空間探索のパイプラインにあります。まずStable Audio VAEを用いて入力音声を短時間のチャンク単位で64次元の連続的な潜在表現にマッピングします。VAEの潜在表現は時間的に滑らかな特徴を持つため、同一楽器や音色、類似する音響特性は潜在空間上で近接する傾向があります。次にUMAPを用いて高次元の潜在ベクトルを3次元に射影します。UMAPは局所構造を保持しつつ全体のトポロジーも比較的良好に保つため、クラスタや連続変化(音色のモーフィング、フレーズの遷移)を可視化するのに向いています。

クライアント側(explorer.html)は射影結果を受け取り、3D空間に点群として描画し、ユーザーの操作(回転・ズーム・選択)に応じてインタラクティブに表示を更新します。選択した点に対してはサーバーから元の音声チャンクをフェッチし、ブラウザのオーディオ再生機能を使って同期再生します。これにより視覚的クラスタと実際の音響的類似性を即座に検証できます。

実装上の注意点として、UMAPはパラメータ(近傍数、最小距離など)で射影結果が変わりやすい点、次元削減による情報損失、VAEの学習品質に依存する点があります。大規模データを扱う場合はサンプリングや事前の特徴選抜、GPUを用いたVAE/UMAP計算の活用が実用的です。また、時間的な連続性を考慮した可視化(経路表示、時間色付け)や、インタラクティブに色やサイズでメタデータを映す拡張が有効です。本リポジトリはプロトタイプ的な構成で、研究用途やサウンドデザインのインスピレーション用途に適しています。

プロジェクトの構成

主要なファイルとディレクトリ:

  • README.md: プロジェクト説明とスクリーンショット、基本的な使い方が記載されたドキュメント
  • explorer.html: ブラウザ側のインターフェース。3Dプロットの描画、ユーザー操作、再生制御を担当するフロントエンド
  • interface.png: UIのスクリーンショット(READMEに使われている画像)
  • requirements.txt: サーバー実行やエンコードに必要なPythonパッケージ(Stable Audio VAEやUMAP関連を含む想定)
  • server.py: 小規模なサーバー。エンコード処理の呼び出し、UMAP変換済みデータや音声チャンクの配信エンドポイントを提供すると想定

各ファイルは最小限の構成で、必要に応じてStable Audio VAEの学習済みモデルや音声データセットを別途用意して使います。requirements.txtを参照して環境を整え、server.pyを起動してexplorer.htmlにアクセスするだけで探索が始められる設計です。

まとめ

潜在表現とUMAPを組み合わせた音声可視化の実用的なプロトタイプ。直感的に音の類似性を探索できる点が魅力です。

リポジトリ情報:

READMEの抜粋:

Latent Space Explorer

Interactive 3D visualization of audio latent spaces using Stable Audio VAE + UMAP.

screenshot of a big blob of multicolored dots and glow, representing a playable 3d projection of the latents from encoding a song with the stable audio VAE

Features

  • Encode audio to 64-dimensional latent vectors via Stable Audio VAE
  • UMAP projection to 3D for interactive visualization
  • Playback sync - click points to hear audio chunks, or pl…