whisperx-arch — Arch Linux向けWhisperXセットアップ & ユーティリティ

AI/ML

概要

このリポジトリは「WhisperX」をArch Linux上で使いやすくするためのセットアップとユーティリティをまとめたものです。WhisperXはOpenAIのWhisperをベースに、バッチ推論による高速化(〜70倍)、単語レベルのタイムスタンプ、スピーカーダイアリゼーション、Voice Activity Detection(VAD)といった機能を追加したプロジェクトです。本リポジトリでは、インストール手順の自動化スクリプトやWayland環境(Hyprland)向けのキーバインディング例などを提供し、Arch特有のパッケージ管理方針やGPU環境に合わせた導入を支援します。

GitHub

リポジトリの統計情報

  • スター数: 1
  • フォーク数: 0
  • ウォッチャー数: 1
  • コミット数: 7
  • ファイル数: 5
  • メインの言語: Shell

主な特徴

  • Arch Linux向けにまとめられたWhisperX導入スクリプト(whisperx-unified.sh)
  • Hyprland(Wayland)向けのキーバインド設定例(keybindings-hyprland.conf)
  • 軽量で実用的な構成:シェルスクリプト中心のシンプル設計
  • WhisperXの高速化・精度向上機能(タイムスタンプ、話者識別、VAD)に対応

技術的なポイント

WhisperX自体はWhisperの拡張で、主に以下の技術的改善を含みます。まず「バッチ推論」による高速化は、複数音声チャンクをまとめてGPUに投入することでGPUリソースを効率化し、推論スループットを大きく向上させます。次に「単語レベルのタイムスタンプ」は、まずセグメント単位の推論で大まかな区間を特定し、その後フォースアライメント(強制整列)手法を用いて各単語の開始・終了時刻を精密に割り出します。スピーカーダイアリゼーションは、音声特徴量(メルスペクトログラム等)をクラスタリングすることで「誰が発話したか」を推定し、会議録音などでの話者分離に有用です。Voice Activity Detection(VAD)は無音区間やノイズのみの部分を除外して誤認識(ハルシネーション)を減らす役割を果たします。

Arch Linux上での実運用で重要なのは、GPUドライバとCUDA/CUDNN(あるいは対応するAMDスタック)の整備、FFmpegなどネイティブツールのインストール、Python仮想環境とpip依存関係の固定です。本リポジトリのシェルスクリプトは、これらの前提を踏まえつつ必要なPythonパッケージやビルドツールの導入、WhisperXリポジトリのクローンやモデルダウンロードの手順をまとめることで、手動での環境構築に伴うミスを減らします。また、Wayland(Hyprland)ユーザー向けにキーで録音開始/停止やトランスクリプト呼び出しを割り当てる設定例を含むため、デスクトップとの連携も想定されています。シンプルなシェル中心の構成はカスタマイズしやすく、必要に応じてコンテナ化やsystemdサービス化して長時間のバッチ処理に組み込むことも容易です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • LICENSE: file
  • README.md: file
  • keybindings-hyprland.conf: file
  • whisperx-unified.sh: file

まとめ

Arch上でWhisperXを手早く導入し、デスクトップと連携させるための実用的なスクリプト集です(50字程度)。

リポジトリ情報:

READMEの抜粋:

WhisperX Setup on Arch Linux

WhisperX (github.com/m-bain/whisperX) is an enhanced version of OpenAI’s Whisper that provides:

  • 70x faster transcription through batched inference
  • Word-level timestamps with precise alignment
  • Speaker diarization (who said what)
  • Voice Activity Detection to reduce hallucinations
  • <8GB GPU memory requirement for large models

Part 1: WhisperX Essential Setup

Install WhisperX on Arch Linux