whisperx-arch — Arch Linux向けWhisperXセットアップ & ユーティリティ
概要
このリポジトリは「WhisperX」をArch Linux上で使いやすくするためのセットアップとユーティリティをまとめたものです。WhisperXはOpenAIのWhisperをベースに、バッチ推論による高速化(〜70倍)、単語レベルのタイムスタンプ、スピーカーダイアリゼーション、Voice Activity Detection(VAD)といった機能を追加したプロジェクトです。本リポジトリでは、インストール手順の自動化スクリプトやWayland環境(Hyprland)向けのキーバインディング例などを提供し、Arch特有のパッケージ管理方針やGPU環境に合わせた導入を支援します。
リポジトリの統計情報
- スター数: 1
- フォーク数: 0
- ウォッチャー数: 1
- コミット数: 7
- ファイル数: 5
- メインの言語: Shell
主な特徴
- Arch Linux向けにまとめられたWhisperX導入スクリプト(whisperx-unified.sh)
- Hyprland(Wayland)向けのキーバインド設定例(keybindings-hyprland.conf)
- 軽量で実用的な構成:シェルスクリプト中心のシンプル設計
- WhisperXの高速化・精度向上機能(タイムスタンプ、話者識別、VAD)に対応
技術的なポイント
WhisperX自体はWhisperの拡張で、主に以下の技術的改善を含みます。まず「バッチ推論」による高速化は、複数音声チャンクをまとめてGPUに投入することでGPUリソースを効率化し、推論スループットを大きく向上させます。次に「単語レベルのタイムスタンプ」は、まずセグメント単位の推論で大まかな区間を特定し、その後フォースアライメント(強制整列)手法を用いて各単語の開始・終了時刻を精密に割り出します。スピーカーダイアリゼーションは、音声特徴量(メルスペクトログラム等)をクラスタリングすることで「誰が発話したか」を推定し、会議録音などでの話者分離に有用です。Voice Activity Detection(VAD)は無音区間やノイズのみの部分を除外して誤認識(ハルシネーション)を減らす役割を果たします。
Arch Linux上での実運用で重要なのは、GPUドライバとCUDA/CUDNN(あるいは対応するAMDスタック)の整備、FFmpegなどネイティブツールのインストール、Python仮想環境とpip依存関係の固定です。本リポジトリのシェルスクリプトは、これらの前提を踏まえつつ必要なPythonパッケージやビルドツールの導入、WhisperXリポジトリのクローンやモデルダウンロードの手順をまとめることで、手動での環境構築に伴うミスを減らします。また、Wayland(Hyprland)ユーザー向けにキーで録音開始/停止やトランスクリプト呼び出しを割り当てる設定例を含むため、デスクトップとの連携も想定されています。シンプルなシェル中心の構成はカスタマイズしやすく、必要に応じてコンテナ化やsystemdサービス化して長時間のバッチ処理に組み込むことも容易です。
プロジェクトの構成
主要なファイルとディレクトリ:
- .gitignore: file
- LICENSE: file
- README.md: file
- keybindings-hyprland.conf: file
- whisperx-unified.sh: file
まとめ
Arch上でWhisperXを手早く導入し、デスクトップと連携させるための実用的なスクリプト集です(50字程度)。
リポジトリ情報:
- 名前: whisperx-arch
- 説明: WhisperX setup and utilities for Arch Linux
- スター数: 1
- 言語: Shell
- URL: https://github.com/ariel-frischer/whisperx-arch
- オーナー: ariel-frischer
- アバター: https://avatars.githubusercontent.com/u/19893395?v=4
READMEの抜粋:
WhisperX Setup on Arch Linux
WhisperX (github.com/m-bain/whisperX) is an enhanced version of OpenAI’s Whisper that provides:
- 70x faster transcription through batched inference
- Word-level timestamps with precise alignment
- Speaker diarization (who said what)
- Voice Activity Detection to reduce hallucinations
- <8GB GPU memory requirement for large models
Part 1: WhisperX Essential Setup
Install WhisperX on Arch Linux