インスタント翻訳ツール(Instant Translator)

AI/ML

概要

このリポジトリは「LiveSubs」としてまとめられたリアルタイムキャプションGUIツールです。ローカルで動くWhisper(faster-whisper)を使って音声を逐次テキスト化し、DeepLで翻訳を行って浮動ウィンドウに表示します。ウィンドウは上段に原文(例:英語)、下段に翻訳を流す形式で、スクロール表示とオプションでTXT/SRT保存が可能。留学生や多言語会話のその場理解を助けるユースケースを想定し、軽量に動くことを重視しています。

GitHub

リポジトリの統計情報

  • スター数: 2
  • フォーク数: 0
  • ウォッチャー数: 2
  • コミット数: 7
  • ファイル数: 7
  • メインの言語: Python

主な特徴

  • Whisper(faster-whisper)を利用したローカル音声認識で低遅延の文字起こし
  • DeepLを用いた高品質な翻訳(オンラインAPI利用)
  • 浮動ウィンドウで原文と翻訳をスクロール表示、TXT/SRTでの保存オプション
  • conda / pip 両対応の環境構築とクロスプラットフォーム(Windows/macOS)想定

技術的なポイント

本プロジェクトの注目点は「ローカル音声認識」と「外部翻訳APIの組合せ」によるリアルタイム性と品質のバランスです。音声認識にはfaster-whisperが採用されており、CUDA対応GPUがあれば高速にストリーミング推論が可能、CPU環境でも動作する設計になっています。逐次認識では音声を短いチャンクに分割して逐次的にテキスト出力を得るため、遅延を抑えつつ文脈保持と分割点の調整が重要です。GUI側は浮動ウィンドウでのスクロール表示を行い、原文と翻訳を別行に分けて見やすく提示します。翻訳はDeepL APIを利用するためネットワーク遅延とAPIレート制限を考慮し、非同期リクエストやキュー処理でトラフィックを平滑化する実装が想定されます。SRT出力にはタイムスタンプ管理が必要で、認識結果の区切り(セグメント)から開始/終了時刻を計算してフォーマットする処理が含まれます。また、プライバシー面では音声認識をローカルで行うことで元音声のクラウド送信を避けつつ、翻訳はDeepLへ送信されるため機密情報の扱いに注意が必要です。環境構築はenvironment.ymlやrequirements.txtで依存管理を提供し、Python仮想環境上で手軽に起動できる点も実用性を高めています。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitattributes: file
  • .idea: dir
  • LICENSE: file
  • README.md: file
  • app: dir

…他 2 ファイル

(実行方法)

  • conda:
    • conda env create -f environment.yml
    • conda activate guisubs
  • pip:
    • python -m venv .venv
    • source .venv/bin/activate (macOS/Linux) / .venv\Scripts\Activate.ps1 (Windows PowerShell)
    • pip install -r requirements.txt
  • 実行:
    • python app/main.py

README抜粋より:Whisper (faster-whisper) + DeepL、浮動ウィンドウで英語上段・翻訳下段、TXT/SRT保存オプション。

まとめ

ローカル音声認識とDeepL翻訳を組み合わせた、実用的なリアルタイム翻訳GUIツールです。

リポジトリ情報: