リアルタイム翻訳字幕(macOS向け)

AI/ML

概要

Real-Time Translator(realtime-subtitle)は、Apple Silicon 搭載の macOS 環境で動作する、Whisper 系モデルを用いたリアルタイム音声認識+翻訳アプリケーションです。faster-whisper や mlx-whisper といった推論ライブラリを活用し、音声入力を単語単位で逐次的に表示しつつ、バックグラウンドで非同期に翻訳を行うことで UI の遅延を抑えます。オーバーレイ表示や設定ファイルを通じた調整が可能で、会議・配信・字幕生成など実用的な用途を想定しています。

GitHub

リポジトリの統計情報

  • スター数: 18
  • フォーク数: 5
  • ウォッチャー数: 18
  • コミット数: 12
  • ファイル数: 14
  • メインの言語: Python

主な特徴

  • 低遅延のリアルタイム文字起こし(faster-whisper / mlx-whisper 対応)
  • 単語単位のストリーミング表示とコンテキスト蓄積で滑らかな字幕表示
  • 非同期翻訳で UI をブロックせずにバックグラウンド翻訳
  • macOS 向けオーバーレイ UI と設定で柔軟に運用可能

技術的なポイント

このプロジェクトはローカル推論を前提に設計されており、Whisper 系モデルの高速実行を重視しています。faster-whisper や mlx-whisper は GPU(Apple Neural Engine/MPS)や最適化された CPU 実行パスを提供し、従来よりも低遅延でストリーミング推論が可能です。本リポジトリは音声キャプチャ(audio_capture.py)でマイク入力を取得し、音声フレームを逐次的にモデルに渡して部分結果(partial hypothesis)を得ることで「単語単位のストリーミング表示」を実現しています。部分結果はスマートにコンテキストを蓄積して確定文を形成し、UI 側では確定/非確定部分を異なる表示で扱うことで視認性を高めます。

翻訳は非同期タスクとして扱われ、音声認識スレッドとは別に翻訳キューで処理されます。これにより、認識→表示のメイン経路が翻訳処理の重さで遅延しないように設計されています。設定ファイル(config.ini)で翻訳先言語やモデルパス、ストリーミングパラメータ、マイクデバイスなどを調整でき、実運用でのチューニングが容易です。macOS 特有のオーバーレイレンダリングやフォント設定、システムオーディオキャプチャに関する実装も含まれており、配信や画面表示向けに最適化されています。

また、ローカルで動かすことを前提としているため、プライバシーやネットワーク遅延の懸念が少なく、オフライン環境でも動作可能です。拡張としては多言語対応の強化、適応型音声分離、軽量化したエッジ用モデル統合などが想定されます。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • LICENSE: file
  • README.md: file
  • audio_capture.py: file
  • config.ini: file
  • main.py: file
  • overlay.py: file
  • translator.py: file
  • requirements.txt: file
  • utils.py: file
  • models/: dir
  • scripts/: dir …他 4 ファイル

(注)上記は代表的な構成で、音声取得、推論、翻訳、UI 表示を責務ごとに分割したシンプルなモジュール設計になっています。

使いどころと拡張案

  • オンライン会議(Zoom/Teams)の字幕表示や翻訳に利用可能。画面オーバーレイで配信に直接字幕を重ねられる点が便利。
  • 会場での同時通訳的な利用や、録音中のリアルタイム文字起こしに向く。
  • 拡張案としては、マルチチャネル音源の同時処理(話者分離)、WebSocket 経由で別端末に字幕を送る配信機能、クラウドモデルとのハイブリッド運用(ローカルで低レイテンシ、クラウドで高精度処理)などが考えられます。

まとめ

Whisper 系をローカルで高速に動かし、低遅延の字幕翻訳を実現する実用的な macOS ツールキット。

リポジトリ情報:

READMEの抜粋:

Real-Time Translator 🎙️➡️🇨🇳

A high-performance real-time speech-to-text and translation application built for macOS (Apple Silicon optimized).

Features

  • ⚡️ Real-Time Transcription: Instant streaming display using faster-whisper (or mlx-whisper).
  • 🌊 Word-by-Word Streaming: See text appear as you speak, with smart context accumulation.
  • 🔄 Async Translation: Translates text to Chinese (or target language) in the background without blocking the UI.
  • 🖥️ Overlay UI