meetscribe — ローカルで動作する会議文字起こしと話者ダイアリゼーション

AI/ML

概要

meetscribeは、ユーザーの手元で完結する会議向けの文字起こしツールです。OSレベルでシステム音をキャプチャしてマイク入力と合わせた二重チャンネル録音を行い、WhisperXで高精度な文字起こしとタイムスタンプ付与、pyannote-audioで話者分離(ダイアリゼーション)を実行します。さらにAIベースの要約生成機能と、美しいPDF出力機能を備え、企業や個人がクラウドに音声を預けずに会議記録を作成・配布できる点が特徴です。動作はローカルで完結するため、データの機密性が重要なユースケースに適しています。

GitHub

リポジトリの統計情報

  • スター数: 29
  • フォーク数: 5
  • ウォッチャー数: 29
  • コミット数: 2
  • ファイル数: 7
  • メインの言語: Python

主な特徴

  • 完全ローカル動作:クラウドAPIを使わず、機密データが外部に出ない設計
  • デュアルチャンネル録音:マイク音声とシステム音を別チャンネルで記録し、話者判別を強化
  • WhisperX + pyannote-audio:高精度なトランスクリプトと話者ダイアリゼーションの組合せ
  • AI要約とPDF出力:会議メモとして配布可能な要約・整形済みPDFを自動生成

技術的なポイント

meetscribeの技術的コアは「デュアルチャンネルの録音」→「トランスクリプト生成(WhisperX)」→「話者分離(pyannote-audio)」→「要約・出力」のパイプラインです。まずOSレベルでシステム音をキャプチャすることで、ZoomやTeamsなど任意の通話アプリの音声を取り込める点が大きな利点です。二重チャンネルで録音すると、各チャネルの音声特性を利用して話者のアサインや発話境界の推定が容易になり、pyannote-audioの話者埋め込み(speaker embeddings)と組み合わせることで精度の高いダイアリゼーションが期待できます。WhisperXはWhisperをベースにタイムアライメントと字幕レベルの精緻化を加えた実装で、単純な転写よりも精密なタイムスタンプと語単位の調整が可能です。

また「完全ローカル」であるため、モデル推論はローカルGPU(あるいはCPU)上で行う必要がある場合が多く、モデルファイルのダウンロードや依存パッケージ(PyTorch、CUDAドライバなど)の適切なセットアップが前提になります。READMEやREQUIREMENTS.mdにセットアップ手順や必要なライブラリが記載されているため、導入時は環境構築に注意が必要です。要約生成は「AI-generated summaries」と明記されていますが、外部APIを使わない設計をうたっていることから、ローカルで動作する言語モデルや軽量な生成実装を想定していると考えられます。出力はダイアライズ済みのテキストと、体裁を整えたPDFを自動で作成するため、運用面では議事録配布がスムーズになります。総じて、データプライバシーを重視する組織やオフラインでの利用を想定するユーザーに適した設計です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • LICENSE: file
  • README.md: file
  • REQUIREMENTS.md: file
  • meet: dir

…他 2 ファイル

(meet ディレクトリ以下に録音・処理と出力を担うスクリプトやモジュールが格納されている想定。REQUIREMENTS.mdで依存関係やインストール手順を確認してください。)

まとめ

ローカル完結で高精度な会議記録を目指す実用的なツールです。

リポジトリ情報:

READMEの抜粋:

meetscribe

Fully local meeting transcription with speaker diarization, AI-generated summaries, and professional PDF output.

Records dual-channel audio (your mic + system audio) from any meeting app and produces diarized transcripts using WhisperX + pyannote-audio. Everything runs on your machine — no cloud APIs, no data leaves your computer.

Works with any meeting app

Because meetscribe captures system audio at the OS level, it works with every voice/video call application:

  • Zo…