Maivi(My AI Voice Input)
概要
Maivi(My AI Voice Input)は、デスクトップ上で手軽に音声をテキスト化するためのクロスプラットフォームアプリケーションです。既定のホットキー(Alt+Q)を押すだけで録音が始まり、音声はローカルでモデル推論され、逐次的に文字起こし結果が表示されます。出力は自動的にクリップボードへコピーされるため、メモやチャットへの貼り付けがすぐに可能。ローカルCPUで動くように設計されているため、ネットワーク不要でプライバシーを保ちつつ低遅延の操作感を目指しています。Pythonベースで比較的シンプルに導入できるのが特徴です。
リポジトリの統計情報
- スター数: 16
- フォーク数: 2
- ウォッチャー数: 16
- コミット数: 15
- ファイル数: 13
- メインの言語: Python
主な特徴
- リアルタイム音声→テキスト変換:録音中に逐次的な文字起こしを表示。
- ホットキー対応:Alt+Qなどのホットキーで手軽に録音開始/停止。
- ローカルCPUでの推論:ネットワーク不要・プライバシー重視のローカル実行を想定。
- 自動クリップボード転送:変換結果を自動でクリップボードにコピーし、すぐに貼り付けられる。
技術的なポイント
Maiviは「低遅延のローカル音声認識」を実現するために、いくつかの重要な技術要素を組み合わせていると考えられます。まず音声キャプチャはバッファリングとチャンク処理(短時間のフレーム単位)を行い、録音しながら逐次的に推論に渡す設計です。これにより音声終了を待たずに部分結果を返せるため実用上の遅延が小さくなります。推論側では、フルサイズの大規模モデルではなく、量子化や軽量化されたモデルやCPU最適化(マルチスレッド、SIMD利用、軽量バックエンドなど)を用いることでGPUが無くても実用的な性能を狙います。
ホットキーやグローバル入力はクロスプラットフォームのキーキャプチャライブラリで実装され、UIは最小限にしてシステムトレイやコンソール中心の操作にすることで軽量化しています。クリップボード連携やOSネイティブな通知は、ユーザー体験を向上させるための重要な周辺機能です。設計上は、音声取得・前処理(ノイズ除去、正規化、VAD等)・モデル推論・結果整形・クリップボード転送を別スレッドまたはプロセスで分離し、入出力待ちが推論に影響しないようにするのが一般的です。
開発面ではPython 3.10+を対象にしているため、型ヒントや最新ランタイム機能を活用できます。パッケージングはPyInstaller等でスタンドアロン化する運用が想定され、ライセンスはMITなので個人・商用問わず利用しやすい点も魅力です。今後の改良点としては、モデルの選択肢追加(軽量モデルやONNX/GGMLサポート)、VADや音声品質改善、言語モデル統合による後処理精度向上などが考えられます。
プロジェクトの構成
主要なファイルとディレクトリ:
- .github: dir(ワークフローやテンプレートが含まれる可能性)
- .gitignore: file(バイナリや環境依存ファイルの除外設定)
- ADD_WORKFLOWS.sh: file(CI/CDやGitHub Actionsの追加を支援するスクリプト)
- CONTRIBUTING.md: file(コントリビューションガイド)
- LICENSE: file(MITライセンス)
その他にREADME.md(使い方、ホットキー、依存関係の説明)、実行用スクリプトやモジュール群、依存リスト(requirements.txt相当)などが含まれており、合計で13ファイル構成となっています(…他 8 ファイル)。
まとめ
ローカルCPUで手軽に使えるリアルタイム音声入力ツール。拡張性と実用性が高い。
リポジトリ情報:
- 名前: maivi
- 説明: Maivi - My AI Voice Input: Real-time voice-to-text local on cpu better than whisper with hotkey support
- スター数: 16
- 言語: Python
- URL: https://github.com/MaximeRivest/maivi
- オーナー: MaximeRivest
- アバター: https://avatars.githubusercontent.com/u/10967951?v=4
READMEの抜粋:
Maivi - My AI Voice Input 🎤
Real-time voice-to-text transcription with hotkey support
Maivi (My AI Voice Input) is a cross-platform desktop application that turns your voice into text using state-of-the-art AI models. Simply press Alt+Q to start recording, and press again to stop. Your transcription appears in real-time and is automatically copied to your clipboard.