video-to-txt — マルチモーダル動画解析ツール
概要
video-to-txt は、動画を解析してテキスト化・要約・視覚素材生成まで行うオールインワンのマルチモーダルAIツールです。高性能な音声転写(Whisper)による文字起こし、フレーム解析によるキーフレーム抽出と画質評価、LLMを用いた自然言語要約・説明生成、GIF/短尺動画の切り出しやサムネイル作成などの機能を備えます。ローカル推論(Ollama互換)とクラウドAPI(OpenAI互換)の両方をサポートし、GradioベースのWeb UIでデモやリアルタイム応答が可能です。元プロジェクトは「video-analyzer」で、本プロジェクトは二次開発(外帶web UI)版です。
リポジトリの統計情報
- スター数: 11
- フォーク数: 4
- ウォッチャー数: 11
- コミット数: 7
- ファイル数: 17
- メインの言語: Python
主な特徴
- 高精度音声転写(Whisper)による高速な文字起こしパイプライン
- キーフレーム抽出と画質分析による重要フレーム検出とサムネイル/GIF生成
- Ollama(ローカル)とOpenAI互換API(クラウド)の二重推論エンジン対応でプライバシーと可搬性を両立
- GradioベースのWeb UIとリアルタイムストリーミングでインタラクティブな解析体験
技術的なポイント
このプロジェクトは、動画解析の典型的な処理をモジュール化して実装している点が特徴です。まず動画からの音声抽出とWhisperによる転写を行い、得られたテキストを後段のLLM要約やタグ付けに渡します。映像側ではフレームごとの特徴量(解像度、シャープネス、露出、類似度など)を計算し、画質スコアとフレーム差分に基づくキーフレーム選定を行います。選定後は、重要なシーンをGIFや短尺動画として切り出したり、サムネイルを自動生成するワークフローを備えています。推論エンジンは設計上プラガブルで、ローカルのOllamaやクラウドのOpenAI互換APIを切り替え可能なため、オンプレミスでのプライバシー保護運用からクラウドの大規模モデル利用まで柔軟に対応できます。さらに、Gradioを用いたWeb UIはストリーミング応答をサポートしており、長時間動画の逐次解析結果を即時にプレビュー可能です。性能面ではGPU利用を想定した処理やバッチ化が考慮されており、自動環境構築スクリプトやシステムリソース監視ツールも統合されているため、導入と運用のハードルが下がります。拡張性は高く、モデルの差し替えや解析ルールの追加が容易で、カスタムアノテーションや追加メタデータの付与にも対応しやすい設計です。
プロジェクトの構成
主要なファイルとディレクトリ:
- LICENSE: file
- MANIFEST.in: file
- README.md: file
- app.py: file
- build: dir
…他 12 ファイル
まとめ
ローカル/クラウド両対応で実用的な動画→テキスト解析パイプライン。
リポジトリ情報:
- 名前: video-to-txt
- 説明: 二开项目,多模态 AI 视频分析、本地/云端双引擎 (支持 Ollama 与 OpenAI 兼容 API)、智能关键帧提取与画质分析、高性能音频转录 (Whisper)、AI 摘要报告与动态媒体生成 (视频/GIF)、集成化 WebUI 与实时流式响应、自动化环境配置与系统资源监控
- スター数: 11
- 言語: Python
- URL: https://github.com/lzA6/video-to-txt
- オーナー: lzA6
- アバター: https://avatars.githubusercontent.com/u/128880206?v=4
READMEの抜粋:
本项目为二开外带web UI
原:https://github.com/byjlw/video-analyzer
使用效果如下:
https://github.com/user-attachments/assets/699c359e-f260-4317-919d-3f64f36b76d7