video-to-txt — マルチモーダル動画解析ツール
2025/11/3
本リポジトリは、動画を入力として音声の高精度転写(Whisper)、インテリジェントなキーフレーム抽出と画質解析、LLMによる要約・説明生成、さらにサムネイルやGIFなどの動的メディア生成を統合したマルチモーダルな動画解析パイプラインを提供します。ローカル(Ollama互換)とクラウド(OpenAI互換API)両対応の推論エンジンを備え、GradioベースのWeb UIでリアルタイムストリーミング応答と操作性の良いインターフェースを実現します(自動環境構築・システム監視機能付き)。