Local LLM Video Captioning のローカルデモ解説
2026/3/17
Apple Silicon 上で動作するローカルなフレーム単位ビデオキャプショニングのデモリポジトリ。React + Tailwind のフロントエンド、ストリーミング対応の小さな Express プロキシ、そしてローカルの Python ベース mlx_vlm.server による視覚言語推論パスで構成される。MLX と mlx-vlm に依存するため実行には対応環境(主に Apple Silicon Mac)が必要だが、プライバシー重視のオフライン推論やプロトタイプ実装に適している。