Unblink — カメラ映像でVLMを動かすリアルタイム監視アプリ

AI/ML

概要

Unblinkは、カメラ映像を入力として視覚言語モデル(VLM)を動かし、リアルタイムで物体検出や文脈理解、ビデオ検索を行うカメラ監視アプリケーションです。プロジェクトはTypeScriptで書かれ、実行ランタイムにBunを想定している点が特徴です。主要な機能として、D-FINEを用いたオブジェクト検出、SmolVLM2による画像とテキストのクロスモーダル理解、複数映像からのインテリジェント検索が挙げられます。ライブデモも提供され、開発者がローカルやクラウドで簡単に試せるよう設計されています(約300字)。

GitHub

リポジトリの統計情報

  • スター数: 20
  • フォーク数: 0
  • ウォッチャー数: 20
  • コミット数: 30
  • ファイル数: 19
  • メインの言語: TypeScript

主な特徴

  • D-FINEによる高精度の物体検出をリアルタイムで実行
  • SmolVLM2で映像からの文脈把握・質問応答を実現
  • 複数カメラ映像を横断するインテリジェント検索機能
  • Bun + TypeScriptベースで軽量かつモダンなスタック

技術的なポイント

Unblinkは「カメラストリームをそのままAIで解析する」ことを目標にしており、いくつかの技術的選択が特徴的です。まず言語・ランタイム面ではTypeScriptを全面に採用し、実行環境にBunを指定している点から、高速な起動・モジュール解決やネイティブ系パフォーマンスを活かした設計を意図していることが伺えます。モデル面ではD-FINEを物体検出に、SmolVLM2を視覚と言語のクロスモーダル理解に利用しており、これらを組み合わせることで単純な検出結果の提示だけでなく「状況の文脈化」や自然言語による検索・問い合わせが可能になります。リアルタイム処理のためにはカメラからのフレーム取得、前処理、モデル推論、結果の重畳表示というパイプラインが必要で、低遅延を保つためのバッチサイズ調整や推論頻度の制御、非同期処理の設計が重要になります。UI/UX面ではブラウザベースのライブビューに検出結果や検索インデックスを重ねる実装が想定され、またプライバシー配慮としてローカル実行やオンプレミスでの推論をサポートする設計が望まれます。開発面ではBun依存のため導入手順はシンプルですが、モデルの扱いや推論環境(GPUやWASM対応など)に関する調整が必要です。全体として、軽量なランタイムとVLMの組合せにより、実用的なカメラ解析アプリを小規模なコードベースで実現している点が技術的な魅力です。(約700字)

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • CLAUDE.md: file
  • LICENSE: file
  • README.md: file
  • assets: dir

…他 14 ファイル

まとめ

実運用を視野に入れた軽量VLMベースのカメラ解析アプリで、導入が容易なのが強み。(約50字)

リポジトリ情報:

READMEの抜粋:

Unblink

Unblink is a camera monitoring application that runs AI vision models on your camera streams in real-time. Key features:

  • 👀 Object detection with D-FINE
  • 🤓 Contextual understanding with SmolVLM2
  • 🔎 Intelligent search across your video feeds.

Live demo: https://app.zapdoslabs.com

Getting Started

Prerequisites

  • Bun runtime installed on your system

Inst…