Spatial-TTT:ストリーミング視覚に基づく空間知能のテスト時学習

AI/ML

概要

Spatial-TTTは、ストリーミング映像に対する「テスト時学習(Test-Time Training)」を用いて、視覚ベースの空間知能(Spatial Intelligence)を強化するための研究実装です。従来の学習済みモデルは、実際の運用環境で遭遇するドメインシフト(照明、視点、物体配置の変化など)に弱いことが知られています。本プロジェクトは、自己教師ありな補助タスクや軽量な適応ヘッドを用い、逐次フレーム(ストリーミング)に対してオンラインでモデルを微調整することで、実時間または近リアルタイムでの頑健性向上を図ります。リポジトリには実験用コード、評価スクリプト、アセットが含まれ、論文の公式実装として再現や発展が可能です。

GitHub

リポジトリの統計情報

  • スター数: 23
  • フォーク数: 0
  • ウォッチャー数: 23
  • コミット数: 7
  • ファイル数: 6
  • メインの言語: Python

主な特徴

  • テスト時学習(TTT)をストリーミング映像に適用するための実装。
  • 空間的自己教師あり損失を用いたオンライン適応機構。
  • 軽量な適応ヘッドと安定化手法によりリアルタイム運用を目指す設計。
  • 実験/評価スクリプトとアセットを含み、再現・比較が可能。

技術的なポイント

Spatial-TTTの技術は大きく分けて「ストリーミング対応のオンライン適応設計」「空間的な自己教師あり補助タスク」「安定化・効率化」の三点に集約されます。まずストリーミング処理では、連続するフレームから逐次的に自己教師あり損失を計算し、推論中にモデルの一部(通常は最後の分類/回帰ヘッドや軽量な適応モジュール)を微調整します。このとき全パラメータを更新すると過学習や計算遅延を招くため、パラメータ固定+適応ヘッド更新という分離設計が採られるのが一般的です。次に空間的自己教師ありタスクとしては、空間的な整合性(例:局所領域の配置、パッチの相対位置予測、空間的コントラスト)を損失に取り入れることで、単一フレームのラベル情報が乏しくても特徴表現をドメインに合わせて調整します。最後に安定化の工夫として、バッファに過去の特徴を蓄えたミニバッチ更新、更新率の制御(学習率スケジューリングや勾配クリッピング)、および元モデルとの整合性を保つための正則化項(例えば蒸留的損失やL2制約)が導入されます。評価パイプラインはevaluationディレクトリにまとめられており、ストリーミング条件下での性能計測や比較実験を容易に行える構成です。これらの設計により、実世界のドメインシフト下でも空間的推論の精度と頑健性を両立させることを目標としています。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • LICENSE: file
  • README.md: file
  • assets: dir
  • evaluation: dir

…他 1 ファイル

(注:リポジトリは比較的コンパクトで、実験再現のためのコア実装と評価スクリプトが中心です。詳しいコードや追加データはREADMEを参照してください。)

使い方(概要)

READMEの記載に従い、環境構築(Python依存関係のインストール)、プリトレーニングモデルの読み込み、ストリーミングデータの準備を行います。次に評価スクリプトを実行すると、ストリーミング環境下でのテスト時学習が行われ、タスク毎の指標が出力されます。自己教師あり損失や更新スケジュールなどは設定ファイルやスクリプト引数で調整可能な設計になっていることが多く、研究用途でのパラメータ探索に適しています。

まとめ

ストリーミング環境における実用的なテスト時学習の公式実装で、研究・実験の出発点として有用。

リポジトリ情報:

READMEの抜粋:

✨ Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training ✨

Fangfu Liu*, Diankun Wu*, Jiawei Chi*, Yimo Cai1, Yi-Hsin Hung1, Xumin Yu2,