mimic_videos — ビデオ拡散を用いたロボット制御フレームワーク

AI/ML

概要

mimic_videos は、論文「mimic-video」に基づくロボット制御フレームワークの拡張実装です。特徴は設定を YAML で管理する点、@Registry を用いたバックボーンやデコーダのプラグイン式登録、Observation→ActionChunk の型付き推論インターフェース(RobotPolicy)、および統一的なトレーニングループです。これにより再コンパイル不要でハイパーパラメータを切り替えやすく、研究向けのモジュール化された実験が行いやすくなっています(約300字)。

GitHub

リポジトリの統計情報

  • スター数: 4
  • フォーク数: 0
  • ウォッチャー数: 4
  • コミット数: 2
  • ファイル数: 7
  • メインの言語: Python

主な特徴

  • YAML-driven config:conf/train/*.yaml でハイパーパラメータを管理、再コンパイル不要
  • Model Registry:@Registry.backbone/decoder デコレータでプラグイン式にモデルを登録
  • RobotPolicy Protocol:型付きの Observation → ActionChunk 推論インターフェースを提供
  • 統一トレーナー:学習・検証・評価を一本化したトレーニングループ設計

技術的なポイント

mimic_videos の技術的要点は「モジュール性」と「再現性」に重点を置いた設計です。YAMLベースの設定は実験の再現やハイパーパラメータ探索を容易にし、設定ファイルを差し替えるだけで様々な学習条件を試せます。Model Registry はデコレータでバックボーンやデコーダを明示的に登録できるため、異なるアーキテクチャ(例えば異なるビデオ拡散バックボーンやデコーダ)をプラグイン感覚で差し替え可能です。RobotPolicy Protocol は型付けされたインターフェースを提供し、観測(Observation)からチャンク化された行動(ActionChunk)へ変換する実行経路を規定することで、推論コードと学習コードの分離を助けます。統一トレーナーは学習ループ、チェックポイント管理、ログ出力の処理をまとめることで、研究的な実験の反復を高速化します。加えて、パッケージ管理用の pyproject.toml を持つ点からライブラリ化・配布を念頭に置いた構造であり、初期段階ながら拡張ポイント(conf ディレクトリ、mimic_videos パッケージ、モデルレジストリ)を明確にしているため、ロボットシミュレータやデータセットの差し替え、分散学習や評価スクリプトの追加がしやすい設計です(約700字)。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • README.md: file
  • conf: dir
  • mimic_videos: dir
  • pyproject.toml: file

…他 2 ファイル

まとめ

研究用途に適したモジュール性と設定管理を備えた拡張可能なプロトタイプです(約50字)。

リポジトリ情報:

READMEの抜粋:

mimic_videos

A refactored, extensible implementation of the mimic-video framework — robot control via video diffusion model priors.

Key Features

  • YAML-driven config — all hyperparameters in conf/train/*.yaml, no re-compilation needed
  • Model Registry@Registry.backbone/decoder decorators for plugin-style extensibility
  • RobotPolicy Protocol — typed Observation → ActionChunk inference interface
  • Unified Trainer — single `…