mimic_videos — ビデオ拡散を用いたロボット制御フレームワーク
概要
mimic_videos は、論文「mimic-video」に基づくロボット制御フレームワークの拡張実装です。特徴は設定を YAML で管理する点、@Registry を用いたバックボーンやデコーダのプラグイン式登録、Observation→ActionChunk の型付き推論インターフェース(RobotPolicy)、および統一的なトレーニングループです。これにより再コンパイル不要でハイパーパラメータを切り替えやすく、研究向けのモジュール化された実験が行いやすくなっています(約300字)。
リポジトリの統計情報
- スター数: 4
- フォーク数: 0
- ウォッチャー数: 4
- コミット数: 2
- ファイル数: 7
- メインの言語: Python
主な特徴
- YAML-driven config:
conf/train/*.yamlでハイパーパラメータを管理、再コンパイル不要 - Model Registry:
@Registry.backbone/decoderデコレータでプラグイン式にモデルを登録 - RobotPolicy Protocol:型付きの Observation → ActionChunk 推論インターフェースを提供
- 統一トレーナー:学習・検証・評価を一本化したトレーニングループ設計
技術的なポイント
mimic_videos の技術的要点は「モジュール性」と「再現性」に重点を置いた設計です。YAMLベースの設定は実験の再現やハイパーパラメータ探索を容易にし、設定ファイルを差し替えるだけで様々な学習条件を試せます。Model Registry はデコレータでバックボーンやデコーダを明示的に登録できるため、異なるアーキテクチャ(例えば異なるビデオ拡散バックボーンやデコーダ)をプラグイン感覚で差し替え可能です。RobotPolicy Protocol は型付けされたインターフェースを提供し、観測(Observation)からチャンク化された行動(ActionChunk)へ変換する実行経路を規定することで、推論コードと学習コードの分離を助けます。統一トレーナーは学習ループ、チェックポイント管理、ログ出力の処理をまとめることで、研究的な実験の反復を高速化します。加えて、パッケージ管理用の pyproject.toml を持つ点からライブラリ化・配布を念頭に置いた構造であり、初期段階ながら拡張ポイント(conf ディレクトリ、mimic_videos パッケージ、モデルレジストリ)を明確にしているため、ロボットシミュレータやデータセットの差し替え、分散学習や評価スクリプトの追加がしやすい設計です(約700字)。
プロジェクトの構成
主要なファイルとディレクトリ:
- .gitignore: file
- README.md: file
- conf: dir
- mimic_videos: dir
- pyproject.toml: file
…他 2 ファイル
まとめ
研究用途に適したモジュール性と設定管理を備えた拡張可能なプロトタイプです(約50字)。
リポジトリ情報:
- 名前: mimic_videos
- 説明: 説明なし
- スター数: 4
- 言語: Python
- URL: https://github.com/qzhou711/mimic_videos
- オーナー: qzhou711
- アバター: https://avatars.githubusercontent.com/u/23361079?v=4
READMEの抜粋:
mimic_videos
A refactored, extensible implementation of the mimic-video framework — robot control via video diffusion model priors.
Key Features
- YAML-driven config — all hyperparameters in
conf/train/*.yaml, no re-compilation needed - Model Registry —
@Registry.backbone/decoderdecorators for plugin-style extensibility RobotPolicyProtocol — typedObservation → ActionChunkinference interface- Unified Trainer — single `…