InternVLA-A1:ロボット操作のための視覚・言語・行動統合フレームワーク
2025/9/18
InternVLA-A1は、視覚(Vision)・言語(Language)・行動(Action)を一貫して扱うエンドツーエンドのフレームワークです。タスクの進行を予測する「predictive imagination(予測的イマジネーション)」を導入して実行をガイドし、動的で変化する環境下での操作性能を高めることを目的としています。Python実装で、モデル・アセット・実行環境の要件が同梱されています(300字程度)。