NAUTILUS:水中シーン理解のための大規模マルチモーダルモデル
2025/11/3
本リポジトリは、NeurIPS 2025で提案された「NAUTILUS: A Large Multimodal Model for Underwater Scene Understanding」に対応する実装と補助資料を収録しています。水中画像特有の色偏移・濁り・光害などのドメインギャップに対処するために、大規模な視覚言語モデル(LLaVAやQwen-VL系のファインチューニング手法を含む)を用いて、水中環境向けの表現学習・アライメント・下流タスク(検出、セグメンテーション、VQA、キャプション)を統合的に扱うことを目的としています。コード、図、ログ、微調整用スクリプトが含まれ、再現と拡張がしやすい構成になっています。