LLaVA-OneVision-1.5: オープンなマルチモーダル学習フレームワーク
概要
LLaVA-OneVision-1.5は「Fully Open Framework for Democratized Multimodal Training」を掲げるプロジェクトで、オープンソースの大規模マルチモーダルモデル(LMM)を低コストで訓練・配布するためのフレームワークとデータセットを提供します。Hugging Face上でMid-TrainingデータやInstructデータの公開を進めており、Megatron系の分散学習モジュールやLLMトレーニング用ツール群を含む設計で、研究者や開発者が容易に再現・改良できる構成を目指しています。
リポジトリの統計情報
- スター数: 36
- フォーク数: 1
- ウォッチャー数: 36
- コミット数: 2
- ファイル数: 14
- メインの言語: Python
主な特徴
- 完全オープンを標榜するマルチモーダル学習フレームワークとデータセットの公開
- Mid-Training / Instruct用データセットをHugging Faceで提供(アップロード中の表記あり)
- Megatron系分散学習モジュールやLLMトレーニング用スクリプトを同梱し、スケール学習に対応
- 研究や再現実験を想定したモジュール化された構成
技術的なポイント
LLaVA-OneVision-1.5は、マルチモーダルモデルの「民主化(democratized)」を目標に、データ公開と学習パイプラインの両面で設計されています。READMEの記述からは、中間事前学習用(Mid-Training)と命令フォロー用(Instruct)のデータセットを用意しており、これらはHugging Faceで公開・配布される予定です。コードベースはPythonで、aiak_megatronなどのディレクトリから推察される通り、Megatron-LM由来の分散/モデル並列化技術を取り入れ、GPUクラスタ上での大規模学習に対応しています。aiak_training_llmディレクトリはLLMトレーニングに特化したユーティリティやランチャー、学習ループ/チェックポイント管理を含む構成が想定され、configsディレクトリでハイパーパラメータや実験設定を管理する一般的なワークフローを提供します。また、assetディレクトリは評価プロンプトやサンプル資産、テンプレート類を格納している可能性が高く、実験の迅速な立ち上げを支援します。設計思想としては、データ効率とコスト効率(低コストでSOTA性能を狙う)に重きを置き、研究者が既存のモデルやデータに対して容易に再学習や微調整を行えるようモジュール化・再現性の確保を図っている点が注目されます。
プロジェクトの構成
主要なファイルとディレクトリ:
- README.md: file
- aiak_megatron: dir
- aiak_training_llm: dir
- asset: dir
- configs: dir
…他 9 ファイル
まとめ
オープンなデータと分散学習パイプラインでマルチモーダル研究の敷居を下げる実践的なフレームワークです。(約50字)
リポジトリ情報:
- 名前: LLaVA-OneVision-1.5
- 説明: 説明なし
- スター数: 36
- 言語: Python
- URL: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
- オーナー: EvolvingLMMs-Lab
- アバター: https://avatars.githubusercontent.com/u/154951679?v=4
READMEの抜粋:
LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
🤗 Mid-Training-Data (Uploading!) | 🤗 Insturct-Data (Uploading!)
LLaVA-OneVision1.5 introduces a novel family of fully open-source Large Multimodal Models (LMMs) that achieves state-of-the-art performance with substantially lower cost t…