LLaVA-OneVision-1.5: オープンなマルチモーダル学習フレームワーク

AI/ML

概要

LLaVA-OneVision-1.5は「Fully Open Framework for Democratized Multimodal Training」を掲げるプロジェクトで、オープンソースの大規模マルチモーダルモデル(LMM)を低コストで訓練・配布するためのフレームワークとデータセットを提供します。Hugging Face上でMid-TrainingデータやInstructデータの公開を進めており、Megatron系の分散学習モジュールやLLMトレーニング用ツール群を含む設計で、研究者や開発者が容易に再現・改良できる構成を目指しています。

GitHub

リポジトリの統計情報

  • スター数: 36
  • フォーク数: 1
  • ウォッチャー数: 36
  • コミット数: 2
  • ファイル数: 14
  • メインの言語: Python

主な特徴

  • 完全オープンを標榜するマルチモーダル学習フレームワークとデータセットの公開
  • Mid-Training / Instruct用データセットをHugging Faceで提供(アップロード中の表記あり)
  • Megatron系分散学習モジュールやLLMトレーニング用スクリプトを同梱し、スケール学習に対応
  • 研究や再現実験を想定したモジュール化された構成

技術的なポイント

LLaVA-OneVision-1.5は、マルチモーダルモデルの「民主化(democratized)」を目標に、データ公開と学習パイプラインの両面で設計されています。READMEの記述からは、中間事前学習用(Mid-Training)と命令フォロー用(Instruct)のデータセットを用意しており、これらはHugging Faceで公開・配布される予定です。コードベースはPythonで、aiak_megatronなどのディレクトリから推察される通り、Megatron-LM由来の分散/モデル並列化技術を取り入れ、GPUクラスタ上での大規模学習に対応しています。aiak_training_llmディレクトリはLLMトレーニングに特化したユーティリティやランチャー、学習ループ/チェックポイント管理を含む構成が想定され、configsディレクトリでハイパーパラメータや実験設定を管理する一般的なワークフローを提供します。また、assetディレクトリは評価プロンプトやサンプル資産、テンプレート類を格納している可能性が高く、実験の迅速な立ち上げを支援します。設計思想としては、データ効率とコスト効率(低コストでSOTA性能を狙う)に重きを置き、研究者が既存のモデルやデータに対して容易に再学習や微調整を行えるようモジュール化・再現性の確保を図っている点が注目されます。

プロジェクトの構成

主要なファイルとディレクトリ:

  • README.md: file
  • aiak_megatron: dir
  • aiak_training_llm: dir
  • asset: dir
  • configs: dir

…他 9 ファイル

まとめ

オープンなデータと分散学習パイプラインでマルチモーダル研究の敷居を下げる実践的なフレームワークです。(約50字)

リポジトリ情報:

READMEの抜粋:

LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

🤗 Mid-Training-Data (Uploading!) | 🤗 Insturct-Data (Uploading!)

LLaVA-OneVision1.5 introduces a novel family of fully open-source Large Multimodal Models (LMMs) that achieves state-of-the-art performance with substantially lower cost t…