概要

LLaVA-OneVision-1.5は「Fully Open Framework for Democratized Multimodal Training」を掲げるプロジェクトで、オープンソースの大規模マルチモーダルモデル（LMM）を低コストで訓練・配布するためのフレームワークとデータセットを提供します。Hugging Face上でMid-TrainingデータやInstructデータの公開を進めており、Megatron系の分散学習モジュールやLLMトレーニング用ツール群を含む設計で、研究者や開発者が容易に再現・改良できる構成を目指しています。

リポジトリの統計情報

スター数: 36
フォーク数: 1
ウォッチャー数: 36
コミット数: 2
ファイル数: 14
メインの言語: Python

主な特徴

完全オープンを標榜するマルチモーダル学習フレームワークとデータセットの公開
Mid-Training / Instruct用データセットをHugging Faceで提供（アップロード中の表記あり）
Megatron系分散学習モジュールやLLMトレーニング用スクリプトを同梱し、スケール学習に対応
研究や再現実験を想定したモジュール化された構成

技術的なポイント

LLaVA-OneVision-1.5は、マルチモーダルモデルの「民主化（democratized）」を目標に、データ公開と学習パイプラインの両面で設計されています。READMEの記述からは、中間事前学習用（Mid-Training）と命令フォロー用（Instruct）のデータセットを用意しており、これらはHugging Faceで公開・配布される予定です。コードベースはPythonで、aiak_megatronなどのディレクトリから推察される通り、Megatron-LM由来の分散／モデル並列化技術を取り入れ、GPUクラスタ上での大規模学習に対応しています。aiak_training_llmディレクトリはLLMトレーニングに特化したユーティリティやランチャー、学習ループ／チェックポイント管理を含む構成が想定され、configsディレクトリでハイパーパラメータや実験設定を管理する一般的なワークフローを提供します。また、assetディレクトリは評価プロンプトやサンプル資産、テンプレート類を格納している可能性が高く、実験の迅速な立ち上げを支援します。設計思想としては、データ効率とコスト効率（低コストでSOTA性能を狙う）に重きを置き、研究者が既存のモデルやデータに対して容易に再学習や微調整を行えるようモジュール化・再現性の確保を図っている点が注目されます。

プロジェクトの構成

主要なファイルとディレクトリ：

README.md: file
aiak_megatron: dir
aiak_training_llm: dir
asset: dir
configs: dir

…他 9 ファイル

まとめ

オープンなデータと分散学習パイプラインでマルチモーダル研究の敷居を下げる実践的なフレームワークです。（約50字）

リポジトリ情報：

名前: LLaVA-OneVision-1.5
説明: 説明なし
スター数: 36
言語: Python
URL: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
オーナー: EvolvingLMMs-Lab
アバター: https://avatars.githubusercontent.com/u/154951679?v=4

READMEの抜粋：

LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training

🤗 Mid-Training-Data (Uploading!) | 🤗 Insturct-Data (Uploading!)

LLaVA-OneVision1.5 introduces a novel family of fully open-source Large Multimodal Models (LMMs) that achieves state-of-the-art performance with substantially lower cost t…

LLaVA-OneVision-1.5: オープンなマルチモーダル学習フレームワーク