VFMTok — ビジョン基盤モデルを用いた視覚トークナイザ

AI/ML

概要

VFMTokは「Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation」(NeurIPS 2025)に基づく公式PyTorch実装です。本プロジェクトは、事前学習済みのビジョン基盤モデル(例:ViT、CLIP、MAEなど)が出力する特徴量を活用して、画像を自己回帰生成モデルが扱える離散トークン列へと変換する“視覚トークナイザ”を構築する点を主眼とします。従来のVQ-VAEやdVAEのような専用の符号化器をゼロから訓練する代わりに、強力な表現学習済みモデルを利用することで、学習効率・生成品質の改善と実験の再現性向上を目指しています。

GitHub

リポジトリの統計情報

  • スター数: 14
  • フォーク数: 0
  • ウォッチャー数: 14
  • コミット数: 17
  • ファイル数: 13
  • メインの言語: Python

主な特徴

  • ビジョン基盤モデルの特徴量を視覚トークン化に応用し、専用量子化器の訓練負荷を削減。
  • 自己回帰画像生成モジュール(Transformerベース)と統合した end-to-end ワークフローを提供。
  • PyTorch 実装/GPU 対応、Hugging Face との連携(モデル配布・実験結果)。
  • 設定ファイル(configs)と再現用スクリプトで実験の再現性を重視。

技術的なポイント

VFMTokの核心は「既存の視覚表現を離散化して、自己回帰モデルの入力に変換する」という設計思想です。具体的には、事前学習済みの ViT や CLIP などから得られるパッチ・レベルまたはトークン・レベルの埋め込みを抽出し、それを離散トークン列に変換するパイプラインを提供します。離散化には k-means や近傍探索(nearest neighbor)ベースの擬似コードブック生成、あるいは層ごとの特徴量クラスタリングといった手法が併用され、これにより従来の学習型エンコーダ(VQ-VAE等)を用いない利点が得られます。

このアプローチの利点は二点あります。第一に、基盤モデルが持つ高次元かつ意味的に豊かな特徴をそのまま利用できるため、トークンが画像の意味情報をよりよく保持する点。第二に、既存の基盤モデルを再利用することで、トークナイザ学習に要するデータと計算資源を削減できる点です。自己回帰側は標準的なTransformerを用い、トークン列の教師あり学習(クロスエントロピー)で学習します。生成時は典型的なサンプリング戦略(top-k / nucleus sampling)や条件付き生成をサポートします。

実装面では、PyTorchベースでGPU最適化が施され、configsディレクトリに学習/評価用の設定ファイルが整備されています。autoregressiveディレクトリにはTransformer訓練とサンプリングのスクリプトがあり、assetsにはフローチャートや実験結果の図が含まれます。Hugging Faceのモデルページ(yexiguafu/VFMTok)との連携により、事前学習済みトークナイザや生成モデルのダウンロード・検証が容易です。評価指標は論文に準拠してFID等を想定しており、再現性のためのシード制御やチェックポイント管理も実装されています。

一方で注意点として、基盤モデルへの依存度が高いため、使用する基盤モデルのライセンスや推論コスト、トークン長(シーケンス長)に伴うメモリ制約などは実環境で考慮する必要があります。将来的にはより効率的な量子化手法や大規模生成器との組み合わせで、さらに高品質な結果が期待できます。

プロジェクトの構成

主要なファイルとディレクトリ:

  • LICENSE: file
  • README.md: file
  • assets: dir
  • autoregressive: dir
  • configs: dir

…他 8 ファイル

まとめ

基盤モデルを活用した実用的な視覚トークナイザ実装で、再現性と効率性に優れる。

リポジトリ情報:

READMEの抜粋:

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation
Official PyTorch Implementation

arXiv  huggingface 

This is a PyTorch/GPU implementation of the…