VTC-Bench(VisualToolChain-Bench)

AI/ML

概要

VTC-Benchは、エージェント的振る舞いを持つマルチモーダルモデル(視覚・言語・ツール連携を行うモデル)を対象に、「複数の視覚ツールを組み合わせてタスクを解く」能力を評価するためのベンチマークです。著者らはarXivで論文を公開し、Hugging Faceにデータセットを置いており、リポジトリにはデータ・評価スクリプト・実験用コードが含まれています。主眼はツールの選択、チェーン形成、段階的推論(compositional reasoning)といった高度なエージェント能力の定量化にあります。(約300字)

GitHub

リポジトリの統計情報

  • スター数: 17
  • フォーク数: 1
  • ウォッチャー数: 17
  • コミット数: 5
  • ファイル数: 5
  • メインの言語: Python

主な特徴

  • 視覚ツールの「チェーン(連鎖)」を前提とした合成的タスク群を提供するデータセット(Hugging Faceリンクあり)
  • エージェント型マルチモーダルモデルの挙動を評価するための評価コード群(eval/ ディレクトリ)
  • arXiv論文で提案された評価設計に基づくベンチマークで、研究の再現性を重視
  • シンプルなPythonベースの実装で、既存モデルへの組み込みや拡張が容易

技術的なポイント

VTC-Benchは「compositional visual tool chaining(合成的視覚ツール連鎖)」という評価軸を導入している点が最大の技術的特徴です。従来の単一ツール呼び出しの評価とは異なり、複数ツールを段階的に選択・適用して最終的な解を得る一連の行動(ツール選択、入力生成、結果統合)を評価対象とします。これにより、単純な出力精度だけでなく、計画性(どの順でツールを使うか)、ツール間の情報受け渡し、部分問題の分割・合成といった高度な能力を測定可能です。

実装面ではデータセット(data/)が問題インスタンスとツール仕様を保持し、eval/ に評価スクリプトが置かれている想定です。src/ にはエージェントのインタフェースやツール呼び出しのラッパーが含まれ、外部モデル(LLMや視覚モジュール)を差し替えて実験できる設計が取られています。評価はトラジェクトリ(ツール呼び出しの履歴)を解析して成功度や一貫性を算出する方式が主で、ベンチマークとしては再現性と拡張性を重視した構成です。加えて、arXiv論文とHugging Faceデータセットへのリンクが明記されており、研究者は論文の設計意図に基づいた実験を容易に再現し、独自のツール群やモデルで比較評価が行えます。(約700字)

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • README.md: file
  • data: dir
  • eval: dir
  • src: dir

まとめ

エージェント的ツール連鎖評価に特化した実用的なベンチマークです(約50字)。

リポジトリ情報:

READMEの抜粋:

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

arXiv Paper: Static Badge     Dataset: Static Badge


(注)詳細な使用法や実行コマンド、評価メトリクスの仕様はREADMEと論文を参照してください。