概要

VTC-Benchは、エージェント的振る舞いを持つマルチモーダルモデル（視覚・言語・ツール連携を行うモデル）を対象に、「複数の視覚ツールを組み合わせてタスクを解く」能力を評価するためのベンチマークです。著者らはarXivで論文を公開し、Hugging Faceにデータセットを置いており、リポジトリにはデータ・評価スクリプト・実験用コードが含まれています。主眼はツールの選択、チェーン形成、段階的推論（compositional reasoning）といった高度なエージェント能力の定量化にあります。（約300字）

リポジトリの統計情報

スター数: 17
フォーク数: 1
ウォッチャー数: 17
コミット数: 5
ファイル数: 5
メインの言語: Python

主な特徴

視覚ツールの「チェーン（連鎖）」を前提とした合成的タスク群を提供するデータセット（Hugging Faceリンクあり）
エージェント型マルチモーダルモデルの挙動を評価するための評価コード群（eval/ ディレクトリ）
arXiv論文で提案された評価設計に基づくベンチマークで、研究の再現性を重視
シンプルなPythonベースの実装で、既存モデルへの組み込みや拡張が容易

技術的なポイント

VTC-Benchは「compositional visual tool chaining（合成的視覚ツール連鎖）」という評価軸を導入している点が最大の技術的特徴です。従来の単一ツール呼び出しの評価とは異なり、複数ツールを段階的に選択・適用して最終的な解を得る一連の行動（ツール選択、入力生成、結果統合）を評価対象とします。これにより、単純な出力精度だけでなく、計画性（どの順でツールを使うか）、ツール間の情報受け渡し、部分問題の分割・合成といった高度な能力を測定可能です。

実装面ではデータセット（data/）が問題インスタンスとツール仕様を保持し、eval/ に評価スクリプトが置かれている想定です。src/ にはエージェントのインタフェースやツール呼び出しのラッパーが含まれ、外部モデル（LLMや視覚モジュール）を差し替えて実験できる設計が取られています。評価はトラジェクトリ（ツール呼び出しの履歴）を解析して成功度や一貫性を算出する方式が主で、ベンチマークとしては再現性と拡張性を重視した構成です。加えて、arXiv論文とHugging Faceデータセットへのリンクが明記されており、研究者は論文の設計意図に基づいた実験を容易に再現し、独自のツール群やモデルで比較評価が行えます。（約700字）

プロジェクトの構成

主要なファイルとディレクトリ：

.gitignore: file
README.md: file
data: dir
eval: dir
src: dir

まとめ

エージェント的ツール連鎖評価に特化した実用的なベンチマークです（約50字）。

リポジトリ情報：

名前: VTC-Bench
説明: VisualToolChain-Bench
スター数: 17
言語: Python
URL: https://github.com/zhuzil/VTC-Bench
オーナー: zhuzil
アバター: https://avatars.githubusercontent.com/u/71956094?v=4

READMEの抜粋：

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

arXiv Paper: Dataset:

（注）詳細な使用法や実行コマンド、評価メトリクスの仕様はREADMEと論文を参照してください。

VTC-Bench（VisualToolChain-Bench）