VTC-Bench(VisualToolChain-Bench)
概要
VTC-Benchは、エージェント的振る舞いを持つマルチモーダルモデル(視覚・言語・ツール連携を行うモデル)を対象に、「複数の視覚ツールを組み合わせてタスクを解く」能力を評価するためのベンチマークです。著者らはarXivで論文を公開し、Hugging Faceにデータセットを置いており、リポジトリにはデータ・評価スクリプト・実験用コードが含まれています。主眼はツールの選択、チェーン形成、段階的推論(compositional reasoning)といった高度なエージェント能力の定量化にあります。(約300字)
リポジトリの統計情報
- スター数: 17
- フォーク数: 1
- ウォッチャー数: 17
- コミット数: 5
- ファイル数: 5
- メインの言語: Python
主な特徴
- 視覚ツールの「チェーン(連鎖)」を前提とした合成的タスク群を提供するデータセット(Hugging Faceリンクあり)
- エージェント型マルチモーダルモデルの挙動を評価するための評価コード群(eval/ ディレクトリ)
- arXiv論文で提案された評価設計に基づくベンチマークで、研究の再現性を重視
- シンプルなPythonベースの実装で、既存モデルへの組み込みや拡張が容易
技術的なポイント
VTC-Benchは「compositional visual tool chaining(合成的視覚ツール連鎖)」という評価軸を導入している点が最大の技術的特徴です。従来の単一ツール呼び出しの評価とは異なり、複数ツールを段階的に選択・適用して最終的な解を得る一連の行動(ツール選択、入力生成、結果統合)を評価対象とします。これにより、単純な出力精度だけでなく、計画性(どの順でツールを使うか)、ツール間の情報受け渡し、部分問題の分割・合成といった高度な能力を測定可能です。
実装面ではデータセット(data/)が問題インスタンスとツール仕様を保持し、eval/ に評価スクリプトが置かれている想定です。src/ にはエージェントのインタフェースやツール呼び出しのラッパーが含まれ、外部モデル(LLMや視覚モジュール)を差し替えて実験できる設計が取られています。評価はトラジェクトリ(ツール呼び出しの履歴)を解析して成功度や一貫性を算出する方式が主で、ベンチマークとしては再現性と拡張性を重視した構成です。加えて、arXiv論文とHugging Faceデータセットへのリンクが明記されており、研究者は論文の設計意図に基づいた実験を容易に再現し、独自のツール群やモデルで比較評価が行えます。(約700字)
プロジェクトの構成
主要なファイルとディレクトリ:
- .gitignore: file
- README.md: file
- data: dir
- eval: dir
- src: dir
まとめ
エージェント的ツール連鎖評価に特化した実用的なベンチマークです(約50字)。
リポジトリ情報:
- 名前: VTC-Bench
- 説明: VisualToolChain-Bench
- スター数: 17
- 言語: Python
- URL: https://github.com/zhuzil/VTC-Bench
- オーナー: zhuzil
- アバター: https://avatars.githubusercontent.com/u/71956094?v=4
READMEの抜粋:
VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining
(注)詳細な使用法や実行コマンド、評価メトリクスの仕様はREADMEと論文を参照してください。