NoteMR:ノートガイド型多模態大規模言語モデルによる視覚質問応答の強化
2025/6/16
NoteMRは、CVPR 2025で発表された「Notes-guided MLLM Reasoning: Enhancing MLLM with Knowledge and Visual Notes for Visual Question Answering」のコード実装リポジトリです。本プロジェクトは、多模態大規模言語モデル(MLLM)に対して、知識ノートと視覚ノートを組み合わせて推論能力を高める手法を提案し、視覚質問応答(VQA)の精度向上を目指しています。Pythonで実装され、AI分野における先進的な研究を実用的に体験可能です。