MCA-LLaVA:大規模視覚言語モデルの幻覚を抑制するマンハッタン因果注意機構
2025/8/8
MCA-LLaVAは、大規模視覚言語モデル(Vision-Language Models, VLMs)における幻覚(hallucination)問題を軽減するための新しい注意機構「マンハッタン因果注意(Manhattan Causal Attention)」を提案するリポジトリです。視覚情報とテキスト情報の融合における情報流れを最適化し、より正確かつ信頼性の高いマルチモーダル生成を実現します。ACM MM25にて発表された研究に基づき、Pythonで実装されたコードと関連ドキュメントが含まれています。