MoodBench:大規模言語モデルの情感サポート能力を評価するベンチマーク
2025/8/26
MoodBenchは、趣丸科技と北京大学ソフトウェア工学国家工程研究センターが共同開発した、大規模言語モデル(LLM)の情感(感情的)サポート能力を科学的かつ体系的に評価するためのベンチマークです。オープンソースのPQAEF評価フレームワークを基盤とし、「四次元」評価理念に基づいて設計されており、多様な感情表現や応答の質を定量的に測定できます。Linux、Windows、Macの主要OSに対応し、Pythonで実装されています。