MoodBench:大規模言語モデルの情感サポート能力を評価するベンチマーク

AI/ML

概要

MoodBenchは、大規模言語モデルが示す「情感陪伴」(感情的な寄り添い・共感)能力を評価するために開発されたオープンソースのベンチマークです。趣丸科技と北京大学ソフトウェア工学国家工程研究センターの共同プロジェクトであり、既存のPQAEF評価フレームワークを基盤に、情感面に特化した四次元評価軸を導入しています。これにより、モデルの応答がどれだけ多様で心に響くか、感情的に適切かなどを多角的に測定可能。Linux、Windows、Macに対応し、Pythonで実装されているため、研究や実務での利用が容易です。

GitHub

リポジトリの統計情報

  • スター数: 5
  • フォーク数: 4
  • ウォッチャー数: 5
  • コミット数: 2
  • ファイル数: 17
  • メインの言語: Python

主な特徴

  • PQAEFの四次元評価理念に基づき、情感陪伴能力を科学的かつ体系的に評価
  • 大規模言語モデルの感情的応答の多様性と質を多角的に測定可能
  • Python実装であり、Linux、Windows、Macに対応するクロスプラットフォーム設計
  • オープンソースで拡張性が高く、研究コミュニティでの利用促進を目指す

技術的なポイント

MoodBenchの技術的な核は、PQAEF(Prompt Quality and Answer Evaluation Framework)をベースに、感情的な寄り添いを評価するための独自の四次元評価軸を実装している点にあります。PQAEFは、多面的にAIの応答品質を評価するフレームワークで、MoodBenchではこれを応用し、特に「情感陪伴」能力に焦点を当てています。

具体的には、評価軸は大きく言って以下の4つの次元から構成されています。

  1. 共感度(Empathy):モデルがユーザの感情にどれだけ共感・理解を示しているか
  2. 多様性(Diversity):応答が単調にならず、多様な表現や感情表現を含むか
  3. 適切性(Appropriateness):文脈や状況に即した適切な感情応答ができているか
  4. 自然さ(Naturalness):人間らしい自然な言葉遣いかどうか

この四次元評価により、単に正確な情報を返すだけでなく、ユーザの心情に寄り添い、豊かで多彩な感情表現を実現できているかを定量化可能です。

技術実装面では、Pythonでのモジュール化が進められており、calculate_weighted_scores.pyで総合評価スコアを計算し、convert_to_local_evaluator.pyconvert_to_openai_evaluator.pyでローカル環境やOpenAI APIを用いた評価器に変換する仕組みを提供しています。これにより、ユーザは独自のモデル評価や外部API連携による評価を柔軟に選択可能です。

またLinux、Windows、Macという主要OSに対応しており、研究者や開発者が環境を問わず利用しやすい設計も特徴です。加えて、オープンソースライセンス(Apache 2.0)で公開されているため、自由に改良や拡張を行い、さらなる研究発展に寄与できます。

このように、MoodBenchは大規模言語モデルの感情的応答品質を科学的・体系的に評価するための先進的なツールセットとして、今後の対話AIの発展に貢献することが期待されています。

プロジェクトの構成

主要なファイルとディレクトリ:

  • LICENSE: ライセンスファイル(Apache 2.0)
  • README.md: プロジェクト概要と利用方法の説明
  • calculate_weighted_scores.py: 評価軸ごとのスコアを加重平均で算出するスクリプト
  • convert_to_local_evaluator.py: ローカル環境用の評価器に変換するモジュール
  • convert_to_openai_evaluator.py: OpenAI APIを用いた評価器に変換するモジュール
  • figure/: プロジェクトロゴや関連画像を格納
  • tests/: テストコード(詳細はリポジトリ参照)
  • その他Pythonスクリプトや設定ファイル多数

まとめ

情感AI評価の新基準を打ち立てる革新的ベンチマーク。

リポジトリ情報: