同じモデル、異なる倫理観 — 倫理憲法がLLMの拒否境界をどう変えるか

AI/ML

概要

本リポジトリは、同一の大規模言語モデル(LLM)に対して異なる「倫理憲法」またはシステム命令セットを適用することで、モデルの拒否(refusal)動作がどのように変化するかを調査するPRISM研究の資料群を収めています。ポスター(POSTER_A0_GIT.pdf)とワークショップ用活動資料(PRISM_Workshop_4_Activity__Writing_a_Research_Proposal.pdf)、および簡易READMEを含み、2026年3月24日の学会発表に向けた初期成果と実験デザイン、評価軸の概要を提示しています。本研究は、倫理ポリシーの文言や優先順位が安全性、ユーザー体験、拒否の一貫性に与える影響を明らかにすることを目的としています。

GitHub

リポジトリの統計情報

  • スター数: 2
  • フォーク数: 0
  • ウォッチャー数: 2
  • コミット数: 3
  • ファイル数: 3
  • メインの言語: 未指定

主な特徴

  • 同一LLMに複数の倫理憲法(システム指示)を適用し、拒否境界の差異を比較する研究設計
  • 観察結果をまとめたポスターと、研究提案作成を促すワークショップ資料を同梱
  • 学部研究会での発表に向けた教育的・実践的な資料群
  • コードやデータは含まれていないが、実験方法や評価指標の設計思想が示されている

技術的なポイント

本プロジェクトは「同じモデル、異なる倫理観」という対照実験的アプローチを採用しています。技術的観点で注目すべき点は以下です。

  1. 倫理憲法(ethical constitutions)の定義と適用方法:研究では、システムプロンプトやトップレベルの指示文として倫理ガイドラインをモデルに与えることで、応答方針を調整することを想定しています。具体的には、安全第一の明示、利用者の自由を重視する方針、法令遵守を優先する方針など、複数の憲法を用意しそれぞれをモデルに適用して挙動を比較します。

  2. 拒否判定の評価軸:拒否率(有害プロンプトに対してモデルが回答を控える割合)、誤拒否率(安全な問い合わせを不当に拒否する割合)、一貫性(同一条件下での応答のばらつき)、説明可能性(拒否理由の明示性)などを評価指標として設定する想定が示されています。これにより、単純な拒否の有無だけでなく、ユーザビリティとセーフティのトレードオフを分析できます。

  3. 実験デザインとデータセットの選定:READMEやワークショップ資料からは、攻撃的/有害なプロンプト群、倫理的ジレンマを扱うケース群、曖昧な要求群など多様な入力セットを用いることが想定されます。評価は定量メトリクスと人手によるアノテーションを組み合わせることで信頼性を高める設計です。

  4. 応用と限界:この方式は実装が比較的容易で、プロンプト工学やシステムレベルのポリシー設計によって運用ポリシーを迅速に評価できる利点があります。一方で、プロンプトの微細な書き換えで挙動が変わる「プロンプト脆弱性」や、基盤モデルの内部確率分布に起因する不安定さ、また評価データの偏りが結果解釈に影響する点は注意が必要です。

全体として、本リポジトリは実験用のコードや大規模データセットを含まない軽量な研究パッケージですが、倫理的方針がLLMの拒否ラインにどのように作用するかを検証するための実践的な指針と教材を提供している点が有益です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • POSTER_A0_GIT.pdf: file
  • PRISM_Workshop_4_Activity__Writing_a_Research_Proposal.pdf: file
  • README.md: file

まとめ

倫理ガイドラインが同一モデルの応答境界を大きく変えることを示唆する有益な初期資料群。

リポジトリ情報:

READMEの抜粋:

Same-Model-Different-Morals-How-Ethical-Constitutions-Shape-LLM-Refusal-Boundaries

PRISM research. Presenting at 2026 CSSU Undergrad Research Conference on March 24th, 2026. …