AI教育ベンチマーキング(ai-edu-benchmarking)
概要
このリポジトリは、Claude、DeepSeek、GPT-5 の三種の大規模言語モデルを、固定された数学/物理の問題セット(6問)に対して、5種類の学習者ペルソナを想定して回答させ、その応答を多面的に評価するベンチマークプロジェクトです。評価軸は単なる正答だけでなく、解説の明瞭さ、解法の完全性、教育的配慮(例:段階的説明や誤り訂正の提示)、学習支援性(フォローアップ提案やヒントの提示)を含み、実際に学習者を支援できるかを重視します。結果はモデルごとの得意・不得意や、どのペルソナに対して適切な応答を出すかを探ることを目的としています(約300字)。
リポジトリの統計情報
- スター数: 1
- フォーク数: 0
- ウォッチャー数: 1
- コミット数: 2
- ファイル数: 2
- メインの言語: Jupyter Notebook
主な特徴
- 学習者ペルソナを導入した評価設計:同じ問題でも学習者の背景(初心者〜上級者)に応じて期待される解答スタイルを変え、モデルの適応力を測定。
- 多面的評価指標:正答率だけでなく、説明の分かりやすさや教育的配慮をスコア化して比較。
- 小規模ながら再現可能なベンチマーク:固定問題(6問)と明確な評価軸により、同様の実験を追試できる構成。
- LLM比較の実務的示唆:教育現場での利用可否や、モデル選定の参考になる実践的情報を提供。
技術的なポイント
本プロジェクトは、LLM比較のためのミニマルで実用的な設計に重点を置いています。評価対象はClaude、DeepSeek、GPT-5 といった複数のモデルで、各モデルに対して同一の問題セットとペルソナ設定を用いることで条件を統一しています。評価軸は定性的になりがちな「説明の分かりやすさ」や「教育的配慮」を定量化する試みが行われており、採点ルーブリックや基準を明示することで評価者間の主観差を抑える工夫が伺えます。Notebookベースで記録されているため、応答のログ、採点メモ、集計表などを同一環境で確認でき、再現性と透明性が高い点も重要です。また、ペルソナ毎の期待出力を設計することで、単に「正しい答え」を出す能力と「学習者に合わせて説明を出し分ける能力」を分離して評価できる点が技術的に価値があります。限られた問題数と手作業に依存する採点という制約はあるものの、教育的評価に特化したベンチマーク設計として、より大規模な評価や自動評価手法への拡張余地を残しています(約700字)。
プロジェクトの構成
主要なファイルとディレクトリ:
- README.md: プロジェクトの目的、概要、簡単な実験設計が記載されています。
- ai benchmarking project (for now): dir — 実験ノートやNotebook本体が置かれている想定のディレクトリ。問題文、モデル応答ログ、採点結果や集計コードが格納される想定です。
補足(実務者向け):
- Notebookには、モデル呼び出しのためのAPIスニペットや、応答を整形・保存する処理、評価者が使う採点テンプレートが含まれている可能性が高く、ローカルやクラウドでの再現が容易です。
- 小規模実験なので、スクリプト化や自動評価(ルールベースのチェックやメタ評価)を追加すればスケーラビリティが向上します。
使いどころと改善案
本リポジトリは教育技術(EdTech)分野でのLLM選定や、教師支援ツールの評価指標検討の出発点として有用です。現状はプロトタイプ的な構成なので、次の改善を推奨します:評価問題数の増加と多様化、複数評価者によるアノテーションでの信頼性検証、自動評価メトリクス(例:説明の網羅性を測るスコア)の導入、ペルソナ設計の文書化と標準化。これらにより、より一般化可能で信頼性の高いベンチマークへ発展させられます。
まとめ
教育現場でのLLM比較に特化した有用なプロトタイプ。拡張で実用性が高まる(約50字)。
リポジトリ情報:
- 名前: ai-edu-benchmarking
- 説明: An analysis of GPT5, Claude Sonnet 4 and DeepSeek’s performances across 6 questions and 5 persona, with questions being graded at specific learning levels based on the persona.
- スター数: 1
- 言語: Jupyter Notebook
- URL: https://github.com/DanielJ1829/ai-edu-benchmarking
- オーナー: DanielJ1829
- アバター: https://avatars.githubusercontent.com/u/180011796?v=4
READMEの抜粋: This repository contains a benchmarking project that evaluates the performance of multiple large language models (LLMs) — Claude, DeepSeek, and GPT-5 — when answering a fixed set of math/physics problems across different student personas.
The goal is to measure not only correctness, but also how clear, complete, educational, and supportive each model’s responses are, with a focus on how well they would assist real learners.
Repository Structure
ai-edu-benchmark…