CoT_data — Chain-of-Thought(CoT)実験用データと推論スクリプト

Data

概要

CoT_data は、Chain-of-Thought(CoT)に関する実験を行うための小規模リポジトリで、プロンプト文脈の挿入タイミングが応答に与える影響を調べるためのデータ(summary.tsv 相当)と、それを用いた推論スクリプト、プロンプトテンプレート、統計検定結果を含んでいます。README の抜粋から、experimental_phase1/phase2/control の3条件(追加文脈を最初のメッセージ後に送る、2回目メッセージ後に送る、送らない)が管理され、結果ディレクトリに統計テストの出力が保存されています。Python で実装された小さな実験ワークフローを提供し、CoT の有無や文脈挿入によるパフォーマンス差を検証・可視化するのに適しています。

GitHub

リポジトリの統計情報

  • スター数: 6
  • フォーク数: 0
  • ウォッチャー数: 6
  • コミット数: 7
  • ファイル数: 11
  • メインの言語: Python

主な特徴

  • プロンプトテンプレート(context_prompt.txt、general_prompt1/2.txt)を用いた実験設計を収録。
  • 追加文脈の挿入タイミング(experimental_phase1/2/control)に基づく比較が可能。
  • 推論用スクリプト(inference.py)により再現性のある実験実行が可能。
  • 統計検定結果や解析出力を results ディレクトリで管理。

技術的なポイント

本リポジトリの技術的な肝は「文脈をいつ、どのように与えるか」を厳密に分離して評価できる点にあります。summary.tsv の説明から分かるように、experimental_phase1 は「追加コンテキストを最初のメッセージの後に送る」、experimental_phase2 は「2 回目のメッセージの後に送る」、control は「追加コンテキストを送らない」構成になっており、同一のタスク・プロンプトに対してこれらの条件を比較することで、CoT(あるいは外部文脈)のタイミング依存性が計測できます。推論処理は inference.py に集約されており、ファイル名から推測するとプロンプトの読み込み、API 呼び出し(あるいはローカルモデル呼び出し)のラッパー、結果の保存、統計解析用フォーマットへの変換を行う設計が考えられます。

技術的注目点として以下が挙げられます:

  • テンプレート分離:context_prompt.txt と general_prompt1/2.txt により、プロンプトの差分だけを独立して管理でき、バリエーション実験が容易。
  • 条件管理:experimental_phaseX というフラグで追加文脈の挿入タイミングを明示し、比較実験の自動化が可能。
  • 結果の検定:results ディレクトリに「statistical testing results」がある点から、単なるログではなく有意差検定や集計を実行していることが分かる。これにより、観測された効果の統計的な妥当性が担保される。
  • 再現性と拡張性:ファイル数が少なく構造がシンプルなため、他者が同様の実験を短時間で再現でき、プロンプトや評価指標を追加して拡張するのが容易。

また、実験で扱うデータは TSV 形式(summary.tsv 等)で管理されている可能性が高く、データ加工や外部解析ツール(pandas、scipy 等)との親和性が高い点もメリットです。推論部分をカスタマイズして異なる言語モデルや評価手法(自動評価/人的評価)を組み合わせられるため、CoT の効果検証やプロンプト工学の研究プロトコルとしても利用価値があります。

プロジェクトの構成

主要なファイルとディレクトリ:

  • README.md: file
  • context_prompt.txt: file
  • general_prompt1.txt: file
  • general_prompt2.txt: file
  • inference.py: file

…他 6 ファイル

READMEの抜粋:

Contents of summary.tsv

experimental_phase1 indicates the extra context was sent after the first message.

experimental_phase2 indicates extra context was sent after the second message.

control indicates no extra context was sent.

results

This directory contains statistical testing results. …

まとめ

小規模だが CoT の文脈タイミングと効果を検証するための実験パッケージとして実用的で拡張しやすいリポジトリ。

リポジトリ情報: