AIデータ抽出ツールキット(ai-data-extraction)

AI/ML

概要

ai-data-extraction は、AI コーディングアシスタントが保持する「会話」「コードコンテキスト」「差分」「ツール実行結果」などの履歴を収集し、機械学習用に扱いやすい形で出力することを目的としたツールキットです。サービス毎の抽出スクリプト(Codex/Claude-code など)を備え、全抽出をまとめて実行するシェルラッパーによってオペレーションを簡略化します。利用には対象データの所有権や利用許諾、個人情報保護の配慮が必要です。

GitHub

リポジトリの統計情報

  • スター数: 14
  • フォーク数: 2
  • ウォッチャー数: 14
  • コミット数: 3
  • ファイル数: 9
  • メインの言語: Python

主な特徴

  • 各種 AI コーディングアシスタント(cursor、codex、claude-code、windsurf、trae)に特化した抽出スクリプトを用意
  • 会話履歴だけでなく、ファイルパス、行番号、コードスニペット、差分やツール実行結果などを網羅的に収集
  • 複数ファイルにまたがるコンテキストや編集提案を含めた抽出に対応
  • 全対象を一括実行する extract_all.sh で運用を簡易化

技術的なポイント

本ツールキットは Python スクリプト群を中心に構成されており、サービス毎に実装された extractor(例: extract_codex.py、extract_claude_code.py)が特定の保存形式や API 応答、ブラウザキャッシュ等を解析して対象データを抽出します。出力は機械学習で利用しやすい構造化フォーマット(JSON 等)を想定しており、会話単位・メッセージ単位でのメタ情報(タイムスタンプ、ユーザ/モデルタグ、ファイルパス、行範囲、差分)を保持します。extract_all.sh は個別スクリプトを順次実行して全データを収集するためのラッパーで、運用上は認証情報の配置やレート制限、プライバシー保護(個人情報のマスキングや同意取得)に注意する必要があります。拡張性は高く、新たなアシスタント向けに extractor を追加する設計になっている点も特徴です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • README.md: file
  • extract_all.sh: file
  • extract_claude_code.py: file
  • extract_codex.py: file

…他 4 ファイル

まとめ

機械学習用の会話・コード履歴収集に特化した実用的なツール群。運用時は法的・倫理的配慮が必須。

リポジトリ情報:

READMEの抜粋:

AI Coding Assistant Training Data Extraction Toolkit

Complete toolkit to extract ALL chat, agent, and code context data from AI coding assistants for machine learning training.

🎯 What This Does

Automatically discovers and extracts complete conversation history including:

  • ✅ User messages & AI responses
  • ✅ Code context (file paths, line numbers, snippets)
  • ✅ Code diffs and suggested edits
  • ✅ Multi-file contexts
  • ✅ Tool use and execution results
  • ✅ Timestamps and metadata

📦…