タイ2026年選挙公式結果のOCR抽出JSON(election-69-OCR-result)

Data

概要

このリポジトリは、タイの2026年(พ.ศ. 2569)国政選挙の公式結果を、選挙管理委員会(กกต.)が公開したForm สส.6/1のPDF公告からOCR処理で抽出し、機械判読可能なJSON形式に変換したデータセットです。単一のOCRエンジンに頼らず、Google Cloud Vision APIやClaude、Geminiなど複数のOCR/LLMを組み合わせたクロスバリデーションを実施しており、誤認識やレイアウト差分に対する補正と検証を行っています。研究、可視化、二次解析やオープンデータ利活用向けに設計されています。

GitHub

リポジトリの統計情報

  • スター数: 15
  • フォーク数: 2
  • ウォッチャー数: 15
  • コミット数: 10
  • ファイル数: 4
  • メインの言語: 未指定

主な特徴

  • 選挙管理委員会の公式Form สส.6/1 PDFからOCRで抽出しJSON化
  • Google Cloud Vision、Claude、Geminiなど複数モデルによるクロスバリデーション
  • 選挙区/候補者/得票数などを機械判読可能なスキーマで提供
  • データ品質に関する注意書きと処理ログ(検証・修正履歴)を含む

技術的なポイント

本プロジェクトの技術的な肝は「複数OCR/LLMの組み合わせによる信頼性確保と構造化」。公式PDFはフォーマットやフォント、スキャン品質が多様であり、単一エンジンでは誤抽出が起きやすい。そこでGoogle Cloud Vision APIによる高精度なテキスト抽出をベースに、ClaudeやGeminiなどの大規模言語モデルで抽出テキストの整形・補完を行い、さらに別エンジンの結果と突き合わせることでクロスバリデーションを実施。タイ語固有の文字(母音や声調記号)の結合問題、数字表記の誤認(0/6や1/Iなど)、列ズレや罫線によるセル境界の誤判定などを検出・修正するルールや正規化処理を導入しています。出力は選挙区ID、候補者名、政党、得票数、投票所メタデータなどを含むJSONスキーマで統一。さらに、処理ごとにOCRソースと信頼度スコア、手動修正のフラグを保持することで後から監査・更新しやすい設計になっています。データ利用時の注意として、OCR由来の誤差や公式発表との突合せが必要である旨を明示しており、研究用途での透明性確保に配慮しています。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .gitignore: file
  • README.md: file
  • assets: dir
  • data: dir

まとめ

公式PDFを機械判読可能化した選挙データの実用的な出発点です。

リポジトリ情報:

READMEの抜粋:

election-69-OCR-result

Official 2026 Thai election results from the Election Commission of Thailand (กกต.), OCR-extracted from official Form สส.6/1 PDF announcements and structured as machine-readable JSON.

ผลคะแนนเลือกตั้ง 2569 อย่างเป็นทางการ แปลงจากแบบ สส.6/1 ที่ กกต. เผยแพร่เป็น PDF ให้อยู่ในรูปแบบ JSON


⚠️ Disclaimer

This dataset is produced through OCR processing with multi-model cross-validation using Google Cloud Vision API, Claude, Gemini, and other OCR engines and LLMs to …