タイ2026年選挙公式結果のOCR抽出JSON(election-69-OCR-result)
概要
このリポジトリは、タイの2026年(พ.ศ. 2569)国政選挙の公式結果を、選挙管理委員会(กกต.)が公開したForm สส.6/1のPDF公告からOCR処理で抽出し、機械判読可能なJSON形式に変換したデータセットです。単一のOCRエンジンに頼らず、Google Cloud Vision APIやClaude、Geminiなど複数のOCR/LLMを組み合わせたクロスバリデーションを実施しており、誤認識やレイアウト差分に対する補正と検証を行っています。研究、可視化、二次解析やオープンデータ利活用向けに設計されています。
リポジトリの統計情報
- スター数: 15
- フォーク数: 2
- ウォッチャー数: 15
- コミット数: 10
- ファイル数: 4
- メインの言語: 未指定
主な特徴
- 選挙管理委員会の公式Form สส.6/1 PDFからOCRで抽出しJSON化
- Google Cloud Vision、Claude、Geminiなど複数モデルによるクロスバリデーション
- 選挙区/候補者/得票数などを機械判読可能なスキーマで提供
- データ品質に関する注意書きと処理ログ(検証・修正履歴)を含む
技術的なポイント
本プロジェクトの技術的な肝は「複数OCR/LLMの組み合わせによる信頼性確保と構造化」。公式PDFはフォーマットやフォント、スキャン品質が多様であり、単一エンジンでは誤抽出が起きやすい。そこでGoogle Cloud Vision APIによる高精度なテキスト抽出をベースに、ClaudeやGeminiなどの大規模言語モデルで抽出テキストの整形・補完を行い、さらに別エンジンの結果と突き合わせることでクロスバリデーションを実施。タイ語固有の文字(母音や声調記号)の結合問題、数字表記の誤認(0/6や1/Iなど)、列ズレや罫線によるセル境界の誤判定などを検出・修正するルールや正規化処理を導入しています。出力は選挙区ID、候補者名、政党、得票数、投票所メタデータなどを含むJSONスキーマで統一。さらに、処理ごとにOCRソースと信頼度スコア、手動修正のフラグを保持することで後から監査・更新しやすい設計になっています。データ利用時の注意として、OCR由来の誤差や公式発表との突合せが必要である旨を明示しており、研究用途での透明性確保に配慮しています。
プロジェクトの構成
主要なファイルとディレクトリ:
- .gitignore: file
- README.md: file
- assets: dir
- data: dir
まとめ
公式PDFを機械判読可能化した選挙データの実用的な出発点です。
リポジトリ情報:
- 名前: election-69-OCR-result
- 説明: Official 2026 Thai election results (ผลเลือกตั้ง 2569) OCR-extracted from กกต. Form สส.6/1 as machine-readable JSON
- スター数: 15
- 言語: null
- URL: https://github.com/killernay/election-69-OCR-result
- オーナー: killernay
- アバター: https://avatars.githubusercontent.com/u/12683618?v=4
READMEの抜粋:
election-69-OCR-result
Official 2026 Thai election results from the Election Commission of Thailand (กกต.), OCR-extracted from official Form สส.6/1 PDF announcements and structured as machine-readable JSON.
ผลคะแนนเลือกตั้ง 2569 อย่างเป็นทางการ แปลงจากแบบ สส.6/1 ที่ กกต. เผยแพร่เป็น PDF ให้อยู่ในรูปแบบ JSON
⚠️ Disclaimer
This dataset is produced through OCR processing with multi-model cross-validation using Google Cloud Vision API, Claude, Gemini, and other OCR engines and LLMs to …