LADM:SQL ServerからPostgreSQLへのETLツール

Data

概要

本プロジェクトは、LADM-COL(ラテンアメリカでの地籍管理標準)に準拠したデータ移行を目的としたETLパイプラインをPythonで実装したものです。主にSQL Serverに格納された地籍・属性・関係情報を抽出(Extract)し、LADMモデルに合わせた正規化・型変換・関係マッピング(Transform)を施した上で、PostgreSQL(おそらくPostGIS拡張を想定)へ効率的に投入(Load)します。移行後のデータはLADM整合性を保ったままXTFなどの標準交換フォーマットへ出力できるよう設計されており、組織間の相互運用性や将来的な空間解析・公開に適した基盤を構築します。

GitHub

リポジトリの統計情報

  • スター数: 1
  • フォーク数: 0
  • ウォッチャー数: 1
  • コミット数: 5
  • ファイル数: 5
  • メインの言語: Python

主な特徴

  • SQL Server -> PostgreSQL(LADM最適化モデル)へのETL処理を単一スクリプトで実行
  • LADM-COL標準への整合性を重視し、XTF生成を想定したデータ構造の維持
  • 接続情報を環境ファイル(credenciales_bd.env)で管理し、設定の切り替えを容易に
  • 依存関係はrequirements.txtで管理し、再現性のある実行環境を提供

技術的なポイント

このプロジェクトのコアは、SQLSERVER_TO_POSTGRES.pyに実装されたETLロジックです。設計上の注目点は「データモデルのマッピング」と「データ品質の担保」にあります。抽出フェーズでは、SQL Server上の複数テーブルから属性・トポロジー情報を効率的に読み出すため、インクリメンタル取得やバッチ取得の実装が想定されます(大規模データを扱う実務では必須)。変換フェーズでは、LADMのクラス(パーティー、権利、登記単位、空間オブジェクト等)に対応するスキーマへ列の正規化、データ型の変換(文字列→数値/日時、座標表現のWKT/WKB化やEPSG再投影)を行い、参照整合性を再構築します。ジオメトリ処理がある場合はPostGIS用のジオメトリ型へ変換してSRIDを設定する必要があり、ジオメトリの精度や向き、トポロジー整合のチェックも重要です。

ロードフェーズでは、トランザクション制御、バルクインサート、インデックス作成や制約の順序に注意することでパフォーマンスと整合性を両立します。たとえば外部キー制約はデータ投入後に追加する、あるいは一時テーブルへ先に投入してから差分マージする戦略が考えられます。エラー処理とログ記録も重要で、失敗時のロールバックや再実行ポイントを設けることで信頼性を高めます。

実務運用に向けた配慮としては、接続情報をcredenciales_bd.envに分離してコードに平文パスワードを残さない点、requirements.txtによる依存管理、そしてXTF等の交換フォーマット出力に適したスキーマ整備が挙げられます。セキュリティと監査の観点では接続ログや変換ルールのバージョン管理を行い、同一データセットの再現性を確保することが望まれます。

さらに、将来の拡張性のために以下を検討できます:SQLAlchemyやpsycopg2 / pyodbcなどの接続ライブラリを使った抽象化、GeoPandasやShapelyでジオメトリ操作を行うこと、CeleryやAirflowでETLをスケジュール化すること、そしてデータバリデーションにはGreat Expectationsの導入です。これらにより運用性・保守性が向上します。(約1200字)

プロジェクトの構成

主要なファイルとディレクトリ:

  • LICENSE: file
  • README.md: file
  • SQLSERVER_TO_POSTGRES.py: file
  • credenciales_bd.env: file
  • requirements.txt: file

まとめ

LADM準拠の地籍データ移行を手早く実現するシンプルで実用的なETLリポジトリです。(約50字)

リポジトリ情報:

READMEの抜粋:

LADM-etl-sqlserver-to-postgres

image

📋 Descripción Este proyecto resuelve la interoperabilidad entre bases de datos institucionales. Desarrollé un algoritmo ETL en Python para migrar información catastral desde SQL Server hacia un modelo optimizado en PostgreSQL, garantizando la integridad del estándar LADM-COL para la generación de archivos XTF.

🛠️ Tecnologías Leng…