大気・水質汚染の関連性解析(データマイニング)

AI/ML

概要

世界中の多数都市を対象に、大気汚染(Air Quality)と水質汚染(Water Pollution)との関連を探索する学術的なデータマイニングプロジェクトです。CSVデータ、分析コード(標準化とアソシエーション解析に焦点を当てたPythonスクリプト)、および関連論文PDFを含み、未監督学習の手法で隠れたパターンや相関関係を抽出しようとしています。研究背景からデータ前処理、解析、結果の解釈までを一貫して扱うため、環境データ解析の入門から応用までの教材としても有用です。

GitHub

リポジトリの統計情報

  • スター数: 1
  • フォーク数: 0
  • ウォッチャー数: 1
  • コミット数: 6
  • ファイル数: 6
  • メインの言語: Python

主な特徴

  • 世界の都市を対象とした大気・水質データを収録したCSVデータセットを同梱
  • データの標準化(padronização)とアソシエーション解析を実行するPythonスクリプトを提供
  • 関連する学術記事(PDF)を含み、手法の理論的背景を補強
  • 未監督学習(クラスタリング)とアソシエーションルールでパターン検出を目指す構成

技術的なポイント

リポジトリは「データ前処理 → 特徴量の標準化 → パターン抽出(クラスタリング/アソシエーション)」という典型的なワークフローに沿って構成されています。含まれるスクリプト名(codigo_padronização_e_associacao.py)から、まず欠損値処理やスケーリング(標準化/正規化)でデータの比較可能性を確保し、その後に離合集散や類似度に基づくクラスタリングで都市群のグループ化を行い、さらにアソシエーション解析で属性同士の頻出組合せやルール(ある条件下で別の汚染指標が高くなる等)を抽出する設計と推測されます。アソシエーションにはAprioriやFP-Growthといった頻出パターン抽出アルゴリズムが一般的で、連関ルールの信頼度やサポート、リフトなどの指標でルールの妥当性を評価します。クラスタリングではK-means、階層的クラスタリング、DBSCANなどが用途に応じて選択されますが、環境データ特有のスケールや外れ値に注意が必要です。データセット(cities_air_quality_water_pollution.18-10-2021.csv)は都市単位の多変量データを想像させ、地理的分布や人口・産業構造を説明変数として組み合わせることで、単純な相関を超えた因果的仮説の検証にもつなげられます。再現性のために依存ライブラリの明示やノートブックでの可視化、検証セットの分離が推奨されます。

プロジェクトの構成

主要なファイルとディレクトリ:

  • Artigo de MdD - Aplicação De Algoritmos De Agrupamento E Associação Na Identificação De Padrões De Poluição Atmosférica E Hídrica Em Escala Global.pdf: file
  • Qualidade-do-Ar-e-Poluição-da-Água.pdf: file
  • README.md: file
  • cities_air_quality_water_pollution.18-10-2021.csv: file
  • codigo_padronização_e_associacao.py: file

…他 1 ファイル

使い方(確認ポイント)

  • CSVを読み込み、欠損値・異常値処理を行ってから標準化を適用すること。
  • カテゴリ変数のワンホット化や数値変数のビニングがアソシエーション解析では有効。
  • 解析結果はクラスタごとの代表指標や、アソシエーションルール(サポート/信頼度/リフト)で評価する。
  • 可視化(ヒートマップ、散布図行列、地図プロット)は結果の解釈に役立つ。

拡張と改善案

  • 時系列データが得られる場合は時系列クラスタリングや変化点検出を導入すると、汚染の動的パターンが明らかになります。
  • 追加の説明変数(気象データ、人口密度、産業別排出量)を組み込むことで因果的解釈に近づける。
  • 可視化は地理情報(GeoJSON)と統合し、地図ベースでの結果提示を行うと実務的価値が高まる。
  • コードに依存関係と実行手順(requirements.txt / notebook)を整備すると再現性が向上します。

まとめ

環境データの標準化とアソシエーションを軸に、汚染パターンの発見を狙う実践的な教材兼解析リポジトリです。

リポジトリ情報:

READMEの抜粋:

🌍 Análise de Qualidade do Ar e Poluição da Água

Uma investigação técnica sobre a correlação física entre poluição atmosférica e hídrica em cidades globais utilizando Mineração de Dados.

Autores: Gabriel Vinicios Nanetti & Nathan Scremin


📖 Sobre o Projeto

Este projeto utiliza algoritmos de Machine Learning não supervisionado para analisar dados ambientais de milhares de cidades ao redor do mundo. O objetivo principal foi investigar se existe um padrão oculto conectando a **Qua…