データと情報品質プロジェクト(Project-DIQ-Polimi-2025-2026)

Data

概要

Politecnico di Milano の「Data and Information Quality」コースのために作成された教育/研究向けプロジェクトです。Kaggle の「museum-collection」データセット(artworks.csv 等)を出発点に、データのプロファイリング、欠損値や異常値の検出、正規化・型変換、カテゴリ統合など実務的なデータクレンジング技術を Jupyter Notebook(code.ipynb)で示しています。成果物としてクレンジング済みデータ、元データ、解析ノートブック、及び解析結果をまとめた report.pdf が含まれ、授業課題やデータ品質ワークフローの参考資料として利用できます。

GitHub

リポジトリの統計情報

  • スター数: 1
  • フォーク数: 0
  • ウォッチャー数: 1
  • コミット数: 3
  • ファイル数: 5
  • メインの言語: Jupyter Notebook

主な特徴

  • Kaggle の museum-collection データを用いた実データ中心の品質改善ワークフロー
  • Jupyter Notebook による解析の可視化とステップごとの再現性確保
  • 元データ/クレンジング済データの両方を同梱し比較可能
  • 最終レポートで手法と結果を要約、教育用途に適した構成

技術的なポイント

このプロジェクトは主に Jupyter Notebook を用いてデータ品質作業を可視化し、再現可能な手順としてまとめている点が特徴です。元データ(original_datasets.zip)を読み込み、まずデータプロファイリング(欠損率、ユニーク値分布、型の不整合、異常値の検出)を行い、問題箇所を特定します。その上で欠損値処理(削除、補完、フラグ付け)、カテゴリの統合(表記ゆれの正規化)、日付や数値の型変換と正規化、重複レコードの検出と解消といった標準的なクリーニング手順を実施しています。ノートブック内では pandas を中心としたデータ操作に加え、可視化ライブラリで分布や欠損のパターンを図示し、処理前後での品質改善を定量的に示す工夫があります。クレンジング済データ(cleaned_datasets.zip)と report.pdf により、どの処理がどのように品質指標(例えば欠損率や一貫性)を改善したかが追えるため、教育的にも実務的にも有用です。一方で、データサイズや外部依存(Kaggle データの取得方法)については README に明示されており、再現時にはデータのダウンロード手順やライブラリバージョンを合わせる必要があります。

プロジェクトの構成

主要なファイルとディレクトリ:

  • README.md: file
  • cleaned_datasets.zip: file
  • code.ipynb: file
  • original_datasets.zip: file
  • report.pdf: file

まとめ

教育・実務双方に使えるデータ品質ワークフローの良いサンプル集です(再現性を確認してから利用推奨)。

リポジトリ情報:

READMEの抜粋:

Project-DIQ-Polimi-2025-2026

Data and Information Quality Project

-Progetto di Computer Science and Engineering per il corso di “Data and Information Quality” al Politecnico di Milano. Anno Accademico: 2025/2026

-Computer Science and Engineering Project for the course: “Data and Information Quality” at “Politecnico di Milano”. Academic Year: 2025/2026.

dataset reference: https://www.kaggle.com/datasets/momanyc/museum-collection?select=artworks.csv