概要

Politecnico di Milano の「Data and Information Quality」コースのために作成された教育／研究向けプロジェクトです。Kaggle の「museum-collection」データセット（artworks.csv 等）を出発点に、データのプロファイリング、欠損値や異常値の検出、正規化・型変換、カテゴリ統合など実務的なデータクレンジング技術を Jupyter Notebook（code.ipynb）で示しています。成果物としてクレンジング済みデータ、元データ、解析ノートブック、及び解析結果をまとめた report.pdf が含まれ、授業課題やデータ品質ワークフローの参考資料として利用できます。

リポジトリの統計情報

スター数: 1
フォーク数: 0
ウォッチャー数: 1
コミット数: 3
ファイル数: 5
メインの言語: Jupyter Notebook

主な特徴

Kaggle の museum-collection データを用いた実データ中心の品質改善ワークフロー
Jupyter Notebook による解析の可視化とステップごとの再現性確保
元データ／クレンジング済データの両方を同梱し比較可能
最終レポートで手法と結果を要約、教育用途に適した構成

技術的なポイント

このプロジェクトは主に Jupyter Notebook を用いてデータ品質作業を可視化し、再現可能な手順としてまとめている点が特徴です。元データ（original_datasets.zip）を読み込み、まずデータプロファイリング（欠損率、ユニーク値分布、型の不整合、異常値の検出）を行い、問題箇所を特定します。その上で欠損値処理（削除、補完、フラグ付け）、カテゴリの統合（表記ゆれの正規化）、日付や数値の型変換と正規化、重複レコードの検出と解消といった標準的なクリーニング手順を実施しています。ノートブック内では pandas を中心としたデータ操作に加え、可視化ライブラリで分布や欠損のパターンを図示し、処理前後での品質改善を定量的に示す工夫があります。クレンジング済データ（cleaned_datasets.zip）と report.pdf により、どの処理がどのように品質指標（例えば欠損率や一貫性）を改善したかが追えるため、教育的にも実務的にも有用です。一方で、データサイズや外部依存（Kaggle データの取得方法）については README に明示されており、再現時にはデータのダウンロード手順やライブラリバージョンを合わせる必要があります。

プロジェクトの構成

主要なファイルとディレクトリ：

README.md: file
cleaned_datasets.zip: file
code.ipynb: file
original_datasets.zip: file
report.pdf: file

まとめ

教育・実務双方に使えるデータ品質ワークフローの良いサンプル集です（再現性を確認してから利用推奨）。

リポジトリ情報：

名前: Project-DIQ-Polimi-2025-2026
説明: Data and Information Quality Project
スター数: 1
言語: Jupyter Notebook
URL: https://github.com/gretaguxinyue/Project-DIQ-Polimi-2025-2026
オーナー: gretaguxinyue
アバター: https://avatars.githubusercontent.com/u/161390764?v=4

READMEの抜粋：

Project-DIQ-Polimi-2025-2026

Data and Information Quality Project

-Progetto di Computer Science and Engineering per il corso di “Data and Information Quality” al Politecnico di Milano. Anno Accademico: 2025/2026

-Computer Science and Engineering Project for the course: “Data and Information Quality” at “Politecnico di Milano”. Academic Year: 2025/2026.

dataset reference: https://www.kaggle.com/datasets/momanyc/museum-collection?select=artworks.csv …

データと情報品質プロジェクト（Project-DIQ-Polimi-2025-2026）