データと情報品質プロジェクト(Project-DIQ-Polimi-2025-2026)
概要
Politecnico di Milano の「Data and Information Quality」コースのために作成された教育/研究向けプロジェクトです。Kaggle の「museum-collection」データセット(artworks.csv 等)を出発点に、データのプロファイリング、欠損値や異常値の検出、正規化・型変換、カテゴリ統合など実務的なデータクレンジング技術を Jupyter Notebook(code.ipynb)で示しています。成果物としてクレンジング済みデータ、元データ、解析ノートブック、及び解析結果をまとめた report.pdf が含まれ、授業課題やデータ品質ワークフローの参考資料として利用できます。
リポジトリの統計情報
- スター数: 1
- フォーク数: 0
- ウォッチャー数: 1
- コミット数: 3
- ファイル数: 5
- メインの言語: Jupyter Notebook
主な特徴
- Kaggle の museum-collection データを用いた実データ中心の品質改善ワークフロー
- Jupyter Notebook による解析の可視化とステップごとの再現性確保
- 元データ/クレンジング済データの両方を同梱し比較可能
- 最終レポートで手法と結果を要約、教育用途に適した構成
技術的なポイント
このプロジェクトは主に Jupyter Notebook を用いてデータ品質作業を可視化し、再現可能な手順としてまとめている点が特徴です。元データ(original_datasets.zip)を読み込み、まずデータプロファイリング(欠損率、ユニーク値分布、型の不整合、異常値の検出)を行い、問題箇所を特定します。その上で欠損値処理(削除、補完、フラグ付け)、カテゴリの統合(表記ゆれの正規化)、日付や数値の型変換と正規化、重複レコードの検出と解消といった標準的なクリーニング手順を実施しています。ノートブック内では pandas を中心としたデータ操作に加え、可視化ライブラリで分布や欠損のパターンを図示し、処理前後での品質改善を定量的に示す工夫があります。クレンジング済データ(cleaned_datasets.zip)と report.pdf により、どの処理がどのように品質指標(例えば欠損率や一貫性)を改善したかが追えるため、教育的にも実務的にも有用です。一方で、データサイズや外部依存(Kaggle データの取得方法)については README に明示されており、再現時にはデータのダウンロード手順やライブラリバージョンを合わせる必要があります。
プロジェクトの構成
主要なファイルとディレクトリ:
- README.md: file
- cleaned_datasets.zip: file
- code.ipynb: file
- original_datasets.zip: file
- report.pdf: file
まとめ
教育・実務双方に使えるデータ品質ワークフローの良いサンプル集です(再現性を確認してから利用推奨)。
リポジトリ情報:
- 名前: Project-DIQ-Polimi-2025-2026
- 説明: Data and Information Quality Project
- スター数: 1
- 言語: Jupyter Notebook
- URL: https://github.com/gretaguxinyue/Project-DIQ-Polimi-2025-2026
- オーナー: gretaguxinyue
- アバター: https://avatars.githubusercontent.com/u/161390764?v=4
READMEの抜粋:
Project-DIQ-Polimi-2025-2026
Data and Information Quality Project
-Progetto di Computer Science and Engineering per il corso di “Data and Information Quality” al Politecnico di Milano. Anno Accademico: 2025/2026
-Computer Science and Engineering Project for the course: “Data and Information Quality” at “Politecnico di Milano”. Academic Year: 2025/2026.
dataset reference: https://www.kaggle.com/datasets/momanyc/museum-collection?select=artworks.csv …