Olistの販売分析(Analise-Vendas-Olist)
概要
このリポジトリは、Olistの公開データセット(ブラジルのEC注文データ群)を対象にした探索的データ解析(EDA)プロジェクトをJupyter Notebookで実施したものです。Pandasによるデータ読み込み・結合・集計、日時データの整形、欠損値や外れ値の扱い、カテゴリ別・地域別の売上傾向の可視化などを通して、配送遅延や返品、レビュー評価と売上の関係などの洞察を得ることを目的としています。ノートブックは分析手順を追いやすくまとめられており、公開データを用いて再現可能です。(約300字)
リポジトリの統計情報
- スター数: 1
- フォーク数: 0
- ウォッチャー数: 1
- コミット数: 3
- ファイル数: 2
- メインの言語: Jupyter Notebook
主な特徴
- Olist公開データセットを用いた実践的な探索的データ解析(EDA)。
- Pandasを中心にデータ整形、日時処理、集計、可視化(Matplotlib)を実施。
- 注文〜配送〜レビューまでを結合したフロー視点の分析に焦点。
- 再現しやすいJupyter Notebook形式で手順が整理されている。
技術的なポイント
本プロジェクトはJupyter Notebook上でPandas(Python 3.10+想定)とMatplotlibを主体に解析を行う典型的なEDAワークフローを示しています。まず各CSV(orders, order_items, products, customers, sellers, order_reviews, payments等を想定)を読み込み、キー列で結合して「注文→配送→レビュー」の時系列的関係を再構築します。日時フィールド(order_purchase_timestamp, order_approved_at, order_delivered_customer_date等)はdatetime型に変換し、配送リードタイムや承認遅延、配送遅延の指標を生成します。欠損値は列ごとに扱いを分け、欠損が多い列は除外か補完、重要列の欠損は行単位でフィルタリングする等の実務的判断が取られています。
集計はgroupbyやpivot_tableを多用し、地域別(州や都市)、カテゴリ別、月次/週次などの時系列集計で売上や注文数、キャンセル率、返品率、平均配送日数、平均評価スコアなどを算出します。可視化はMatplotlibで棒グラフや折れ線、ヒストグラムを作成し、季節性や上位カテゴリ・上位セラーの傾向を視覚化します。外れ値の検出(価格や送料の極端値)やレビューの分布確認も行い、分析結果の解釈におけるバイアスやデータ欠落の影響についても注意を促しています。
ノートブックは再現性を意識した構成ですが、データ自体はリポジトリに含まれていないため、READMEに従ってOlistの公開データをダウンロードして同じディレクトリ構造で実行する必要があります。実務的な改善点としては、処理時間の最適化(大規模データに対するchunk読み込みやDask導入)、可視化の洗練(SeabornやPlotlyでのインタラクティブ化)、統計的検定や簡易的なモデル(回帰や決定木)による要因分析を追加することで、より深い因果的な示唆が得られます。(約800〜1000字)
プロジェクトの構成
主要なファイルとディレクトリ:
- Analise_Olist_Final.ipynb: Jupyter Notebook形式の解析本体。データ読み込み、前処理、集計、可視化、考察が順を追って記載されています。セルごとにグラフや集計結果を出力することで、EDAの流れを追いやすく整理されています。
- README.md: プロジェクトの概要、使用ライブラリ(Python 3.10+, Pandas, Matplotlib等)、ステータスと実行手順の簡単な案内を記載。データの入手方法や依存関係はここに明記されています。
まとめ
Olistデータで実務に近いEDA手順を学べる実践的ノートブック集で、再現性と分析の入り口として有用です。(約50字)
リポジトリ情報:
- 名前: Analise-Vendas-Olist
- 説明: 説明なし
- スター数: 1
- 言語: Jupyter Notebook
- URL: https://github.com/PabloHSB/Analise-Vendas-Olist
- オーナー: PabloHSB
- アバター: https://avatars.githubusercontent.com/u/111619608?v=4
READMEの抜粋:
📊 Análise de Vendas E-commerce (Olist)
📝 Sobre o Projeto
Este é um projeto de Análise Exploratória de Dados (EDA) realizado sobre o dataset público do Olist (maior departamento de e-commerce do Brasil), abrangendo cerca de 100 …