Netflix映画・番組の探索的データ解析(EDA)

Data

概要

本リポジトリは、Netflixの映画・テレビ番組データセット(約8,807件、12列)を対象にした探索的データ解析(EDA)プロジェクトです。Jupyter Notebook上でPandasによる前処理(欠損値確認、型変換、dateの抽出、durationの分割など)を行い、Seaborn・Matplotlibで分布図、棒グラフ、時系列トレンド、相関図などを作成します。目的はデータの全体像を把握し、コンテンツの傾向(作品タイプ別比率、国やジャンルの偏り、公開年ごとの増減、視聴時間・レーティングの特徴)を視覚的に示すことです。

GitHub

リポジトリの統計情報

  • スター数: 1
  • フォーク数: 0
  • ウォッチャー数: 1
  • コミット数: 3
  • ファイル数: 4
  • メインの言語: Jupyter Notebook

主な特徴

  • Netflixの映画・TV番組データ(netflix_titles.csv)を用いた包括的なEDA
  • Pandas/NumPyでの前処理と欠損値対応、日付や期間の整形
  • Seaborn/Matplotlibによる分布図・時系列可視化・相関解析
  • Jupyter Notebookで手順を再現可能に整理

技術的なポイント

ノートブックはまずCSV読み込みから始まり、列(show_id, type, title, director, cast, country, date_added, release_year, rating, duration, listed_in, description)の確認とデータ型チェックを行います。date_addedはdatetimeへ変換して「追加年/月」を抽出、release_yearは数値型へ統一することで年次トレンド解析を容易にしています。duration列は”90 min”や”1 Season”のような形式のため、数値と単位に分解して映画とTVで別処理を行い、視聴時間分布やシーズン数の分布を比較できるようにしています。countryやcast, listed_in(ジャンル)は複数値のカンマ区切りを分割してトップN集計を行い、国別・ジャンル別・出演者別の頻度ランキングを作成します。欠損値は列ごとに割合を確認し、解析に重要な列は除外せず適切に扱う(例えば、欠損の多いdirectorは”Unknown”等で埋めて傾向分析に含める)運用です。可視化では、タイプ別の作品数(棒グラフ)、年代別の公開数(折れ線/ヒートマップ)、レーティング分布(ヒストグラム/箱ひげ図)、ジャンルと評価のクロス集計を用いてインサイトを抽出します。また相関行列やピボット集計を用いて、例えば公開年と作品数、作品タイプと平均視聴時間などの関係性を定量的に確認する点が特徴です。Notebook形式なので、データ加工→可視化→考察の流れが追いやすく、再利用・拡張(例えば追加フィルタやモデル前処理への応用)も容易です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • LICENSE: file
  • Netflix_Movies_EDA.ipynb: file
  • README.md: file
  • netflix_titles.csv: file

まとめ

シンプルで再現性のあるNetflixコンテンツEDAで、データ理解や可視化入門に適した構成です(約50字)。

リポジトリ情報:

READMEの抜粋:

Netflix Movies & TV Shows Analysis (EDA)

This project performs a detailed Exploratory Data Analysis (EDA) on the Netflix Movies & TV Shows dataset. Using Python libraries such as Pandas, NumPy, Seaborn, and Matplotlib, we clean, analyze, and visualize the data to uncover trends, patterns, and insights about Netflix content.

Dataset

The dataset contains 8,807 entries with 12 columns:

  • show_id : Unique ID for each title
  • type : Movie or TV Show
  • title : Name of the title
  • director : Director(s)
  • cast : Cast members
  • country : Country or countries of production
  • date_added : Date the title was added to Netflix
  • release_year : Year the title was released
  • rating : Content rating
  • duration : Duration (minutes or seasons)
  • listed_in : Genre(s)
  • description : Brief description of the title

(抜粋ここまで)