教師ありアンサンブル学習プロジェクト (ML-Supervised-Ensemble-Methods-Projects)

AI/ML

概要

このリポジトリは、実務データを用いた教師あり学習プロジェクト群の一つで、特にアンサンブル手法に焦点を当てています。主要案件は「ホテル予約のキャンセル予測」で、36,275件の予約データを使い顧客属性や予約パターン、価格、リクエスト情報などからキャンセルの発生要因を探索・モデル化します。Jupyter Notebookでの探索的データ解析(EDA)、前処理・特徴量エンジニアリング、複数モデルの比較検証、最終的なビジネス向けレポート(PDF)を含み、教育・実践の両面で活用できる構成です。

GitHub

リポジトリの統計情報

  • スター数: 1
  • フォーク数: 0
  • ウォッチャー数: 1
  • コミット数: 5
  • ファイル数: 8
  • メインの言語: Jupyter Notebook

主な特徴

  • 実データセット(InnHotels系列、EasyVisa)を用いた分類問題の実践的なパイプラインを収録
  • EDA → 特徴量エンジニアリング → モデル比較 → ビジネスレポートまでの一貫したワークフロー
  • アンサンブル手法(バギング/ブースティング/スタッキング等)を比較する教育向けの構成
  • Jupyter Notebook と PDF レポートによる説明・再現性の確保

技術的なポイント

本プロジェクトは教師あり分類タスクに対する典型的かつ実践的なアプローチを示しています。まずEDAでは分布確認、カテゴリ変数の頻度解析、欠損値や外れ値の検出を行い、キャンセルに影響を与える可能性の高い変数を抽出します。特徴量エンジニアリングでは、カテゴリ変数のワンホット化やラベルエンコーディング、日付情報からの派生特徴(滞在日数や予約から到着までの日数など)、集計特徴(顧客単位や予約チャネルごとの集約)を想定して作成します。モデル構築では、ベースラインのロジスティック回帰や決定木に加え、アンサンブル法(バギング系:ランダムフォレスト、ブースティング系:勾配ブースティング、XGBoost/LightGBMの採用が一般的)を用いて精度改善を図ります。モデル評価は混同行列、精度、再現率、F1スコア、ROC-AUCなど複数の指標で行い、クラス不均衡への対応としてリサンプリング(オーバー/アンダーサンプリング)やクラス重み付けを検討します。さらにスタッキングやメタ学習によるモデルの組み合わせも本リポジトリのテーマであり、異なるアルゴリズムの長所を組み合わせて汎化性能を高める設計が意図されています。最終的にビジネス観点から解釈可能性(特徴量重要度、部分依存プロット等)を示し、実運用に向けた洞察を報告書でまとめています。

プロジェクトの構成

主要なファイルとディレクトリ:

  • Business_Report_ML_Project 2_Venkata_Murari_Sunkara.pdf: file
  • Business_Report_ML_Project_Venkata_Murari_Sunkara.pdf: file
  • EasyVisa.csv: file
  • INNHotelsGroup.csv: file
  • InnHotels2.csv: file

…他 3 ファイル

(補足)ノートブックファイルやCSVが含まれており、データ読み込み→EDA→前処理→モデル化→評価→レポートという典型的な流れが再現可能です。

まとめ

実データで学ぶアンサンブルと分類の実践例。再現性ある教育資源として有用。

リポジトリ情報:

READMEの抜粋: ML Project 1 - Predicting Hotel Booking Cancellations (InnHotels Group) Project Overview This project analyzes hotel booking behavior and builds predictive models to determine whether a booking will be canceled or not canceled. Using a dataset of 36,275 bookings, the project explores customer demographics, booking patterns, pricing behavior and special requests to uncover the key drivers of cancellations. The final output includes EDA, feature engineering, model compariso…