Somayeh Komeylian による深層学習セット4(テキスト・Iris・住宅データ)
概要
このリポジトリは、Somayeh Komeylian 氏(UCSD & SDSU の PhD 学生)による「Deep Learning Set 4」で、テキストデータ、Iris データ、住宅データといった代表的データセットに対する単純な全結合(Dense)モデルの実装例を含みます。主に scikit-learn の MLPClassifier と Keras の Sequential モデル(全結合層を3層重ねたフィードフォワードネットワーク)を用いた学習プロセスを示しており、seeds_dataset.txt のような3クラス分類課題を扱うことが明記されています。教育用途やチュートリアル的な参照に向いています。
リポジトリの統計情報
- スター数: 1
- フォーク数: 0
- ウォッチャー数: 1
- コミット数: 2
- ファイル数: 2
- メインの言語: 未指定
主な特徴
- MLPClassifier(scikit-learn)と Keras Sequential(全結合3層)の実装例を含む。
- seeds_dataset.txt を用いた多クラス(3クラス)分類の記述あり。
- テキスト、Iris、住宅データといった入門に適した複数データセットを想定。
- 教材的・チュートリアル的な最小構成(README とデータのアーカイブ)が中心。
技術的なポイント
リポジトリの技術的主軸は「密結合(fully connected / Dense)モデルを使った基本的な分類/回帰の流れ」にあります。scikit-learn の MLPClassifier は機械学習ライブラリの標準的な実装で、前処理(標準化など)、層の構成(隠れ層の数・ノード数)、活性化関数、学習率や正則化(alpha)といったハイパーパラメータを比較的簡単に扱えます。Keras の Sequential モデルは「3層の Dense を積む」構成が明示されており、入力層→隠れ層→出力層という典型的なフィードフォワードネットワークを示しています。多クラス分類では出力層に softmax、損失関数に categorical_crossentropy(あるいは sparse_categorical_crossentropy)が一般的で、評価指標として accuracy を用いるのが基本です。テキストデータの場合はベクトル化(Bag-of-Words、TF-IDF、または埋め込み)や語彙サイズの扱い、住宅データや Iris のような表形式データでは標準化やカテゴリ変数のエンコーディングが重要になります。本リポジトリはコード本体が少ないため、再現性を高めるにはデータ前処理、学習/検証分割、ランダムシード固定、学習曲線や混同行列の可視化などの追加実装が必要です。
プロジェクトの構成
主要なファイルとディレクトリ:
- DL-TEXT Dataset.zip: file
- README.md: file
利用・拡張のヒント
- 再現実験を行う場合は、zip 内のデータ形式(CSV/TXT)を確認し、欠損値とスケールを整えること。数値データは StandardScaler、MinMaxScaler 等で正規化すると学習が安定します。
- Keras 実装では入力次元と出力のクラス数を明示し、出力層の活性化を softmax、損失関数を categorical_crossentropy(ラベルが one-hot の場合)に設定します。ラベルが整数の場合は sparse_categorical_crossentropy を選びます。
- テキストデータは scikit-learn の CountVectorizer / TfidfVectorizer、あるいは Keras の Tokenizer + Embedding 層で表現可能。小規模データなら Dense のみでも学習は可能だが、文脈や語順を扱いたい場合は RNN や Transformer の導入を検討してください。
- 評価面では交差検証、混同行列、F1 スコアなどを用いるとモデルの信頼性が上がります。
まとめ
教育用の最小実装が中心で、再現性と拡張に向けた追加実装が必要です(約50字)。
リポジトリ情報:
- 名前: Somayeh-Komeylian-Deep-Learning-Set-4-Text-Dataset-IRIS-Dataset-and-House-Dataset
- 説明: Somayeh Komeylian – Deep Learning Set 4: Implementations of Dense Models for a Text Dataset, the Iris Dataset, and a Housing Dataset
- スター数: 1
- 言語: null
- URL: https://github.com/S-Rabbit81/Somayeh-Komeylian-Deep-Learning-Set-4-Text-Dataset-IRIS-Dataset-and-House-Dataset
- オーナー: S-Rabbit81
- アバター: https://avatars.githubusercontent.com/u/222885101?v=4
READMEの抜粋:
Provided by Somayeh Komeylian: PhD Student at UCSD & SDSU
Deep Learning
Name of dataset: seeds_dataset.txt
Type of dataset: multi-class classification: 3-class classification
Method: (Not built from scratch)
# 1. MLPClassifier
# 2. Sequential model in Keras, which is a linear stack of three fully connected (Dense) layers suitable for a feedforward neural network
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::…