多源情報コラボレーティブ推論によるアルツハイマー早期リスクスクリーニング

AI/ML

概要

本リポジトリは、音声データからアルツハイマー病(AD)リスクを早期スクリーニングするためのプロトタイプ実装です。言語情報(テキスト)、準言語(発話特性)、非言語(沈黙や挙動)、古典的音響特徴、eGeMAPSといった多様な特徴量を抽出・統合し、簡易なグラフベースの推論(空間的関連付けに基づく)と機械学習モデル(例:XGBoost バンドル)を組み合わせます。Flaskで構築されたデモUIによりワンクリックで解析が可能、ASRはfaster-whisper(CTranslate2重み)をオプションで利用でき、解釈可能性・再現性・デプロイ性を重視した設計が特徴です。

GitHub

リポジトリの統計情報

  • スター数: 4
  • フォーク数: 0
  • ウォッチャー数: 4
  • コミット数: 12
  • ファイル数: 10
  • メインの言語: Python

主な特徴

  • 多源(言語・準言語・非言語・古典音響・eGeMAPS)音声特徴量の統合解析。
  • グラフベースの簡易推論で空間的関連(pathological cascade)をモデル化。
  • FlaskによるデモUIでワンクリック実行、ASRはfaster-whisperをオプション提供。
  • ローカルのscikit-learnモデルバンドル(例:XGBoost)を用いた確率融合で高精度を実現(ADReSSo21 Acc≈0.853報告)。

技術的なポイント

本プロジェクトは「解釈可能な三位一体(言語/準言語/非言語)」という設計思想を掲げ、まず各モダリティを分離(decoupling)して特徴を抽出します。次に抽出した特徴間の「空間的関連(spatial association)」をグラフ的に表現し、病態の連鎖(pathological cascade)として推論するパス(decoupling → spatial → grading)を採用しています。音声処理面では古典的なエネルギー・ピッチ・フォルマント等に加え、感情や音色を捉えるeGeMAPSを導入。ASRはfaster-whisper(CTranslate2重み)を利用可能で、ローカルでテキストを得て言語特徴(語彙、構文、沈黙パターン)を抽出します。モデル融合は確率的アンサンブル(ローカルのscikit-learnモデルバンドルとグラフ推論のブレンド)で行い、XGBoostを用いたマルチソース学習でADReSSo21ベンチマークにおいてAcc≥0.80(報告値0.853)を達成。Flaskアプリは軽量で、UI上で各モダリティの寄与やスコア分解を提示し「なぜその判定になったか」を説明することを目指しています。再現性のためにモデルバンドルや依存関係の管理を重視し、臨床・コミュニティ向けスクリーニングとしてデプロイ可能な構成を意識しています。

プロジェクトの構成

主要なファイルとディレクトリ:

  • LICENSE: file
  • README.md: file
  • pycache: dir
  • app.py: file
  • config.py: file
  • model_bundle/: dir(モデルと重みの格納を想定)
  • requirements.txt: file
  • utils.py: file
  • static/: dir(フロントエンド資源)
  • templates/: dir(Flaskテンプレート) …他 5 ファイル

まとめ

多源音声を統合し解釈性を重視したAD早期スクリーニングの実装例で、実験〜デモ用途に適しています。

リポジトリ情報: