インドのデング熱ナウキャスト(Nowcast-Dengue-in-India)

AI/ML

概要

This repository は、インドにおけるデング熱流行の「今」を推定するための実用的なツールセットです。公式のWHOサーベイランスデータを基礎に、Google Trendsというデジタルプロキシを加えることで、報告遅延や欠損が生じている時期でもタイムリーな月次推定を行えるように設計されています。パイプラインは軽量でエンドツーエンドのワークフローを意識しており、前処理済みの統合データ(master_data.csv)、モデル実行スクリプト(例: model_step1_google_only.py)、および出力ディレクトリを備え、実験の再現や応用がしやすくなっています。可搬性が高く、地域や期間を変えた適用も比較的容易です。

GitHub

リポジトリの統計情報

  • スター数: 1
  • フォーク数: 0
  • ウォッチャー数: 1
  • コミット数: 5
  • ファイル数: 10
  • メインの言語: Jupyter Notebook

主な特徴

  • WHOの公的サーベイランスデータとGoogle Trendsを組み合わせたハイブリッドなナウキャスティング。
  • 軽量で再現性のあるエンドツーエンドパイプライン(データ統合 → モデル → 出力)。
  • Google Trendsのみで動かす実験用スクリプト(model_step1_google_only.py)を同梱。
  • 前処理済みの統合データ(master_data.csv)により迅速に解析を開始可能。

技術的なポイント

リポジトリは「遅延報告がある疫学データ」を補完するためにデジタルプロキシ(Google Trends)を活用する点が最大の技術的意義です。具体的には、WHOデータのタイムスタンプに対してGoogle検索トレンドの時系列を同期させ、説明変数として取り込むことで、報告遅延や欠測を補いながら現在の感染水準を推定します。model_step1_google_only.py などのスクリプトは、Google Trendsベースの特徴量抽出と単純〜中程度の機械学習モデル(時系列回帰や正則化回帰等)を想定しており、特徴選択やクロスバリデーションによる汎化評価を含んでいる可能性が高いです。

データ管理面では master_data.csv にWHOとGoogle Trendsを統合した「解析用マスターデータ」が格納され、前処理(欠損処理、正規化、ラグ特徴の作成など)を明示的に行うことでパイプラインの再現性を高めています。出力フォルダ(outputs_step1)にはモデル推定結果や図表、評価指標が格納される想定で、実務環境における迅速な意思決定支援に向いています。

また、OpenDengueのような年次のプロキシをオプションで取り込める柔軟性により、年ごとのベースライン変動や長期トレンドも考慮でき、単純な短期予測のみならず季節性や年次変動を反映した推定設計が可能です。コードはJupyter Notebookやスクリプト形式で提供されており、実験ノートや可視化をそのまま残せる点も解析の追跡に有利です。

(上記はリポジトリのファイル構成とREADMEの説明に基づく技術的観点の整理です。実際のモデル構成やハイパーパラメータはリポジトリ内部のスクリプトを参照してください。)

プロジェクトの構成

主要なファイルとディレクトリ:

  • .DS_Store: file
  • README.md: file
  • master_data.csv: file
  • model_step1_google_only.py: file
  • outputs_step1: dir
  • notebooks/: dir(解析用ノートブックが入る想定)
  • requirements.txt: file(依存ライブラリ)
  • LICENSE: file
  • .gitignore: file
  • src/ または utils/: dir(ユーティリティ関数群) …他 5 ファイル

(実際のリポジトリではJupyter Notebook形式のファイルや追加のスクリプト、出力画像等が含まれている可能性があります。)

まとめ

WHOデータとGoogle Trendsを組み合わせた実践的なナウキャスト実装。軽量で再現性に配慮された構成。

リポジトリ情報:

READMEの抜粋:

Nowcast Dengue in India

A lightweight, end-to-end pipeline for nowcasting dengue cases in India using a combination of:

  • Official surveillance data (WHO)
  • Digital proxy signals (Google Trends)
  • Optional yearly proxy totals (OpenDengue)

The goal is to generate timely monthly dengue estimates when official reporting may be delayed.


Repository Structure

File / FolderDescription
master_data.csvUnified dataset (WHO + Google Trends + optio…