ホラー映画キルカウント(Kill-Count)データセット

Data

概要

ホラー映画における「誰が何人殺されたか」という情報を機械可読でまとめたデータリポジトリです。主に killcounts.jsonl を中心にデータが管理され、各行が1件の映画エントリを表すJSONL形式で提供されます。各エントリには少なくとも title(作品名)、year(公開年)、count(確認されたキル数)、tmdb_id(TMDb の識別子)といった基本項目が含まれており、TMDb API や他のメタデータと結合して拡張する用途に向きます。CSV 版も同梱されているため、分析ツールやスプレッドシートでも扱いやすく、killshot.rip といったビジュアライズプロジェクトへのデータ提供を想定した設計です。

GitHub

リポジトリの統計情報

  • スター数: 1
  • フォーク数: 0
  • ウォッチャー数: 1
  • コミット数: 7
  • ファイル数: 6
  • メインの言語: Python

主な特徴

  • 機械可読なJSONL形式でホラー映画のボディカウントを収録。
  • TMDb ID を含み、外部APIやメタデータとの結合が容易。
  • CSV 版も同梱し、分析や可視化ツールとの互換性を確保。
  • コミュニティ由来のデータで、killshot.rip 等のサービスに供給。

技術的なポイント

このリポジトリは「データ中心」の軽量プロジェクトで、データフォーマットと再利用性に重点が置かれています。主要データは killcounts.jsonl に保存され、JSONL(行区切りJSON)はストリーミング処理や差分管理に適しており、大規模なデータでもメモリ効率よく読み書きできます。また tmdb_id を各エントリに含めている点は実務的で、TMDb API を利用してポスター、ジャンル、キャスト情報などを後付けで取得・結合できるため、拡張性が高いです。CSV 版は分析ツールや非エンジニア向けワークフローの互換性を保つために用意されており、pandas.read_json(…, lines=True) や jq、各種ストリーミング処理でそのまま扱えます。ライセンス情報は LICENSE ファイルに含まれているため、商用利用や再配布の可否はそちらを確認する必要があります。コミット数やファイル構成からは比較的小規模で手動収集・メンテナンスされている印象を受けるため、データ品質(表記ゆれ、重複、出典の明示)やスキーマバリデーションを追加する余地があります。CI/CD や自動データ更新のワークフローは .github ディレクトリに置かれている可能性があり、将来的にはスクリーピング→正規化→検証→公開というパイプライン化が進めやすい設計です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .github: dir(ワークフローやテンプレートが入る想定)
  • LICENSE: file(利用条件を記載、使用前に要確認)
  • killcounts.csv: file(CSV形式のデータコピー、分析や表計算ソフト向け)
    • CSV は列ヘッダで title, year, count, tmdb_id 等を持ち、互換性を優先した形式です。
  • killcounts.jsonl: file(主要データ。1行1JSONで各映画エントリ)
    • JSONL の利点:行単位で差分管理しやすく、Unix ツールやストリーミング処理で扱いやすい。
  • readme.md: file(プロジェクト説明、データソース、利用例へのリンク)
    • README は killshot.rip との関係やデータソース(Dead Meat, MovieBodyCounts)を明示。 …他 1 ファイル

活用例(ワークフローの一例):

  • JSONL を jq や Python(pandas/ijson)で読み込み → tmdb_id をキーに TMDb API からメタデータを取得 → 結合して可視化(例:作品別キル数ランキング、年代別推移、サブジャンル別分布)。
  • バッチ更新:新作のエントリ追加 → スキーマ検証(JSON Schema)→ commit & PR で履歴管理。

拡張・改善案:

  • JSON Schema による自動検証と CI 統合でデータ品質を担保。
  • 出典フィールド(source_url, scraped_date)を明確化してトレーサビリティを強化。
  • 重複検出・タイトル正規化(Unicode正規化、英語タイトル・原題の併記)を実装。
  • TMDb から取得したメタデータを別ファイルでキャッシュし、外部API依存を減らす。

まとめ

ホラー映画のキルカウントを機械可読で提供する実用的な小規模データセット。拡張や解析に適します(約50字)。

リポジトリ情報:

READMEの抜粋:

Killshot Logo

Horror Movie Kill Counts

A community-driven, machine-readable database of horror movie body counts. This data powers killshot.rip.

The Data

The primary data is stored in killcounts.jsonl. Each entry includes:

  • title: The film’s title.
  • year: Release year.
  • count: Total confirmed kills.
  • tmdb_id: The Movie Database ID for easy API linking. …