ホラー映画キルカウント(Kill-Count)データセット
概要
ホラー映画における「誰が何人殺されたか」という情報を機械可読でまとめたデータリポジトリです。主に killcounts.jsonl を中心にデータが管理され、各行が1件の映画エントリを表すJSONL形式で提供されます。各エントリには少なくとも title(作品名)、year(公開年)、count(確認されたキル数)、tmdb_id(TMDb の識別子)といった基本項目が含まれており、TMDb API や他のメタデータと結合して拡張する用途に向きます。CSV 版も同梱されているため、分析ツールやスプレッドシートでも扱いやすく、killshot.rip といったビジュアライズプロジェクトへのデータ提供を想定した設計です。
リポジトリの統計情報
- スター数: 1
- フォーク数: 0
- ウォッチャー数: 1
- コミット数: 7
- ファイル数: 6
- メインの言語: Python
主な特徴
- 機械可読なJSONL形式でホラー映画のボディカウントを収録。
- TMDb ID を含み、外部APIやメタデータとの結合が容易。
- CSV 版も同梱し、分析や可視化ツールとの互換性を確保。
- コミュニティ由来のデータで、killshot.rip 等のサービスに供給。
技術的なポイント
このリポジトリは「データ中心」の軽量プロジェクトで、データフォーマットと再利用性に重点が置かれています。主要データは killcounts.jsonl に保存され、JSONL(行区切りJSON)はストリーミング処理や差分管理に適しており、大規模なデータでもメモリ効率よく読み書きできます。また tmdb_id を各エントリに含めている点は実務的で、TMDb API を利用してポスター、ジャンル、キャスト情報などを後付けで取得・結合できるため、拡張性が高いです。CSV 版は分析ツールや非エンジニア向けワークフローの互換性を保つために用意されており、pandas.read_json(…, lines=True) や jq、各種ストリーミング処理でそのまま扱えます。ライセンス情報は LICENSE ファイルに含まれているため、商用利用や再配布の可否はそちらを確認する必要があります。コミット数やファイル構成からは比較的小規模で手動収集・メンテナンスされている印象を受けるため、データ品質(表記ゆれ、重複、出典の明示)やスキーマバリデーションを追加する余地があります。CI/CD や自動データ更新のワークフローは .github ディレクトリに置かれている可能性があり、将来的にはスクリーピング→正規化→検証→公開というパイプライン化が進めやすい設計です。
プロジェクトの構成
主要なファイルとディレクトリ:
- .github: dir(ワークフローやテンプレートが入る想定)
- LICENSE: file(利用条件を記載、使用前に要確認)
- killcounts.csv: file(CSV形式のデータコピー、分析や表計算ソフト向け)
- CSV は列ヘッダで title, year, count, tmdb_id 等を持ち、互換性を優先した形式です。
- killcounts.jsonl: file(主要データ。1行1JSONで各映画エントリ)
- JSONL の利点:行単位で差分管理しやすく、Unix ツールやストリーミング処理で扱いやすい。
- readme.md: file(プロジェクト説明、データソース、利用例へのリンク)
- README は killshot.rip との関係やデータソース(Dead Meat, MovieBodyCounts)を明示。 …他 1 ファイル
活用例(ワークフローの一例):
- JSONL を jq や Python(pandas/ijson)で読み込み → tmdb_id をキーに TMDb API からメタデータを取得 → 結合して可視化(例:作品別キル数ランキング、年代別推移、サブジャンル別分布)。
- バッチ更新:新作のエントリ追加 → スキーマ検証(JSON Schema)→ commit & PR で履歴管理。
拡張・改善案:
- JSON Schema による自動検証と CI 統合でデータ品質を担保。
- 出典フィールド(source_url, scraped_date)を明確化してトレーサビリティを強化。
- 重複検出・タイトル正規化(Unicode正規化、英語タイトル・原題の併記)を実装。
- TMDb から取得したメタデータを別ファイルでキャッシュし、外部API依存を減らす。
まとめ
ホラー映画のキルカウントを機械可読で提供する実用的な小規模データセット。拡張や解析に適します(約50字)。
リポジトリ情報:
- 名前: Kill-Count
- 説明: A machine-readable database of horror movie body counts (JSONL). Sourced from Dead Meat and MovieBodyCounts to power killshot.rip and other community projects.
- スター数: 1
- 言語: Python
- URL: https://github.com/lklynet/Kill-Count
- オーナー: lklynet
- アバター: https://avatars.githubusercontent.com/u/190622871?v=4
READMEの抜粋:
Horror Movie Kill Counts
A community-driven, machine-readable database of horror movie body counts. This data powers killshot.rip.
The Data
The primary data is stored in killcounts.jsonl. Each entry includes:
title: The film’s title.year: Release year.count: Total confirmed kills.tmdb_id: The Movie Database ID for easy API linking. …