HackNews スクレイパー — HN コメント淘金ツール
概要
このリポジトリは Hacker News の投稿(ポスト)とその全コメントを収集して保存・整形するためのツールセットです。Node.js 実装の index.js と、運用を簡素化するシェルスクリプト process-hn.sh を提供し、取得したデータを「クリーン」な JSON もしくは Markdown 形式で出力します。さらに、収集結果からAIに投げる分析用プロンプトを自動生成し、オプションで Anthropic Claude に分析を依頼する機能や、プロンプトをクリップボードにコピーする動作もサポートします。データの不要部分を削ぎ落とし時間順に並べ替えるデータ洗浄機能が特徴です。
リポジトリの統計情報
- スター数: 9
- フォーク数: 3
- ウォッチャー数: 9
- コミット数: 4
- ファイル数: 8
- メインの言語: JavaScript
主な特徴
- Hacker News の投稿IDから投稿本体と全コメントを再帰的に取得
- JSON / Markdown の2形式で出力、不要情報を削除して時系列にソート
- AI分析用プロンプトを自動生成し、オプションでClaudeに解析を依頼
- ワンコマンドの process-hn.sh による自動化とクリップボードコピー機能
技術的なポイント
index.js は Node.js ベースで、指定した HN ポストID を起点に投稿とコメントを取得し、内部でネストされたコメントをフラット化または構造を維持しつつ「クリーン」な形に整形します。不要なメタ情報(生HTMLの余分なタグやトラッキング情報等)を取り除き、タイムスタンプ順にソートすることで人間やAIが解析しやすいデータに変換します。process-hn.sh は依存インストール、実行オプション(出力形式、—no-analyze でプロンプト生成のみ)を受け取り、生成した final-prompt をクリップボードへコピーしたり、設定された API 呼び出しで Anthropic Claude に送信して分析結果を得る自動化フローを持ちます。実運用での注意点としては、HN のレート制限やネットワークエラー、コメントの深いネスト・無効なHTMLのサニタイズ、AIサービスのAPIキー管理などがあり、並列取得やリトライ、HTMLパーサーの堅牢化、出力スキーマの標準化(スキーマ版JSON)といった改善余地があります。小さなユーティリティながら、データ収集→前処理→AI解析のループを素早く回せる点が利点です。(約700字)
プロジェクトの構成
主要なファイルとディレクトリ:
- .gitignore: file
- README.md: file
- index.js: file
- package-lock.json: file
- package.json: file
…他 3 ファイル
まとめ
短いコードでHNデータ収集とAI分析のワークフローを自動化できる実用的ツールです。
リポジトリ情報:
- 名前: hacknews-scraper
- 説明: 一个hacknews comment 的淘金程序结合宝玉prompt实现AI整理和输出
- スター数: 9
- 言語: JavaScript
- URL: https://github.com/cclank/hacknews-scraper
- オーナー: cclank
- アバター: https://avatars.githubusercontent.com/u/29557585?v=4
READMEの抜粋:
HackNews淘金程序
这是一个用于抓取 Hacker News 帖子及其所有评论的工具,可以将数据保存为 JSON 或 Markdown 格式。
核心功能
- 根据 HN 帖子 ID 抓取完整帖子和评论
- 支持 JSON 和 Markdown 两种输出格式
- 数据清洗功能:只保留核心信息并按时间排序
- 自动化处理脚本:一键生成AI分析prompt
快速开始
# 安装依赖
npm install
# 抓取帖子并生成AI分析prompt
./process-hn.sh <HN_POST_ID> [format] [--no-analyze]
# 示例
./process-hn.sh 8863 json --no-analyze # 仅生成prompt并复制到粘贴板
./process-hn.sh 8863 json # 生成prompt并调用Claude分析
输出文件
output/帖子标题-clean.json- 清洗后的数据output/final-prompt-帖...