Get笔记(GetNote)記事抽出ツール (extract-getnote-articles)

Tool

概要

Get笔记文案提取工具(extract-getnote-articles)は、Get筆記(GetNote)上の投稿を一括で取得し、構造化されたMarkdownファイルとして保存するための軽量ツールです。並列(マルチスレッド)取得をサポートし、デフォルトで3コネクション程度の同時ダウンロードにより速度を大幅に向上させます。ページングの自動処理や既存記事のスキップ(断点再開)、進捗・速度のリアルタイム表示、Ctrl+Cでの安全な停止など、実運用で役立つ設計が備わっています。

GitHub

リポジトリの統計情報

  • スター数: 10
  • フォーク数: 3
  • ウォッチャー数: 10
  • コミット数: 8
  • ファイル数: 9
  • メインの言語: JavaScript

主な特徴

  • 並列取得(デフォルト3並列)で高速に記事を収集
  • Markdown形式でタイトル・原リンク・本文などを整形して出力
  • 自動ページングと断点再開で途中中断に強い
  • 進捗、速度、経過時間を表示し安全に停止可能

技術的なポイント

READMEの説明とファイル構成から読み取れる技術的要点を整理します。実装はJavaScript(Node.js)ベースで、単一ファイルのextract.jsが収集ロジックの中核と推測されます。並列取得はPromiseベースのバッチ処理やワーカープール的な実装で行われ、同時に複数ページ/記事をフェッチしてI/O待ち時間を隙間なく使うことでスループットを引き上げています。ページングはサイト側の一覧APIやHTMLの「次へ」リンクをたどる自動ループで処理され、全ページに対してページ単位でジョブを投入する仕組みが想定されます。

安定性面では、すでに保存済みの記事を判定してスキップすることで「断点再開」を実現しており、ファイルシステム上の存在チェックやメタ情報の保存で再実行時の重複取得を防止します。Ctrl+C(SIGINT)に対する優雅な停止は、現在進行中のバッチを完了させたあとにプロセスを終了するハンドリングを行うことで、途中でファイルが壊れるリスクを下げています。出力はMarkdown形式で、見出し・原文リンク・本文を構造化して保存するため、後処理や読書に適した形になります。

また、速度に関する記載(並列時25–30篇/分)は、ネットワーク帯域と対象サイトのレスポンス次第で変動しますが、並列化+効率的なHTMLパース(cheerioなどの軽量パーサ)+非同期ファイル書き出しの組み合わせで到達可能な設計です。名前衝突対策や博主名(著者名)をフォルダ名に使うなど、保存時の整理性にも配慮されています。install.shの存在から一括セットアップや権限付与、依存パッケージのインストールを自動化するスクリプトが用意されていることも運用上の利点です。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .claude: dir
  • .gitignore: file
  • README.md: file
  • extract.js: file
  • install.sh: file

…他 4 ファイル

まとめ

実用的な機能に絞った、運用性の高いGetNote向け抽出ツールです。

リポジトリ情報:

READMEの抜粋:

Get笔记文案提取工具

一个高效的 Claude Code Skill,用于自动提取 Get笔记知识库中的所有文章,保存为 Markdown 文件。

功能特点

  • 🚀 并行提取:支持多线程并发提取,默认3个并发,速度提升3-5倍
  • 📝 格式化输出:保存为结构化的 Markdown 文件,包含标题、原链接和完整内容
  • 高速提取:并行模式下速度约 25-30 篇/分钟
  • 📊 实时反馈:显示提取进度、速度和用时统计
  • 🔄 自动分页:自动处理所有页面,无需手动翻页
  • 💾 断点续传:自动跳过已提取的文章,支持随时中断和继续
  • 🛑 优雅停止:Ctrl+C 等待当前批次完成后安全退出
  • 📁 智能命名:使用博主名称命名文件夹,自动处理重名冲突
  • 🎯 完整内容:提取文章完整正文,非AI摘要

安装

一键安装(推荐)

curl -fsSL https://raw.githubusercontent.com/dontbesilent2025/extra...