xiaomei-python(小美): 小红书邀请码監視ツール

Tool

概要

本プロジェクトは、「小美」と呼ばれる小红书アカウントの最新ノート(投稿)とコメント欄を監視し、特に「6文字の大文字英字」形式の招待コード(邀请码)を検出するための軽量Pythonクローラです。検出時にはメール送信で通知し、invite_codes_history.json に保存して重複通知を回避します。5分間隔の定期チェック、複数の識別パターン、簡易版/Selenium版など用途に合わせた実装が用意されており、cookie抽出用スクリプトやcurlコマンド例も含まれています。

GitHub

リポジトリの統計情報

  • スター数: 2
  • フォーク数: 0
  • ウォッチャー数: 2
  • コミット数: 8
  • ファイル数: 7
  • メインの言語: Python

主な特徴

  • 定期監視(デフォルト5分間隔)で最新投稿とコメントをチェック
  • 6文字大文字アルファベット形式の招待コードを優先検出する最適化
  • 発見時にメールで通知、履歴ファイルで重複通知を防止
  • 簡易実装/インテリジェント実装/Selenium実装の3種類を提供

技術的なポイント

本ツールはシンプルなHTTPベースのスクレイピングを中心に設計されており、主な技術的工夫は「招待コードの検出ロジック」と「実行環境への適応性」です。招待コードは「6文字の大文字アルファベット」という明確なフォーマットがあるため、正規表現(例:\b[A-Z]{6}\b など)で高速に抽出しますが、ノイズ(同形式の別語)を減らすために周辺テキストのキーワード(暗号、暗号词、邀请码 等)や文脈を組み合わせてフィルタリングする多段階検出を採っています。動的レンダリングでコメントが出現する場合に備え、Requestsベースの軽量版と、JS実行を必要とする場合のSelenium版を用意。Selenium版はヘッドレスブラウザでコメントの完全なレンダリングとスクロールをサポートします。クッキー取得は extract_cookies_simple.py と curl_command.txt を補助にしており、認証やレート制限回避のため有効なセッションを使う設計です。検出ログは invite_codes_history.json に保存し、JSONベースの既読管理で同一コードの再通知を防止。通知は SMTP を利用したメール送信で、config.json に設定項目を置くため導入が容易ですが、セキュリティの観点からパスワードは環境変数化や暗号化を推奨します。5分間隔の監視ループは単純で確実ですが、運用上はプロセスマネージャ(systemd や Docker コンテナ)や外部スケジューラでの管理が望ましい点も留意されています。

プロジェクトの構成

主要なファイルとディレクトリ:

  • README.md: file
  • config.json: file
  • curl_command.txt: file
  • extract_cookies_simple.py: file
  • invite_codes_history.json: file

…他 2 ファイル

使い方(概略)

  1. 依存関係をインストール: pip install -r requirements.txt
  2. config.json を編集してメール設定、監視対象、実行モード(簡易/Selenium)などを記入
  3. 必要ならブラウザのクッキーを extract_cookies_simple.py などで取得して設定
  4. スクリプトを起動すると5分毎に投稿とコメントをチェックし、招待コード発見時にメールで通知し履歴ファイルに追記

運用上の注意と改善案

  • 小红书は頻繁にUIやAPIの変更、bot検出を行うため、クローラはリクエスト頻度とUser-Agent管理、IPローテーション(プロキシ)で慎重に運用してください。
  • メール認証情報を平文で config.json に置くのは危険です。環境変数、Vault、もしくは暗号化ストレージの利用を推奨します。
  • Seleniumは堅牢ですがリソースを消費します。軽量運用が目的ならRequestsベースの実装を優先し、必要時のみSeleniumに切り替えてください。
  • ロギング、再試行、失敗時のアラート(SlackやWebhook連携)、テストケース、自動デプロイ(Docker化)を追加すると運用性が向上します。

まとめ

小红书上の特定アカウントの招待コード検出に特化した実用的な監視ツール。導入は簡単だが運用面の強化が必要。

リポジトリ情報:

READMEの抜粋:

小红书邀请码监控爬虫

这是一个用于监控小红书账号(小美)最新笔记和评论中邀请码的Python爬虫程序。特别优化了对”6位大写字母”格式邀请码的检测。

笔记目前有三条 ,例如 《一份关于小美邀请码的真诚说明与感谢 》 评论例如 :本来大家挺有热情的,这么搞,新鲜劲一过完犊子… 有邀请码的评论 : 感谢大家的热情!我们尽力为大家争取到了今日第二轮暗号:XMGOOD

邀请码为 6位字母,大写

功能特点

  • 🕐 定时监控:每5分钟自动检查一次
  • 🔍 智能识别:使用多种模式识别邀请码和暗号,特别优化6位大写字母格式
  • 📧 邮件提醒:发现新邀请码时自动发送邮件通知
  • 💾 历史记录:避免重复提醒已发现的邀请码
  • 🌐 多种实现:提供智能监控、简化版和selenium三种实现方式
  • 💬 评论监控:同时监控笔记内容和评论区

安装依赖

pip install -r requirements.txt

配置说明

1. 邮件配置

编辑 config.json 文件,配…