ProxyHive — 自動プロキシスクレイパー&チェッカー

Tool

概要

ProxyHiveは、自動でプロキシを収集(スクレイピング)し、有効性を検証するツールです。HTTP、SOCKS4、SOCKS5に対応しており、READMEのバッジから1時間ごとに更新を行う設定が示されています。主要な機能はプロキシの収集・検査・結果保存で、checker.pyが検査主体のスクリプトとして用意されています。出力はoutputディレクトリにまとめられ、軽量なPythonベースの構成でローカル運用が容易です。CIや自動化されたワークフローに組み込みやすい設計が期待できます。(約300字)

GitHub

リポジトリの統計情報

  • スター数: 2
  • フォーク数: 0
  • ウォッチャー数: 2
  • コミット数: 7
  • ファイル数: 7
  • メインの言語: Python

主な特徴

  • HTTP、SOCKS4、SOCKS5プロキシの自動スクレイピングと検証に対応
  • READMEバッジによる定期更新(1時間毎)の仕組みを想定
  • checker.pyでのプロキシ有効性チェックとoutputディレクトリへの保存
  • 軽量なPythonスクリプトでローカル運用や拡張が容易

技術的なポイント

ProxyHiveはシンプルな構成で「収集→検証→保存」を自動化することを目的としています。スクレイピング部分は複数の公開プロキシリストやソースから生のIP:ポート情報を取得し、正規表現やパース処理で整形した後に重複を除去して検査キューへ送り込む流れが想定されます。検証処理(checker.py)は各プロトコル固有の接続方法が必要になるため、HTTPは通常のリクエストライブラリ(requests等)でのプロキシ設定、SOCKS4/5はPySocksやsocksライブラリを使ったソケット接続/トンネリングを組み合わせて動作する可能性が高いです。実用性を高めるにはタイムアウト設定、接続リトライ、同時並列処理(スレッド/プロセス/asyncio)による検査高速化が必須で、READMEの更新バッジを見るに定期的なジョブ(cronやGitHub Actions)との連携を想定しています。出力はoutputディレクトリにプレーンテキストやCSV、JSON等で保存されることが多く、結果には応答時間、匿名性(transparent/anonymous/high-anonymous)やプロトコル種別などのメタデータを付与すると運用上便利です。既存コードを改良する際は、非同期I/O(aiohttp + aiohttp-socks)や接続の健全性判定(HTTPステータス・ヘッダ検査、外部IP確認)を導入するとスケーラビリティと精度が向上します。また、公開プロキシを扱う性質上、利用規約・倫理・法令遵守を意識した運用が必要です。(約700字)

プロジェクトの構成

主要なファイルとディレクトリ:

  • .github: dir
  • LICENSE: file
  • README.md: file
  • checker.py: file
  • output: dir

…他 2 ファイル

まとめ

シンプルで導入しやすい自動プロキシ収集・検査ツール。運用性向上の余地あり。(約50字)

リポジトリ情報:

READMEの抜粋:


ProxyHive is an automated proxy scraping and checking tool that supports HTTP, SOCKS4, and SOCKS5 proxies, with automatic update…