Claude Code Skill:Scrapling(自動フェッチャ選定付きスクレイピング)
概要
Claude Code向けの「Scrapling」スキルは、スクレイピングとデータ抽出を自動化するためのツールです。バックエンドにScraplingライブラリを利用し、対象ウェブサイトの特性(動的レンダリングの有無、Cloudflare等の保護、セッション管理の必要性など)を判定して最適なFetcherを自動選定します。選択されたFetcherに基づき、必要なPythonコードを生成して実行し、セレクタベースの抽出やヘッドレスブラウザを用いたレンダリング、回避策(Stealthyフェッチなど)を組み合わせた堅牢なデータ取得を可能にします。Claude Codeのワークフローに組み込むことで、自然言語で要求を与えれば自動でスクレイピング処理を立ち上げられる点が特徴です。
リポジトリの統計情報
- スター数: 46
- フォーク数: 4
- ウォッチャー数: 46
- コミット数: 2
- ファイル数: 6
- メインの言語: Python
主な特徴
- Fetcher Decision Tree:サイト特性に応じて自動でFetcherを選択
- Cloudflare回避やステルスフェッチをサポート
- 動的レンダリング(JS)対応のFetcherを備え、ヘッドレスブラウザ利用を想定
- Claude CodeスキルとしてPythonスクリプトを生成・実行するワークフローを提供
技術的なポイント
このプロジェクトのコアは「自動フェッチャ選定」と「コード生成・実行」の2点にあります。リポジトリはScraplingをラップし、対象サイトの応答ヘッダ、HTMLの有無、スクリプト量、Cloudflareや一般的なbot検出の兆候、Cookie/セッションの必要性などから判定ルール(Decision Tree)を適用して、以下のようなFetcherを使い分けます:単純なHTTP取得用のFetcher、ボット検出回避のためのStealthyFetcher、JavaScriptを実行するDynamicFetcher(ヘッドレスブラウザ経由)、維持すべきクッキーやログイン状態を扱うFetcherSession、そして抽出用のSelector。これにより、静的ページ、動的ページ、保護されたページそれぞれに最適化された取得戦略が自動的に選ばれます。
生成されるPythonスクリプトはScraplingのAPIを呼び出す形で組まれ、抽出ルール(CSSセレクタ、XPath、正規表現等)やページ遷移のハンドリングを含めて実行されます。Claude Codeスキルとして組み込まれるため、自然言語プロンプトから抽出要件を解析してスクリプトを組み立てる役割も担います。実運用ではレート制御、再試行ポリシー、エラーハンドリング、ログ出力、そして法的/倫理的制約(robots.txtや対象サイトの利用規約の尊重)を考慮する必要があります。拡張性としてはカスタムFetcherの追加や、CAPTCHAや高度なチャレンジを扱う外部サービス連携を容易に実装できる設計を想定しています。
プロジェクトの構成
主要なファイルとディレクトリ:
- .gitignore: file
- LICENSE: file
- README.md: file
- SKILL.md: file
- references: dir
…他 1 ファイル
まとめ
Claude CodeとScraplingを組み合わせた実用的なスクレイピングスキルで、フェッチ戦略の自動化が強みです(50字程度)。
リポジトリ情報:
- 名前: claude-code-skill-scrapling
- 説明: Claude Code skill for web scraping with scrapling - auto Fetcher selection, Cloudflare bypass, site patterns
- スター数: 46
- 言語: Python
- URL: https://github.com/Cedriccmh/claude-code-skill-scrapling
- オーナー: Cedriccmh
- アバター: https://avatars.githubusercontent.com/u/114600267?v=4