Token Enhancer — ウェブページを軽量テキスト化するローカルプロキシ
概要
Token Enhancerはローカルで動作するプロキシで、ウェブページをAIエージェントに渡す前に「読み取るべきテキスト」だけに精錬します。HTMLのナビゲーション、広告、スクリプト、インラインスタイルなどノイズを取り除き、本文・要約・メタデータだけを抽出して返すことで、エージェントが消費するトークンを大幅に削減します。セットアップはシンプルで、APIキーや外部LLMは不要。実運用でのコスト削減とレスポンスの安定化、プライバシー確保を同時に実現します。(約300字)
リポジトリの統計情報
- スター数: 6
- フォーク数: 0
- ウォッチャー数: 6
- コミット数: 4
- ファイル数: 10
- メインの言語: Python
主な特徴
- ローカルプロキシで動作:外部サービス不要でプライバシー保護。
- 大幅なトークン削減:HTMLノイズを削ぎ落としコンテキストを圧縮。
- シンプルな導入:Pythonベース、install.shでセットアップ可能。
- LLM不要:前処理のみでエージェントの効率を改善。
技術的なポイント
Token Enhancerの核は「HTTPプロキシとしての介入」と「HTMLの意味的精錬」この二点にあります。動作の流れは概ね次のようになります:クライアントからのHTTPリクエストをローカルプロキシが受け取り、実際のターゲットサイトへアクセスしてHTMLを取得。取得したHTMLを解析し、スクリプトやスタイル、サイドバー、広告ブロック等のノイズ要素を除去します。本文抽出にはDOM構造とテキスト密度、見出しや段落の深さなどのヒューリスティクスを組み合わせ、メインコンテンツを特定します。抽出後は余計な属性や重複リンクを削ぎ落とし、必要に応じて簡易的な要約・メタデータ(タイトル、公開日時、著者など)を付与してクライアントに返します。
実装面ではPythonでHTTPクライアント/サーバの仕組みを使い、HTML解析はパーサベース(例:DOMツリー操作)で行う想定です。結果としてトークン数と転送データ量の両方が劇的に減少し、AIエージェントは「意味ある文書」だけを短時間で処理できます。一方で、クライアントサイドで生成されるコンテンツ(SPAや大量のJavaScriptレンダリング)は追加の対応(ヘッドレスブラウザでのレンダリングやJS実行済みHTMLの取得)が必要になる点や、画像やスタイル情報は意図的に除外されるため視覚的な文脈は失われる点に注意が必要です。キャッシュや並列フェッチ、コンテンツスコアリングの導入でパフォーマンスをさらに高める余地があります。(約700字)
プロジェクトの構成
主要なファイルとディレクトリ:
- .gitignore: file
- LICENSE: file
- README.md: file
- data_proxy.py: file
- install.sh: file
…他 5 ファイル
(注:data_proxy.py がプロキシ本体、install.sh で環境セットアップ、README.md に usage や例がまとめられている想定)
まとめ
ローカルで動く実用的な前処理プロキシにより、AIエージェントのトークン消費を劇的に削減できるツールです。(約50字)
リポジトリ情報:
- 名前: token-enhancer
- 説明: A local proxy that strips web pages down to clean text before they enter your AI agent’s context window. 704K tokens → 2.6K tokens. No LLM required.
- スター数: 6
- 言語: Python
- URL: https://github.com/Boof-Pack/token-enhancer
- オーナー: Boof-Pack
- アバター: https://avatars.githubusercontent.com/u/239743119?v=4
READMEの抜粋:
Token Enhancer
A local proxy that strips web pages down to clean text before they enter your AI agent’s context window.
One fetch of Yahoo Finance: 704,760 tokens → 2,625 tokens. 99.6% reduction.
No API key. No LLM. No GPU. Just Python.
The Problem
AI agents waste most of their token budget loading raw HTML pages into context. A single Yahoo Finance page is 704K tokens of navigation bars, ads, scripts, and junk. Your agent pays for all of it before any reasoning happens.