Pi-Browser — マルチAI対応ブラウザ自動化CLI
概要
Pi-Browserは自然言語の指示でブラウザ操作を自動化するCLIツールです。Google Gemini、OpenAI GPT、Anthropic Claude、Ollama(ローカル)のほか、20以上のAIプロバイダ/数百モデルに対応することをうたっており、ユーザーは「쿠팡에서 아이폰 가격 알려줘(クーパンでiPhoneの価格を教えて)」のような命令でサイト検索、クリック、スクリーンショット取得、画面解析などを実行できます。エージェントループ機能により目的達成までAIが繰り返し実行するため、複雑なタスクの自動化やオフラインでの実行(Ollama経由)にも対応。Node.js 20以上とGoogle Chromeを前提とした設計で、開発者向けに環境変数やパッケージ管理(pnpm)を用いた構成になっています(約300字)。
リポジトリの統計情報
- スター数: 9
- フォーク数: 0
- ウォッチャー数: 9
- コミット数: 6
- ファイル数: 7
- メインの言語: JavaScript
主な特徴
- 自然言語でブラウザを操作(検索・クリック・フォーム入力・スクリーンショット)
- 複数のAIプロバイダをプラグイン的に利用(Google Gemini、OpenAI、Anthropic、Ollama等)
- エージェントループで目標達成まで自律実行
- スクリーンショット解析を含む視覚情報を活用可能(画面の状況判断)
技術的なポイント
Pi-BrowserはNode.jsベースのCLIで、ブラウザ自動化部分はChromeの制御(Chrome DevTools Protocol経由やPuppeteer/Playwright相当の手法を想定)を組み合わせ、AIに指示を与えてDOM操作やイベント実行を行います。AI連携は各プロバイダ向けのアダプタ層を介して抽象化されており、APIキーやエンドポイントは.envで管理する設計です。複数モデルへの対応はAdapter/Providerパターンで実装されており、新しいプロバイダを追加しやすく、Ollamaのようなローカルモデルを用いることでネットワーク依存度を下げ、完全オフライン環境での実行も可能になります。
エージェントループは目標分解→行動選択→実行→観察のサイクルを繰り返すフレームワークで、必要に応じてスクリーンショットを取得して視覚情報をLLMに渡し、画面のコンテキストを踏まえた判断を行います。これにより、動的コンテンツや認証フローなど単純なスクリプトでは扱いづらいケースにも対応できます。パッケージ管理はpnpmを想定し、軽量な依存解決を採用。セキュリティ面ではAPIキーの環境変数管理、ブラウザ起動時のプロファイル分離、実行ログの最小化を推奨しており、拡張性を重視したモジュール構成で開発者が独自ルールや新しいモデル統合を行いやすい作りになっています(約700字)。
プロジェクトの構成
主要なファイルとディレクトリ:
- .env.example: file
- .gitignore: file
- README.md: file
- package.json: file
- pnpm-lock.yaml: file
…他 2 ファイル
まとめ
マルチモデル対応の自然言語ブラウザ自動化CLIとして拡張性とオフライン実行性を両立した実践向けツール。
リポジトリ情報:
- 名前: pi-browser
- 説明: 다중 AI 모델을 활용한 브라우저 자동화 CLI (Google Gemini, OpenAI, Anthropic, Ollama 지원)
- スター数: 9
- 言語: JavaScript
- URL: https://github.com/johunsang/pi-browser
- オーナー: johunsang
- アバター: https://avatars.githubusercontent.com/u/10287714?v=4
READMEの抜粋:
🤖 Pi-Browser
다중 AI 모델을 활용한 브라우저 자동화 CLI 도구
자연어로 브라우저를 제어하세요. Google Gemini, OpenAI GPT, Anthropic Claude, 그리고 Ollama 로컬 모델까지 다양한 AI 모델을 지원합니다.
✨ 주요 기능
- 🌐 자연어 브라우저 제어: “쿠팡에서 아이폰 가격 알려줘” 같은 자연어 명령으로 브라우저 조작
- 🔄 다중 모델 지원: 20개 이상의 AI 제공자와 수백 개의 모델 지원
- 🏠 로컬 모델 지원: Ollama를 통한 완전 오프라인 실행 가능
- 🎯 에이전트 루프: 목표 달성까지 자동으로 반복 실행
- 📸 스크린샷 분석: AI가 화면을 보고 상황 판단
📦 설치
요구사항
- Node.js 20.0.0 이상
- Google Chrome 브라우저
- (선택) Ollama - 로컬 모델 사용 시
설치 방법
# 저...