Pi-Browser — マルチAI対応ブラウザ自動化CLI

AI/ML

概要

Pi-Browserは自然言語の指示でブラウザ操作を自動化するCLIツールです。Google Gemini、OpenAI GPT、Anthropic Claude、Ollama(ローカル)のほか、20以上のAIプロバイダ/数百モデルに対応することをうたっており、ユーザーは「쿠팡에서 아이폰 가격 알려줘(クーパンでiPhoneの価格を教えて)」のような命令でサイト検索、クリック、スクリーンショット取得、画面解析などを実行できます。エージェントループ機能により目的達成までAIが繰り返し実行するため、複雑なタスクの自動化やオフラインでの実行(Ollama経由)にも対応。Node.js 20以上とGoogle Chromeを前提とした設計で、開発者向けに環境変数やパッケージ管理(pnpm)を用いた構成になっています(約300字)。

GitHub

リポジトリの統計情報

  • スター数: 9
  • フォーク数: 0
  • ウォッチャー数: 9
  • コミット数: 6
  • ファイル数: 7
  • メインの言語: JavaScript

主な特徴

  • 自然言語でブラウザを操作(検索・クリック・フォーム入力・スクリーンショット)
  • 複数のAIプロバイダをプラグイン的に利用(Google Gemini、OpenAI、Anthropic、Ollama等)
  • エージェントループで目標達成まで自律実行
  • スクリーンショット解析を含む視覚情報を活用可能(画面の状況判断)

技術的なポイント

Pi-BrowserはNode.jsベースのCLIで、ブラウザ自動化部分はChromeの制御(Chrome DevTools Protocol経由やPuppeteer/Playwright相当の手法を想定)を組み合わせ、AIに指示を与えてDOM操作やイベント実行を行います。AI連携は各プロバイダ向けのアダプタ層を介して抽象化されており、APIキーやエンドポイントは.envで管理する設計です。複数モデルへの対応はAdapter/Providerパターンで実装されており、新しいプロバイダを追加しやすく、Ollamaのようなローカルモデルを用いることでネットワーク依存度を下げ、完全オフライン環境での実行も可能になります。

エージェントループは目標分解→行動選択→実行→観察のサイクルを繰り返すフレームワークで、必要に応じてスクリーンショットを取得して視覚情報をLLMに渡し、画面のコンテキストを踏まえた判断を行います。これにより、動的コンテンツや認証フローなど単純なスクリプトでは扱いづらいケースにも対応できます。パッケージ管理はpnpmを想定し、軽量な依存解決を採用。セキュリティ面ではAPIキーの環境変数管理、ブラウザ起動時のプロファイル分離、実行ログの最小化を推奨しており、拡張性を重視したモジュール構成で開発者が独自ルールや新しいモデル統合を行いやすい作りになっています(約700字)。

プロジェクトの構成

主要なファイルとディレクトリ:

  • .env.example: file
  • .gitignore: file
  • README.md: file
  • package.json: file
  • pnpm-lock.yaml: file

…他 2 ファイル

まとめ

マルチモデル対応の自然言語ブラウザ自動化CLIとして拡張性とオフライン実行性を両立した実践向けツール。

リポジトリ情報:

READMEの抜粋:

🤖 Pi-Browser

다중 AI 모델을 활용한 브라우저 자동화 CLI 도구

자연어로 브라우저를 제어하세요. Google Gemini, OpenAI GPT, Anthropic Claude, 그리고 Ollama 로컬 모델까지 다양한 AI 모델을 지원합니다.

✨ 주요 기능

  • 🌐 자연어 브라우저 제어: “쿠팡에서 아이폰 가격 알려줘” 같은 자연어 명령으로 브라우저 조작
  • 🔄 다중 모델 지원: 20개 이상의 AI 제공자와 수백 개의 모델 지원
  • 🏠 로컬 모델 지원: Ollama를 통한 완전 오프라인 실행 가능
  • 🎯 에이전트 루프: 목표 달성까지 자동으로 반복 실행
  • 📸 스크린샷 분석: AI가 화면을 보고 상황 판단

📦 설치

요구사항

  • Node.js 20.0.0 이상
  • Google Chrome 브라우저
  • (선택) Ollama - 로컬 모델 사용 시

설치 방법

# 저...