Open-AutoGLM — モバイル向け AutoGLM ベースのスマートアシスタント
概要
Open-AutoGLM は、AutoGLM をベースに構築された「Phone Agent」プロジェクトを中心とするリポジトリで、スマートフォン画面を理解して自動操作を行うことを目的としたフレームワークです。主に Android デバイスを ADB 経由で制御し、視覚(画面キャプチャ)とテキスト(UI テキストやユーザー入力)を統合するマルチモーダルな理解を行うことで、ユーザーが自然言語で指示したタスク(例:「小紅書を開いて美食を検索」)を解析・計画・実行します。自動化の過程では、敏感な操作に対する確認やログイン・認証時の手動介入機能、リモートデバッグ機能も備えており、モバイル向けの実用的なエージェントを目指しています。現状はファイル数・コミット数が少ない初期段階の実装ですが、設計方針と主要機能が README によくまとめられています。
リポジトリの統計情報
- スター数: 23
- フォーク数: 3
- ウォッチャー数: 23
- コミット数: 3
- ファイル数: 12
- メインの言語: Python
主な特徴
- マルチモーダル画面理解:スクリーンショットの視覚情報とUIテキストを統合して解釈。
- ADBベースの自動操作:Android デバイスを ADB を使ってクリック・入力・スクロールなどで操作。
- 自動計画と実行:自然言語から意図を解析し、複数ステップの操作フローを生成して実行。
- セキュリティと人手介入:敏感操作は確認を求め、ログインや認証(CAPTCHA等)では人の介入を許容。
技術的なポイント
Open-AutoGLM の技術的中核は「画面認識(視覚)」「言語理解」「行動計画」「端末制御(ADB)」の連携です。視覚側はスクリーンショットを取得して画像解析やOCRを用い、UI 要素やテキストを抽出します。言語側は AutoGLM ベースのモデルでユーザーの自然言語指示をパースし、目的(例:アプリ起動→検索→結果確認)を構造化します。構造化された意図に基づき、プランナーが複数ステップの操作シーケンス(タップ座標、スクロール量、テキスト入力など)を生成し、ADB 経由で実機に対して順次命令を送ります。
実装上の注目点としては、マルチモーダル情報を結び付けるための中間表現(画面上の要素とテキストの対応付け)、エラーや想定外の画面変化に対するロバストネス、そして敏感操作を検出して確認ルールに従う安全設計が挙げられます。さらに、ログインやワンタイムパスワードのような人手必須シーンに対しては自動停止してデバッグまたはオペレーターへ引き継げる仕組みを用意することで、実運用時のリスクを低減しています。リモートADBを介したデバッグ機能は、実機が開発者から離れた場所にある場合でも挙動確認ができる点で有用です。
ただし、現状はリポジトリ自体が初期段階(コミット数やファイル数が少ない)であり、実装はサンプルやプロトタイプ中心である可能性が高いです。Android/ADB に依存するため Android 専用であり、iOS 等の他プラットフォーム対応やエンタープライズ向けのセキュリティ・認可回りの実装は追加作業が必要です。また、視覚言語モデルの性能やデバイス間のUI差異に対する汎化性能も改善の余地があります。
プロジェクトの構成
主要なファイルとディレクトリ:
- .github: dir
- .gitignore: file
- .pre-commit-config.yaml: file
- LICENSE: file
- README.md: file
…他 7 ファイル
(README には English README、resources フォルダや WeChat コミュニティ案内、ロゴ画像などのリソースが含まれています)
まとめ
モバイル画面を理解して自動操作するプロトタイプ的なフレームワーク。実運用へ向けた拡張性が期待できる。
リポジトリ情報:
- 名前: Open-AutoGLM
- 説明: 説明なし
- スター数: 23
- 言語: Python
- URL: https://github.com/zai-org/Open-AutoGLM
- オーナー: zai-org
- アバター: https://avatars.githubusercontent.com/u/223098841?v=4
READMEの抜粋:
Open-AutoGLM
👋 加入我们的 微信 社区
项目介绍
Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)来控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。用户只需用自然语言描述需求,如“打开小红书搜索美食”,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。系统还内置敏感操作确认机制,并支持在登录或验证码场景下进行人工接管。同时,它提供远程 ADB 调试能力,可通过 W…