Open-AutoGemini — Gemini駆動のモバイル自動化フレームワーク
概要
Open-AutoGeminiは、Gemini(特にGemini 3系)の視覚・思考能力を利用して、スマートフォン上のタスクを自動化するためのフレームワークです。スクリーンのマルチモーダル解析でUI要素を高精度に認識し、モデルの「Thinking(思考)」で操作手順を計画したうえでTool Callingを通じて実際のタップやスワイプ、テキスト入力を行います。Android、iOS、HarmonyOSの各プラットフォームをサポートし、ローカルGPUを必要としない点が導入のハードルを下げています。
リポジトリの統計情報
- スター数: 8
- フォーク数: 4
- ウォッチャー数: 8
- コミット数: 30
- ファイル数: 18
- メインの言語: Python
主な特徴
- Geminiドリブン:Geminiの強力なビジョンと言語推論を利用してUIを理解し操作を生成
- マルチプラットフォーム対応:Android、iOS、HarmonyOSを一つのフレームワークでサポート
- 軽量導入:ローカルGPU不要、APIキーだけで動作可能
- 自律的操作:Thinking → Tool Callingの流れで高いタスク完遂率を目指す
技術的なポイント
Open-AutoGeminiの技術的な核は「マルチモーダル理解」と「モデル主導の操作実行」にあります。スクリーンショットやUIのメタ情報を入力として、Gemini 3系の視覚理解能力でボタンやテキスト、アイコンなどを高精度に抽出します。抽出した要素をもとに、モデルが内部で「Thinking」して操作手順(例:次にどの要素をタップし、どのフィールドに入力するか)を計画し、その計画をTool Callingインターフェースを通じてデバイス操作APIに変換します。これにより、従来のルールベース自動化と比べ、UI変化や文脈の差異に強く、柔軟にタスクをこなせる点が特徴です。実装はPythonベースで、各プラットフォーム向けのデバイス接続や操作モジュールを用意しており、CI/PR用の設定(.github)、コード品質ツール(.pre-commit-config.yaml)も含まれています。ローカルでの大規模計算を必要としない設計は、開発者が手元の一般PCやクラウド上から素早く試作できる利点をもたらします。またセキュリティ・運用面ではAPIキー管理(.env.example)やライセンス(LICENSE)などの基本が整備されています。
プロジェクトの構成
主要なファイルとディレクトリ:
- .env.example: file
- .github: dir
- .gitignore: file
- .pre-commit-config.yaml: file
- LICENSE: file
…他 13 ファイル
まとめ
Geminiの視覚・思考能力を活かした実用的なモバイル自動化フレームワークです。
リポジトリ情報:
- 名前: Open-AutoGemini
- 説明: 基于Open-AutoGLM的Gemini适配
- スター数: 8
- 言語: Python
- URL: https://github.com/HCPTangHY/Open-AutoGemini
- オーナー: HCPTangHY
- アバター: https://avatars.githubusercontent.com/u/100140070?v=4
READMEの抜粋:
Open-AutoGemini
项目介绍
Open-AutoGemini 是一个基于 Gemini 驱动的开源手机端智能助理框架。它支持 Android、iOS 和鸿蒙 (HarmonyOS) 系统,能够通过多模态方式理解手机屏幕内容,并利用 Gemini 的原生 Tool Calling 和 Thinking 能力,自动执行点击、滑动、输入等操作,帮助用户完成各种复杂任务。
核心优势 (Gemini 驱动)
- 极简部署: 无需本地 GPU,只需一个 API Key 即可在普通电脑上运行。
- 超强理解: 利用 Gemini 3 系列的强大视觉理解能力,精准识别 UI 元素。
- 原生思维链: 支持模型在执行动作前进行思考 (Thinking),任务完成率更高。
- 多端通用: 一套框架同时支持 Android, iOS 和鸿蒙系统。
🚀 快速开始 (Gemini 推荐)
1. 获取 Gemini API Key
前往 [Goo…