概要

Open-AutoGeminiは、Gemini（特にGemini 3系）の視覚・思考能力を利用して、スマートフォン上のタスクを自動化するためのフレームワークです。スクリーンのマルチモーダル解析でUI要素を高精度に認識し、モデルの「Thinking（思考）」で操作手順を計画したうえでTool Callingを通じて実際のタップやスワイプ、テキスト入力を行います。Android、iOS、HarmonyOSの各プラットフォームをサポートし、ローカルGPUを必要としない点が導入のハードルを下げています。

リポジトリの統計情報

スター数: 8
フォーク数: 4
ウォッチャー数: 8
コミット数: 30
ファイル数: 18
メインの言語: Python

主な特徴

Geminiドリブン：Geminiの強力なビジョンと言語推論を利用してUIを理解し操作を生成
マルチプラットフォーム対応：Android、iOS、HarmonyOSを一つのフレームワークでサポート
軽量導入：ローカルGPU不要、APIキーだけで動作可能
自律的操作：Thinking → Tool Callingの流れで高いタスク完遂率を目指す

技術的なポイント

Open-AutoGeminiの技術的な核は「マルチモーダル理解」と「モデル主導の操作実行」にあります。スクリーンショットやUIのメタ情報を入力として、Gemini 3系の視覚理解能力でボタンやテキスト、アイコンなどを高精度に抽出します。抽出した要素をもとに、モデルが内部で「Thinking」して操作手順（例：次にどの要素をタップし、どのフィールドに入力するか）を計画し、その計画をTool Callingインターフェースを通じてデバイス操作APIに変換します。これにより、従来のルールベース自動化と比べ、UI変化や文脈の差異に強く、柔軟にタスクをこなせる点が特徴です。実装はPythonベースで、各プラットフォーム向けのデバイス接続や操作モジュールを用意しており、CI/PR用の設定（.github）、コード品質ツール（.pre-commit-config.yaml）も含まれています。ローカルでの大規模計算を必要としない設計は、開発者が手元の一般PCやクラウド上から素早く試作できる利点をもたらします。またセキュリティ・運用面ではAPIキー管理（.env.example）やライセンス（LICENSE）などの基本が整備されています。

プロジェクトの構成

主要なファイルとディレクトリ：

.env.example: file
.github: dir
.gitignore: file
.pre-commit-config.yaml: file
LICENSE: file

…他 13 ファイル

まとめ

Geminiの視覚・思考能力を活かした実用的なモバイル自動化フレームワークです。

リポジトリ情報：

名前: Open-AutoGemini
説明: 基于Open-AutoGLM的Gemini适配
スター数: 8
言語: Python
URL: https://github.com/HCPTangHY/Open-AutoGemini
オーナー: HCPTangHY
アバター: https://avatars.githubusercontent.com/u/100140070?v=4

READMEの抜粋：

Open-AutoGemini

Readme in English

项目介绍

Open-AutoGemini 是一个基于 Gemini 驱动的开源手机端智能助理框架。它支持 Android、iOS 和鸿蒙 (HarmonyOS) 系统，能够通过多模态方式理解手机屏幕内容，并利用 Gemini 的原生 Tool Calling 和 Thinking 能力，自动执行点击、滑动、输入等操作，帮助用户完成各种复杂任务。

核心优势 (Gemini 驱动)

极简部署: 无需本地 GPU，只需一个 API Key 即可在普通电脑上运行。
超强理解: 利用 Gemini 3 系列的强大视觉理解能力，精准识别 UI 元素。
原生思维链: 支持模型在执行动作前进行思考 (Thinking)，任务完成率更高。
多端通用: 一套框架同时支持 Android, iOS 和鸿蒙系统。

🚀 快速开始 (Gemini 推荐)

1. 获取 Gemini API Key

前往 [Goo…

Open-AutoGemini — Gemini駆動のモバイル自動化フレームワーク