【AI如何接管你的手机?带你从技术和产品上来次管中窥豹】萍聚社区-德国热线-德国实用信息网人工智能

新闻发表于 2025-4-19 11:21

AI如何接管你的手机?带你从技术和产品上来次管中窥豹

作者：微信文章

AI 恐惧的来源：大多数人都是转发个官方的 demo 视频和讲解，然后就一顿怎么牛逼，其实自己跑都没跑过。面对这种情况，我要知道卖家秀和买家秀的区别！

通过自然语言控制设备进行自动化操作并完成任务，是 AI 落地生产力的一个方向。

下面从技术和产品的角度对当前的 AI 和手机的融合进行了探讨和分析，以思考可能的发展方向和产品形态。

基于 adb 的 MCP

适合轻量简单任务的，就是封装的工具调用，比如封装了 adb 的 Android MCP，开发者可利用AI发送点击、输入等指令控制手机。

本来自己在搞个 adb 的 MCP，刚实现一点基础功能，发现 Github 上已经有了，虽然功能简单，但大致样子在了，没搞的动力了。哎，太卷了，干啥都得抢占先机啊。
基于 adb 的 Agent

当前的基于 AI 的自动化执行的商业化产品有智谱的 AutoGLM、Manus、Google AI Studio，能控制手机的目前只有 AutoGLM。

AI 控制手机，这种技术当前一般都是借助手机本身的“无障碍服务”（又叫辅助服务）来试看屏幕信息读取和模拟点击的。
智谱的 AutoGLM

申请了 AutoGLM 的桌面版和手机版，桌面版就类似于 Manus，手机版感觉其技术路线更新是专家型而非通用型。

之所以这样说，是因为其有支持的 App 和动作的限制，所以推测是”特殊场景“适配。

不过从用户场景来说，这种也能覆盖个百分之六七十吧，具体的个性化场景可能得定制。嗯，总结就是，预定义动作，通过自然语言理解和推测用户目的，然后执行预定义的动作，也挺好。
开源的 DroidRun

先看下最近开源的 DroidRun，其结合视觉理解和UI结构提取，允许AI代理操作手机并实现网页交互。功能包括：

视觉+UI解析：通过分析屏幕内容和界面结构，增强交互能力。

自我修复机制：智能错误处理和自动恢复，确保自动化流程稳定。

DroidRun 的方案是：DroidRun Agent + DroidRun Portal。

DroidRun Agent ：运行在电脑上，只要是利用 AI 的 API（当前支持 OpenAI Claude Gemini）运行通过 adb 实现的 Agent，全部代码在 2000 行出头。本质是通过推理来决定要干什么和怎么干（具体可以看下方的示例）。

DroidRun Portal Apk：一个 Android App，需要安装到手机上，提供手机控制接口（通过辅助服务）。

使用以下提示词进行测试：
1
Open up the X app. Press thepost button. Press the New Post button. Insert 'Hello world'andpostit.`

在使用了 24515 token，调用 API 接口 13 次后（https://generativelanguage.googleapis.com/v1beta/openai/chat/completions），执行失败了。如下图所示：

真是一顿操作猛如虎啊，细看一直原地杵！

官方的 Demo 视频效果如果是真的，那说明开源的并非他们内部演示的全部功能。

提 issue 了，等待回复。

DroidRun 文档地址：https://docs.droidrun.ai/introduction。

话说回来，对待新生事务要包容和理性，毕竟之后怎么迭代和发展还未知。
内置 AI 的 OS 操作系统

应该有一种更高效的方式，是直接基于手机系统来做定制，即系统级的底层能力提供给 AI 调度。

比如 Android 手机，可以直接基于 Android Framework ，在系统架构层面实现创新的AI控制机制。

例如，在system_server层构建一个外透的系统级底层能力服务，作为统一的AI控制接口。这个服务能够封装手机的核心功能（如屏幕操作、应用调用、传感器数据访问等），并通过标准化的API向AI模块开放。AI模块可以是手机内置的大语言模型（如小米超级小爱、Google Nano Gemini），也可以是用户选择的第三方AI供应商（如微信元宝或AutoGLM）。通过这种方式，AI能够以自然语言或多模态指令（如语音、视觉分析）调度手机，完成从简单操作（如发送消息）到复杂任务（如自动规划行程）的各种功能。

然而，权限控制和能力管控是实现这一机制的重中之重。由于system_server层直接与系统核心交互，AI调用的权限必须经过严格的沙箱机制和用户授权。例如，可以通过Android的权限管理框架（如ActivityManager和PermissionManager）对AI的操作范围进行细粒度控制，确保敏感数据（如通讯录、位置信息）不会被滥用。此外，能力管控还需要考虑AI的执行效率和系统资源占用。借助端侧AI芯片，可以在本地高效处理轻量级任务，而复杂任务则通过云边协同分发至云端大模型。这种分层处理机制不仅提升响应速度，还能优化功耗和隐私保护。

这种基于Android Framework的AI Agent本质上是一个操作手机的智能中枢。它通过视觉分析（解析屏幕UI）、UI导航（模拟点击、输入）以及自我修复机制（处理操作错误），实现了对手机的精细化控制。这样的Agent不仅局限于手机内部操作，还可以通过API与外部生态对接，进一步扩展其功能。

更进一步，如果将手机的AI Agent与边缘设备（如智能家居设备、AI眼镜）和智能设备（如机器人）的控制Agent关联，一个去中心化的控制网络可能就此形成。在这一网络中，每个设备的Agent作为一个节点，具备自主决策和任务协同能力。

例如，用户通过手机AI Agent发出指令“准备晚餐”，手机Agent可以调度智能冰箱检查食材库存、与智能烤箱协作设定烹饪参数，并通过AI眼镜提供实时烹饪指引。这种去中心化网络依赖于跨设备通信协议（当前火热的 MCP 和 A2A）和统一的AI调度框架，确保设备间高效协同。
结尾

这是个”先做出个垃圾“的时代，永远的观看和评论是无意义的，一切的发展和进化源于行动。

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

AI如何接管你的手机?带你从技术和产品上来次管中窥豹