AI如何接管你的手机?带你从技术和产品上来次管中窥豹
作者:微信文章AI 恐惧的来源:大多数人都是转发个官方的 demo 视频和讲解,然后就一顿怎么牛逼,其实自己跑都没跑过。面对这种情况,我要知道卖家秀和买家秀的区别!
通过自然语言控制设备进行自动化操作并完成任务,是 AI 落地生产力的一个方向。
下面从技术和产品的角度对当前的 AI 和手机的融合进行了探讨和分析,以思考可能的发展方向和产品形态。
基于 adb 的 MCP
适合轻量简单任务的,就是封装的工具调用,比如封装了 adb 的 Android MCP,开发者可利用AI发送点击、输入等指令控制手机。
本来自己在搞个 adb 的 MCP,刚实现一点基础功能,发现 Github 上已经有了,虽然功能简单,但大致样子在了,没搞的动力了。哎,太卷了,干啥都得抢占先机啊。
基于 adb 的 Agent
当前的基于 AI 的自动化执行的商业化产品有智谱的 AutoGLM、Manus、Google AI Studio,能控制手机的目前只有 AutoGLM。
AI 控制手机,这种技术当前一般都是借助手机本身的“无障碍服务”(又叫辅助服务)来试看屏幕信息读取和模拟点击的。
智谱的 AutoGLM
申请了 AutoGLM 的桌面版和手机版,桌面版就类似于 Manus,手机版感觉其技术路线更新是专家型而非通用型。
之所以这样说,是因为其有支持的 App 和动作的限制,所以推测是”特殊场景“适配。
不过从用户场景来说,这种也能覆盖个百分之六七十吧,具体的个性化场景可能得定制。嗯,总结就是,预定义动作,通过自然语言理解和推测用户目的,然后执行预定义的动作,也挺好。
开源的 DroidRun
先看下最近开源的 DroidRun,其结合视觉理解和UI结构提取,允许AI代理操作手机并实现网页交互。功能包括:
视觉+UI解析:通过分析屏幕内容和界面结构,增强交互能力。
自我修复机制:智能错误处理和自动恢复,确保自动化流程稳定。
DroidRun 的方案是:DroidRun Agent + DroidRun Portal。
DroidRun Agent : 运行在电脑上,只要是利用 AI 的 API(当前支持 OpenAI Claude Gemini)运行通过 adb 实现的 Agent,全部代码在 2000 行出头。本质是通过推理来决定要干什么和怎么干(具体可以看下方的示例)。
DroidRun Portal Apk:一个 Android App,需要安装到手机上,提供手机控制接口(通过辅助服务)。
使用以下提示词进行测试:
1
Open up the X app. Press thepost button. Press the New Post button. Insert 'Hello world'andpostit.`
在使用了 24515 token,调用 API 接口 13 次后(https://generativelanguage.googleapis.com/v1beta/openai/chat/completions),执行失败了。如下图所示:
真是一顿操作猛如虎啊,细看一直原地杵!
官方的 Demo 视频效果如果是真的,那说明开源的并非他们内部演示的全部功能。
提 issue 了,等待回复。
DroidRun 文档地址:https://docs.droidrun.ai/introduction。
话说回来,对待新生事务要包容和理性,毕竟之后怎么迭代和发展还未知。
内置 AI 的 OS 操作系统
应该有一种更高效的方式,是直接基于手机系统来做定制,即系统级的底层能力提供给 AI 调度。
比如 Android 手机,可以直接基于 Android Framework ,在系统架构层面实现创新的AI控制机制。
例如,在system_server层构建一个外透的系统级底层能力服务,作为统一的AI控制接口。这个服务能够封装手机的核心功能(如屏幕操作、应用调用、传感器数据访问等),并通过标准化的API向AI模块开放。AI模块可以是手机内置的大语言模型(如小米超级小爱、Google Nano Gemini),也可以是用户选择的第三方AI供应商(如微信元宝或AutoGLM)。通过这种方式,AI能够以自然语言或多模态指令(如语音、视觉分析)调度手机,完成从简单操作(如发送消息)到复杂任务(如自动规划行程)的各种功能。
然而,权限控制和能力管控是实现这一机制的重中之重。由于system_server层直接与系统核心交互,AI调用的权限必须经过严格的沙箱机制和用户授权。例如,可以通过Android的权限管理框架(如ActivityManager和PermissionManager)对AI的操作范围进行细粒度控制,确保敏感数据(如通讯录、位置信息)不会被滥用。此外,能力管控还需要考虑AI的执行效率和系统资源占用。借助端侧AI芯片,可以在本地高效处理轻量级任务,而复杂任务则通过云边协同分发至云端大模型。这种分层处理机制不仅提升响应速度,还能优化功耗和隐私保护。
这种基于Android Framework的AI Agent本质上是一个操作手机的智能中枢。它通过视觉分析(解析屏幕UI)、UI导航(模拟点击、输入)以及自我修复机制(处理操作错误),实现了对手机的精细化控制。这样的Agent不仅局限于手机内部操作,还可以通过API与外部生态对接,进一步扩展其功能。
更进一步,如果将手机的AI Agent与边缘设备(如智能家居设备、AI眼镜)和智能设备(如机器人)的控制Agent关联,一个去中心化的控制网络可能就此形成。在这一网络中,每个设备的Agent作为一个节点,具备自主决策和任务协同能力。
例如,用户通过手机AI Agent发出指令“准备晚餐”,手机Agent可以调度智能冰箱检查食材库存、与智能烤箱协作设定烹饪参数,并通过AI眼镜提供实时烹饪指引。这种去中心化网络依赖于跨设备通信协议(当前火热的 MCP 和 A2A)和统一的AI调度框架,确保设备间高效协同。
结尾
这是个”先做出个垃圾“的时代,永远的观看和评论是无意义的,一切的发展和进化源于行动。
页:
[1]