OpenAI推出首个系统操作员Operator,自主执行AI来了!
作者:微信文章就在前两周,OpenAI 发布 Tasks 功能时,OpenAI发布首款Agent产品Tasks,智能体又上升一个level,很多人并未意识到它其实是一个重要信号,OpenAI 的 Agent 技术正在悄然改变我们的生活与工作方式。
今天凌晨,OpenAI 推出了 Operator,标志着 OpenAI 正式进入“AGI 五大等级”的第3个 level,一个真正的数字助手正在尝试着走进我们的生活和工作,人类与 AI 的交互方式正在发生质的改变。
01 Operator 是什么
Operator 是一个具备搜索查询信息,自主执行我们交代任务的数字助手,不过目前仅在 web 端可用,由于成本等安全问题,目前只有美国 pro 用户可用,之后将扩展到Plus、Team 和 Enterprise 用户,并在未来将这些功能集成到 ChatGPT 中。
Operator 能借助专属浏览器为用户执行各类任务,目前处于研究预览阶段。它就像一个不知疲倦的线上打工人,无论是在海量信息中查找资料,还是在各大平台完成繁琐的操作,都能轻松应对。
比如,你只需告诉它, “Find and book me the highest rated one-day tour of Rome on Tripadvisor.”,它就会立即在 TripAdvisor 网站上搜索罗马评分最高的一日游项目,筛选出合适的选项并提供详细信息。
除此之外,Operator 还可以被要求处理各种重复的浏览器任务,例如填写表格、订购杂货,甚至创建表情包。能够使用与人类日常交互相同的界面和工具扩大了 AI 的实用性,帮助人们节省日常任务的时间,同时在企业方面也新增了更多的机会。
02 Operator 工作原理
Operator 背后的 “大脑” 是名为 Computer-Using Agent(CUA)的新模型。CUA 融合了 GPT-4o 的视觉能力与强化学习的先进推理技术,专门针对图形用户界面(GUIs)进行训练,也就是我们日常在屏幕上看到的按钮、菜单和文本框等元素。
CUA 赋予 Operator 以下几个关键能力:
感知(Perception):Operator能够通过屏幕截图和视觉分析功能,实时感知当前的操作界面,并准确理解页面元素的功能和内容。每次操作后,它都会重新捕获屏幕画面,将新的上下文信息纳入任务规划。
推理(Reasoning):Operator通过强化学习的高级推理能力,分析用户指令和界面内容,制定最优的操作路径。它能够处理任务中出现的意外情况,例如按钮位置的改变或页面加载错误。
行动(Action):Operator模拟人类的鼠标和键盘操作,与界面进行交互,包括点击、滚动、输入文本等。它可以精准地完成复杂的多步骤任务。
反馈循环(Feedback Loop):Operator在执行过程中会根据用户的反馈动态调整任务路径,确保操作结果更加符合预期。
通过感知-推理-行动的循环,Operator 能够高效地完成任务,并在需要时灵活适应变化。
也就是说,Operator 通过截取网页截图来 “看” 网页内容,利用鼠标和键盘操作模拟 “交互”,无需定制 API 集成就能在网页上自由行动。遇到难题或犯错时,Operator 能运用推理能力自我修正;碰到需要用户介入的情况,比如登录、输入支付信息或解决验证码问题,它会主动将控制权交还给用户,确保整个交互过程顺畅且协作性强。
虽然 CUA 尚处发展初期,但在 WebArena 和 WebVoyager 这两个关键浏览器使用基准测试中,已取得了领先成果。
03 Operator 与 Computer Use 区别
就在去年10月份,Claude 公司也推出了类似 Operator 的 Computer Use,不过,Computer Use 适用于较简单的任务,例如整理本地文件或操作特定的网页,而Operator 更适合动态、多变的场景,例如在线购物、报销单提交或跨应用的数据迁移等相对复杂场景。
例如,在处理“员工差旅费报销”场景时,Operator 能自动登录财务系统核对预算、扫描发票真伪、生成会计分录,而 Computer Use 目前更多适用于“帮我在XX网站订机票”这类单平台操作。
不过,Computer Use 已经过去3个月,在这样你追我赶的背景下,相信不久,Claude 公司将会发布会新的 Agent 产品。
04 OpenAI 的下一步
OpenAI 对 Operator 有着清晰的规划。短期内,计划将 CUA 模型接入 API,让开发者能够基于它打造个性化的计算机使用代理,进一步丰富 AI 应用生态。
在功能优化上,团队会持续提升 Operator 处理复杂、长流程任务的能力,使其能更好地满足用户多样化的需求。长期来看,OpenAI 打算在确保安全性和可用性的前提下,将 Operator 推广至 Plus、Team 和 Enterprise 用户,并直接集成到 ChatGPT 中,实现实时、异步任务的无缝执行,让用户在使用 ChatGPT 时就能轻松调用 Operator 的强大功能。
根据官方透露的技术路线图,Operator 将在三个方向持续进化:
多模态升级:Q3将支持直接解析CAD图纸、工业传感器数据流
企业定制化:推出行业专用套件(医疗版已进入FDA认证阶段)
生态开放:9月上线开发者平台,允许企业自建专用工具链
更值得关注的是其“AI员工编制”系统的专利布局,通过Operator 集群管理,未来企业可配置“AI财务总监+AI供应链经理+AI客服主管”的数字化团队,人类管理者只需进行战略级决策。
Last but not least
当 AI 从“工具使用者”进化为“系统操作者”,Operator 带来的不仅是效率提升,更是组织架构的重构。
其内置的联邦学习机制,让不同企业的 Operator 能在保护数据隐私的前提下共享经验,这或许意味着,人类即将见证首个跨行业协同进化的 AI 物种诞生。
关注公众号,用极客视角洞察未来!
往期精彩文章推荐:
1.截至目前,2025年最热门的5个 AI Agent 开源项目!
2.深度研究ChatGPT对劳动力市场的影响丨大规模调查18000人
3.为什么说MCP协议的价值被远远被低估?
页:
[1]