【OpenAI推出首个系统操作员Operator,自主执行AI来了!】萍聚社区-德国热线-德国实用信息网人工智能

新闻发表于 2025-1-24 08:32

OpenAI推出首个系统操作员Operator,自主执行AI来了!

作者：微信文章

就在前两周，OpenAI 发布 Tasks 功能时，OpenAI发布首款Agent产品Tasks，智能体又上升一个level，很多人并未意识到它其实是一个重要信号，OpenAI 的 Agent 技术正在悄然改变我们的生活与工作方式。

今天凌晨，OpenAI 推出了 Operator，标志着 OpenAI 正式进入“AGI 五大等级”的第3个 level，一个真正的数字助手正在尝试着走进我们的生活和工作，人类与 AI 的交互方式正在发生质的改变。

01 Operator 是什么

Operator 是一个具备搜索查询信息，自主执行我们交代任务的数字助手，不过目前仅在 web 端可用，由于成本等安全问题，目前只有美国 pro 用户可用，之后将扩展到Plus、Team 和 Enterprise 用户，并在未来将这些功能集成到 ChatGPT 中。

Operator 能借助专属浏览器为用户执行各类任务，目前处于研究预览阶段。它就像一个不知疲倦的线上打工人，无论是在海量信息中查找资料，还是在各大平台完成繁琐的操作，都能轻松应对。

比如，你只需告诉它， “Find and book me the highest rated one-day tour of Rome on Tripadvisor.”，它就会立即在 TripAdvisor 网站上搜索罗马评分最高的一日游项目，筛选出合适的选项并提供详细信息。

除此之外，Operator 还可以被要求处理各种重复的浏览器任务，例如填写表格、订购杂货，甚至创建表情包。能够使用与人类日常交互相同的界面和工具扩大了 AI 的实用性，帮助人们节省日常任务的时间，同时在企业方面也新增了更多的机会。

02 Operator 工作原理

Operator 背后的 “大脑” 是名为 Computer-Using Agent（CUA）的新模型。CUA 融合了 GPT-4o 的视觉能力与强化学习的先进推理技术，专门针对图形用户界面（GUIs）进行训练，也就是我们日常在屏幕上看到的按钮、菜单和文本框等元素。

CUA 赋予 Operator 以下几个关键能力：

感知（Perception）：Operator能够通过屏幕截图和视觉分析功能，实时感知当前的操作界面，并准确理解页面元素的功能和内容。每次操作后，它都会重新捕获屏幕画面，将新的上下文信息纳入任务规划。

推理（Reasoning）：Operator通过强化学习的高级推理能力，分析用户指令和界面内容，制定最优的操作路径。它能够处理任务中出现的意外情况，例如按钮位置的改变或页面加载错误。

行动（Action）：Operator模拟人类的鼠标和键盘操作，与界面进行交互，包括点击、滚动、输入文本等。它可以精准地完成复杂的多步骤任务。

反馈循环（Feedback Loop）：Operator在执行过程中会根据用户的反馈动态调整任务路径，确保操作结果更加符合预期。

通过感知-推理-行动的循环，Operator 能够高效地完成任务，并在需要时灵活适应变化。

也就是说，Operator 通过截取网页截图来 “看” 网页内容，利用鼠标和键盘操作模拟 “交互”，无需定制 API 集成就能在网页上自由行动。遇到难题或犯错时，Operator 能运用推理能力自我修正；碰到需要用户介入的情况，比如登录、输入支付信息或解决验证码问题，它会主动将控制权交还给用户，确保整个交互过程顺畅且协作性强。

虽然 CUA 尚处发展初期，但在 WebArena 和 WebVoyager 这两个关键浏览器使用基准测试中，已取得了领先成果。

03 Operator 与 Computer Use 区别

就在去年10月份，Claude 公司也推出了类似 Operator 的 Computer Use，不过，Computer Use 适用于较简单的任务，例如整理本地文件或操作特定的网页，而Operator 更适合动态、多变的场景，例如在线购物、报销单提交或跨应用的数据迁移等相对复杂场景。

例如，在处理“员工差旅费报销”场景时，Operator 能自动登录财务系统核对预算、扫描发票真伪、生成会计分录，而 Computer Use 目前更多适用于“帮我在XX网站订机票”这类单平台操作。

不过，Computer Use 已经过去3个月，在这样你追我赶的背景下，相信不久，Claude 公司将会发布会新的 Agent 产品。

04 OpenAI 的下一步

OpenAI 对 Operator 有着清晰的规划。短期内，计划将 CUA 模型接入 API，让开发者能够基于它打造个性化的计算机使用代理，进一步丰富 AI 应用生态。

在功能优化上，团队会持续提升 Operator 处理复杂、长流程任务的能力，使其能更好地满足用户多样化的需求。长期来看，OpenAI 打算在确保安全性和可用性的前提下，将 Operator 推广至 Plus、Team 和 Enterprise 用户，并直接集成到 ChatGPT 中，实现实时、异步任务的无缝执行，让用户在使用 ChatGPT 时就能轻松调用 Operator 的强大功能。

根据官方透露的技术路线图，Operator 将在三个方向持续进化：

多模态升级：Q3将支持直接解析CAD图纸、工业传感器数据流

企业定制化：推出行业专用套件（医疗版已进入FDA认证阶段）

生态开放：9月上线开发者平台，允许企业自建专用工具链

更值得关注的是其“AI员工编制”系统的专利布局，通过Operator 集群管理，未来企业可配置“AI财务总监+AI供应链经理+AI客服主管”的数字化团队，人类管理者只需进行战略级决策。

Last but not least

当 AI 从“工具使用者”进化为“系统操作者”，Operator 带来的不仅是效率提升，更是组织架构的重构。

其内置的联邦学习机制，让不同企业的 Operator 能在保护数据隐私的前提下共享经验，这或许意味着，人类即将见证首个跨行业协同进化的 AI 物种诞生。

关注公众号，用极客视角洞察未来！

往期精彩文章推荐：

1.截至目前，2025年最热门的5个 AI Agent 开源项目！

2.深度研究ChatGPT对劳动力市场的影响丨大规模调查18000人

3.为什么说MCP协议的价值被远远被低估？

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

OpenAI推出首个系统操作员Operator,自主执行AI来了!