AI Agent 爆发式发展,个人智能体发展趋势已明确
作者:微信文章观点 / AI学习圈
这是孙学镂公众号的2025年第16篇文章
嗨,你好,我是孙老师。坚持终身学习,实现身体与精神的高度自律。
新朋友请看这里,这里有一份超用心的自我介绍:请叫我,孙老师
老朋友请接续往下看,本文2700字左右,带你了关注AI Agent最新发展动态。
今年,很多AI领域的大佬预测,AI Agent会迎来爆发式发展。最近有同学问我,到底什么是Agent?正好,我看到一篇探讨Agent与科研领域结合的实验论文,借此,我来跟大家简单介绍一下。
Agent的定义并不复杂,简单来说,就是在特定条件下,AI是否能够自主执行任务或做出决策。这些任务可能是由人类单次发起的,例如让AI为你生成旅游行程攻略。在这种情况下,AI类似于一个简单的旅游行程助手。当然,更有想象力的,是当你为AI定义了主要职责后,它可以主动寻找解决问题的方法,并在没有干预的情况下做出决策。
最近一段时间,一些顶尖大模型的能力得到了显著提升,常有人说AI的推理与思考能力相当于博士生。这么说当然没有错,但对普通人来说,重要的不是知道AI的能力相当于博士生,而是要了解它能够完成哪些任务。
例如,如果你要进行一个蛋白质科研项目,你需要的是一个专门研究生物科技的博士生,而不是一个考古学博士。因此,评估Agent的能力,不仅仅是衡量AI本身的能力,更是考验我们如何定义它的任务。
1月初,AMD与霍普金斯大学联合项目组发布了一篇论文,标题为《智能体实验室:将AI作为研究助手》。这个论文发出来之后,就在很多专业学术圈子里火了。现在,许多科研人员自嘲为“科研民工”。即使戴着博士或博士后的帽子,接受媒体采访时被视为青年科学家的未来希望,但在日常工作中,如果没有遇到好的项目或导师,科研人员往往被困于996工作制、无休止的组内会议和考核,或者充当导师的私人助理,事无巨细。
不久前,还传出类似为导师的初中孩子做项目汇报的事件,或者完全依靠个人悟性进行研究。这么看来,科研领域确实有很多可以让AI去发挥的地方,毕竟AI又没有孩子让你去辅导。
我简单介绍一下这篇论文的思路,不涉及里面的具体技术细节,其实主要让大家理解AI Agent到底现在都能干什么样的活儿,以及我们应该如何做好指挥AI的准备。
这篇论文上来就说,科学发现一直都是一个漫长且成本很高的过程,从最初的构想到最终的结果都需要投入大量的时间和资源。并且我们可以想象,有大量的研究,可能投入几年的时间,发现走进了一个死胡同,比如人工智能这个领域,在上世纪五六十年代就很火热,很多大神投入其中,但是最后发现条件达不到,最终进入了人工智能的寒冬。
这篇论文的研究团队目的是想要加快科学发现、降低研究成本和提高研究质量。整个流程是接受人类提出的最初研究想法,并且把过程分成三个阶段,分别是文献综述、实验与报告撰写,然后生成全面的研究成果,包括完整的代码和研究报告。
只看这个简单描述的话,似乎觉得跟我们让Kimi或者ChatGPT写一篇3万字的论文也没有什么区别,那么,真正的亮点在哪里呢?
首先,整个流程由多个专业定义的AI智能体协同完成,这么说比较抽象,我在文稿里放了一张论文里的流程图,画风是《我的世界》的像素风,但我看到图后,第一反应是想起了当年画质粗糙但令人震惊的《仙剑奇侠传》。
团队把每一个智能体,都做成了一个小人形象。整个科研团队包括:博士生智能体,负责文献搜索与综述;博士后智能体,负责指导和审查博士生智能体的工作;机器学习工程师智能体,负责代码实现;最后是教授智能体,负责评估和反馈最终结果。
从这几个智能体的定义里,大家是不是发现了,这个AI智能体的模式就是在模拟真实科研团队的工作模式,而不是指望着用一个强大的AI解决所有问题。这样一来,负责搜索论文的就专心做好自己的本职工作就好了,每个智能体都有自己擅长的领域,但是整个流程下来,又能通过协作来完成整体的任务。
第二个有意思的地方是整个AI实验室,在两种不同的运行模式:自主模式和辅助模式。
从命名上就可以看出区别了,自主模式下,人类只需要提供初始的研究思路,之后整个过程就可以看着AI去表演,完成一个子任务之后,自动按照预先策划好的顺序向下进行。而在辅助模式中,虽然同样由人类发起,但每完成一个子任务后都设置了检查点。在进行到这些检查点的时候,人类审阅者会对这个阶段的工作进行检查。检查之后有两个选择,一个就是干的不赖,继续好好干,一个就是干的是什么玩意儿,给我重新干一遍。
因为最后的审阅评分,是让10位真人博士和 一个自动化论文评审系统同时打分的,并且评判标准是按照全球知名的机器学习领域顶级国际会议NeurIPS的风格进行打分。数据结果也呈现了人类的参与是非常有价值的,在论文质量这个环节里,有人类参与的模式,可以把平均分从3.8提升到4.38。
当然,你可能会认为,满分是10分,而得了4.38分,这岂不是没及格?但你要知道,每年全球有多少科研团队投递NeurIPS的论文。2023年,NeurIPS共收到12,300篇投稿,最终只接收了四分之一。如果按10分制来估算,大部分精英科研团队的论文,也未必能达到及格分数。
但是在时间和成本维度上,人类团队写出同样质量的论文可要付出巨大的代价。例如选择OpenAI主力的4o模型,从搜索资料写综述到写实验报道,最后写出代码和完成审查,这个写完一整篇论文的全流程需要的时间是1165秒,也就是不到20分钟的时间就能完成一篇完整的论文,整个的花费是2.33美元,折合人民币也就15块钱左右,还买不了一杯奶茶。哪怕是使用更贵的O1模型,花费也就是13.1美元,还不到100块钱。
看完这个论文,对当下的职场人士都有很大的启发,未来每个都会基于个人的生活和学习习惯,在某个平台上搭建自己的一个AI助手,可以完成特定的任务。例如一个每天放饮食方案的知识库,就可以在上面搭建一个饮食专家的AI助手,以此类推,可以有健身专家、读书助手等等。
而之前很多企业在设计智能体的时候主要集中在如何设计单一智能体来满足每个用户不同的需求,但实际上,是可以搭建一个流程,通过与AI的对话,逐步打造符合个人需求的AI助手。
在这个环节上,可能有的助手专门帮你给AI起名字,有的助手专门给你的AI画头像,有的助手专门给你的AI选声音或者性格。那么区别就是论文中的全流程跑下来,最后的成果是一篇高质量的论文,而企业实际工作中的这个流程跑下来,最后的成果是一个在你的特定业务场景下的“懂你”的AI助手。
当然,我对于智能体的理解还是很浅薄的,但我也知道这一定是未来人力资源变革的一个大趋势,我们都应该去思考个人的知识和能力边界,然后基于实际需要,去探索和搭建属于自己的AI Agent。
今天就分享到这里,喜欢的话可以点赞、留言、在看、或者分享出去。
END
人生路漫漫,总会有惊喜和等待,期待你我的相互链接(V号:S18620999850),如果你愿意跟我一起写作,扫码加入007,立减30元,7天写一篇写7年,写完一起去南极!我们一起以文会友,以字见心。
页:
[1]