【AI知识】让的时间中的因果关系即时转化为空间输出|来去斋
作者:微信文章当前AI以大语言模型为研究形势,发展迅猛,同时也存在的致命缺陷,并直接卡死了AI升级的大动脉。
艾伦·图灵提出了一个至今仍然能够引发共鸣的问题:机器能思考吗?这样一个洞见后来也催生了人工智能的探索,但我们距离这个目标其实甚远。如今,大语言模型等顶尖的人工智能技术已经开始改变我们运营知识的方式了,但是它们就好像黑暗中的文字大师,言辞犀利却缺乏实践,文史渊博却脱离了现实的根基。自主机器人的愿景还非常遥远,本质上来看,这是因为当前的AI智能形态仍然脱离了物理现实,难以构建与这个世界的有效联动。
要真正让AI像人一样思考和行动,就必须实现空间智能。空间智能是人类认知的脚手架,更是AI实现现实联动的必由之路。
那么空间智能到底是什么呢?
首先从进化的视角来看,空间智能是生物智能发展的原始动力。早在语言形成之前,动物就是通过“感知-行为”的核心逻辑与环境交互,逐渐演变出复杂的神经系统。在日常生活中,不管是停车时的间距判断、接取物体时的轨迹预判,本质上都是对空间关系、物理规律的直觉性运用。这种无需刻意思考的熟练度,正是当前AI所欠缺的核心能力。
从文明进程上来看,他举了三个例子:古希腊的埃拉托色尼通过两地日照现象的空间推理,精准计算出了地球的周长;詹姆斯·哈格里夫斯通过纺锤空间排列的创新构想,发明了珍妮纺纱机,直接推动了工业革命;沃森与克里克通过构建3D分子模型,破解了DNA双螺旋结构之谜。这三个例子跨越了几千年的历史,但都指向了同一个结论——空间智能是人类理解世界、改造世界的核心能力。然而当前的AI之所以无法在这些领域发挥作用,正是因为它们缺乏了这种能力。
那么我们应该怎么做才能让AI拥有空间智能呢?解决方案就是“世界模型”,这是一种完全不同的AI技术范式,需要对语义、物理、几何、动态等复杂系统的深度理解,且需要具备三个核心能力:
第一个是生成性:模型需要根据语义生成无限多样的虚拟或现实世界表征,能够严格遵循感知、几何和物理的一致性。
在多模态方面:可以借鉴人类多感官协同感知的机制,把文本、图像、手势动作等多种输入模态平等对待,而不是以语言为核心、其他模态为辅助。
在交互方面:模型需要能够输出符合历史状态、物理规律和语言逻辑的下一个状态,更需要具备自主规划动作的能力。
构建世界模型的技术难度远远大于大语言模型。因为语言作为一维的序列信号,它的规律是相对可控的,但世界是多维动态的,这就需要突破三个技术挑战:一是设计能够反映物理规律的训练任务函数;二是处理包含空间信息的大规模真实数据、合成数据与多模态补充数据;三是研发3D或4D方式的Token化、上下文处理和记忆储存等新型模型架构。
空间智能有广阔的应用前景:短期在创意领域,空间智能可以快速构建、探索3D世界,建筑师和工业设计师能够将创意瞬间转化为虚拟实体;中期在机器人技术领域,世界模型将会破解训练数据稀缺的痛点,它可以大规模模拟场景,加速机器人“感知-行动”循环的训练;从长远价值层面,将为科学、医疗和教育领域带来革命性的突破——比如科研中可以模拟极端环境与复杂系统,加速气候研究、材料研发等进程;在教育领域可以构建沉浸式学习环境,让抽象的概念可视化等。
李飞飞说过这样一段话:“近5亿年前,自然界在原始动物身上首次点燃了空间智能的火花。如今我们有幸成为这一代技术从业者,也许即将赋予机器同样的能力,并有特权利用这些能力造福全球人类。如果缺乏空间智能,我们对真正智能机器的梦想将无法完整实现。这一探索就是我的北极星。”
页:
[1]