新闻 发表于 2025-4-19 09:12

AI眼镜的AI演进之路:从感知到理解的端云协同架构与发展策略

作者:微信文章


随着大模型(LLM/VLM)技术迅速发展,AI眼镜作为新一代智能终端的代表,其智能架构正发生深刻变革。从最初的语音助手扩展到环境理解、视觉问答、信息叠加等多模态交互能力,AI眼镜正逐步走向“感知即计算、交互即理解”的智能化新范式。在4月16日芯原可穿戴专题技术研讨会上谷歌人工智能研究员 Derek Chow芯原股份NPU IP研发副总裁查凯南以芯原与谷歌等技术合作为例,深入解析AI眼镜在人工智能处理架构上的核心挑战、关键技术路径以及未来发展策略。

一、场景驱动的AI:从规则定义走向“自然语义感知”

“我们和谷歌有大概八九年的合作了,谷歌整个智能家居产品线及新的RVV、还有端侧人工智能的一些方案,是我们跟他们一起长期的合作。今天分享的主题是“如何让图像编码变成Token化,然后在多种设备之间互联通过Token的方式去减少延迟和网络的复杂度,同时也省带宽。”他指出,“我们先讲一下什么是Tokenization,Token中文翻译我们更倾向是“Token是一种编码”。大语言模型所有大家说的话都会变成Token送到语言模型当中,正常的文本、语言都可以变成Token。实际上我们可以更宽泛的去看这个问题,就是不一定是语言跟文本。所有的Sensor都可以被Token化,将不同的Token归一化之后也就是今天讲的这种。”



他表示在早期的卷积网络当中用来做检测、识别或者分割ResNet50或者ResNet101,可以把主要图像当中的一些主要特征提取出来再送到后期的网络当中做识别或者一些其他的功能。

AutoEncoder也是一种非常经典的编码方式,实际上这种AutoEncoder对于图像或者语音实际上是某种程度的压缩,通过压缩的方式去提取图像语音中的高维信息把它变成Token再进行传输,既可以省功耗、也可以去把所有的这样一些不同的信息归一化到同一种表达方式上面去。

今天的MultimodalAI存在的方式会很多很多,包括:文本、语音、图像、Video、不同的Sensor、3D环境感知及Graph,如果把所有的这些全部Token化再送到大语言模型中去的话,这样的图形处理是会更自然、更高效的。从最终大家可以看到的应用场景里面会包含很多的使用方式。



以谷歌的PaliGemma模型为例,这个模型包含两个部分:第一,感知部分SigLIP。SiGLIP主要是把图象Token化。第二,Gemma是一个小的语言模型、这是一个开源模型,这个小的模型就是处理把正常的语言Token跟SigLIP做融合。



例如:图里问“拍照的人是躺在哪里?”同时把拍照的照片喂进去,通过SigLIP把原始Token化再跟应用程序问的问题归一化变成统一的向量归到Transformer里面去,最后得到的是“拍照的人躺在海边的吊床上”。前面SigLIP相当于模型眼镜、Gemma相当于模型的大脑,所有的Multimoda都是这样去工作的。

“在我们整个运算系统当中,从最端侧的眼镜、耳机等,再到边缘侧的“卡、服务器”。如何能够将不同层次的运算资源整合到一起去实现真正的多模态的分布式Token集联,是我们想去讨论的一个问题。”他指出,“比如说谷歌的智能家居整个全套家居里面所有的都是会带一些AI算力的,其实大家今天也看到不管是手表或者智能家居都多多少少会带一点AI算力。能不能够让这些端侧的算力帮助在整体的事件模型上面去做一些事情,把它用起来是我们需要考虑的问题。”

查凯南表示在传统拍照模式中,用户需通过“模式选择”精确告诉设备要识别什么内容;而在AI眼镜时代,用户可以用自然语言进行模糊、动态的任务定义:

“请把今天开会的人名打在屏幕上”

“帮我识别前面这个动物”

“这是不是我朋友?”

这类自然语言场景背后依赖的是强大的VLM(视觉-语言模型)理解能力。而这些大型模型由于庞大的参数规模,无法直接部署在低功耗的穿戴设备上,因此端侧模型的轻量化与蒸馏成为关键策略。

二、端-边-云协同架构:用Token打通计算链路

他指出AI眼镜的智能化离不开多层级算力的协同调度。一种主流架构趋势是:

端侧(眼镜)负责基础感知与预处理

图像采集、事件触发、初级模型筛选

生成“Image Token”或特征向量,避免传原图

边缘设备(手机)完成中等级别处理

Token解码、语义分析、场景识别、UI响应等

云端执行复杂推理或大模型服务

VLM推理、多轮对话、搜索引擎集成等

这种架构优势在于:降低眼镜本体功耗(无需DDR)、减少数据传输带宽(Token压缩比高)和保持一定的隐私保护(不上传原图)。

三、从“大模型”到“小学生”:模型蒸馏与Gating设计

他指出为了在端侧跑通感知与决策任务,AI模型需要经历两种“压缩”过程:

1. 蒸馏(Distillation)



将大模型的能力压缩成轻量版本,即“Student Model”,部署在眼镜或手表上。尤其在视觉问答(VQA)等任务中,通过大模型Teacher引导Student学习感知-判断的全过程。

2. 门控模型(Gating Model)

Gating机制负责判断:某任务是否需要上传云端,还是在本地完成。有效的Gating模型可以显著降低传输延迟和能耗,提升整体体验。



例如:图像中是否出现人脸/二维码/动物 → Gating决定是否激活下游大模型处理。



四、计算架构创新:RISC-V + 芯原IP的组合路径

他表示为了更好适配AI眼镜的低功耗高效能需求,芯原联合谷歌在RISC-V架构上进行了深度优化,构建面向矩阵计算的轻量处理器Kelvin:



基于RVV(RISC-V Vector Extension)指令集

每周期256+ MAC运算能力

专为端侧AI处理而生,适合部署在眼镜、手表等微型设备上



芯原自身的算力架构分为三层:



五、Token压缩与API标准化:联接万物的“智能纤维”

他指出AI眼镜作为集联设备的一部分,其通信标准、模型接口与传输格式也必须高度统一。当前关键趋势包括:



Token压缩技术:进一步压缩高维Token表示,降低带宽占用

统一API接口层:确保不同设备、操作系统(Android、RTOS)之间能够无缝协同

模块化部署模型:根据任务轻重部署不同子模型,实现资源最优配置

芯原提出的Open Se Cura方案,即是一种试图打通端-边-云各级算力的统一平台架构。



六、发展策略与挑战前瞻

他指出,目前在端侧AI应用的核心挑战有:



功耗约束:端测计算能力有限,必须极致优化

模型迁移难度:大模型->端侧部署仍需解决量化精度、内存映射等问题

多终端管理复杂:需要实现从手机到手表再到眼镜的模型调度策略

他提出的策略建议包括:

以端为中心的“感知分层”:将智能前置至用户最靠近的设备(眼镜)

多模态输入-多终端分工:图像、音频、传感器多源协同

聚焦Token标准:构建轻量、安全的“模型通信语言”

强化RISC-V生态:定制芯片架构,加速AI/ML推理性能提升

他认为AI眼镜的未来,是智能设备的共生生态,未来的AI眼镜,不仅仅是一副可穿戴设备,而是一个“环境感知+智能计算+多端协同”的边缘AI生态枢纽。谁能构建出一套能适应轻量、低功耗、自然交互的AI处理架构,谁就能在下一场智能硬件革命中占据先机。

******直播预告*******

页: [1]
查看完整版本: AI眼镜的AI演进之路:从感知到理解的端云协同架构与发展策略