第二届“一带一路”文化和科技融合发展大会嘉宾发言摘登 || 翁冬冬
作者:微信文章从数字角色到表演空间的复刻
北京理工大学光电学院教授 翁冬冬
文化科技融合聚焦于虚拟现实与数字人技术,核心在于将数字人与表演、叙事需求紧密结合。
最初涉足数字人领域,源于电影学院的一个项目,旨在 VR 情境下创作未来电影。鉴于电影叙事通常依托人物展开,因而需在 VR 中打造高写实演员以推动故事发展。在探讨 VR 电影时,诸多导演深感无从下手。传统电影由导演操控摄像机拍摄,画面固定;而 VR 场景下,画面不复存在,用户可自由环顾、交互,观影体验从传统电影模式转变为类似话剧、剧场的沉浸式体验。这意味着进行数字空间的三维叙事时,思路应从电影创作转向戏剧创作。
当下,虚拟现实、增强现实、混合现实等概念频出,从学术界定来看,所涉方向更趋近于增强虚拟或混合现实,如影片《银翼杀手》所呈现的未来人和数字人互动场景,二者能实现多模态实时交互。未来交互进程中,数字人与用户在特定目标下进行角色扮演,宛如一出戏剧的进阶版,聚焦于家庭空间场景。当下关键在于如何切实实现自然、真实且沉浸式的戏剧体验。
早期发开者多从电影视角求解,为塑造写实数字角色,采用对真实演员进行孪生数据采集的方法,构建光场采集设备。该设备核心不仅在于重建数字人的表情与三维几何结构,更在于获取其表面材质与纹理信息,力求呈现超写实数字人。然而,这一过程耗时七八年,从基础理论构建到实践操作,即便精细调整设备、优化数据处理,仍面临严峻挑战,如模拟人类皮肤这种复杂的双向反射函数时,渲染结果难以尽善尽美。
当前所打造的数字人成果虽具写实特性,但仍易被识别出由数字角色制作而成。若对图形学底层有所了解便可知,现阶段数字人依托虚幻引擎构建,其底层实则为实时游戏渲染系统,主要渲染材质是基于物理的渲染(PBR)。然而,为实现实时渲染,PBR 采用大量近似处理,这使得其渲染基础原理与真实环境存有差异,因而无论如何努力,都极难还原出与真实场景一致的画面。
在动态场景构建方面,需运用更多采集到的动态表情予以驱动,诸如 4D 数据。能以 110 赫兹的速率实时采集人脸信息,实际应用中多采用 30 帧左右,否则数据量将极为庞大。以当下的数据采集系统为例,采集单个人的数据约耗时 3-5分钟,数据量可达 500G,经处理、拆分与自动绑定等流程后,可获取能精准识别、理解用户连续动态表情的可驱动数字人。即便如此,最终成果仍带有浓重的渲染痕迹与引擎质感,光照及部分运动表现皆存在类似问题。
以过往所做案例来看,虽已达一定理想状态,兼具美观度,可从写实角度审视,仍能轻易辨出其为计算机生成的数字人。整个制作流程从数据采集、基于物理的渲染,到后续驱动,全程运用人体数据,但渲染环节依旧难掩引擎感。
深入反思可知,传统图形学构建超写实数字人时,采集、绑定、动画、渲染各环节相互分离,流程冗长。制作单个数字人耗时数日甚至十数日(优化前曾需半年之久),各环节独立运作,采集阶段无法预知最终渲染成效,绑定环节同理,只能尽力优化各步骤,再凭最终效果回溯排查问题,属于开环控制模式,缺乏闭环保障机制,难以确保成品与采集样本高度契合。
鉴于传统图形学路径繁杂、解耦与渲染近似性等弊端,去年起尝试应用新技术解决数字人相关问题,重点聚焦高斯重建技术。此前,神经辐射场技术应用广泛,二者皆属光度学或光场重建范畴,并融入深度学习框架。高斯重建技术虽早在 80 年代提出,但去年 8 月的一篇论文使其重获关注。运用高斯重建制作数字人时,流程呈闭环状态,如此便能确保最终成果与拍摄源高度一致,这一点至关重要,一改过往拍摄与制作分离、无法全局优化的局面。
高斯重建的整个过程有着其独特之处。通常提及高斯重建时,人们往往会将其与 AI 联系起来,但就目前而言,高斯重建的主要工作与 AI 及网络的关联性并非很强,它本质上属于非常传统的最优化问题,不过在此过程中创造性地采用了三维高斯函数作为所有图形的基础表达形式,以此取代了以往常用的三角面。
三维高斯函数具备两大显著优点。其一,该函数在空间中任意连续可导,可延伸至无穷远,这种连续可导的特性使其与深度学习框架极为契合,因为深度学习中的向前、向后及反向运算都涉及求导过程;其二,高斯函数本身有着优异的基元性能,其在二维平面上的投影依然是高斯函数,便利性突出。基于高斯重建方式所构建出的模型,渲染速度极快,甚至能够在手机和平板电脑这类移动设备上实现逼真数字人的构建。
在掌握这些技术后,一个重要问题随之浮现,即 VR 内容严重匮乏。今年有 180 多个大空间 VR 项目,它们所呈现的内容,90% 以上都是借助三维引擎制作而成的。与之对比,在手机端观看的内容,大部分是直接从真实世界拍摄而来,鲜少通过引擎制作,所以手机端并不存在内容欠缺的情况。而 VR 之所以内容匮乏,原因在于此前缺乏直接将真实世界进行三维化拍摄并应用于 VR 的有效手段,只能依赖成本高昂的制作方式。
不过,高斯重建技术的出现使情况发生了改变,六自由度的三维空间拍摄变得切实可行,这意味着传统 2D 拍摄实现了向 3D 拍摄的升级,凸显出该技术的关键价值所在。
围绕这一技术,目前主要聚焦于数字人领域。之所以围绕人展开,是因为人在戏剧、叙事等方面始终处于核心地位。例如,与清华团队合作的项目,现已能够实时驱动人物。展示的两个数字人便是运用高斯技术制作的孪生数字人,通过从真人身上采集数据,借助一段包含表情和口型的驱动视频,可实时驱动这两个数字人。此时的数字人不再有强烈的引擎质感,所复现的正是拍摄时的真实效果,这一点至关重要。
此外,在整个高斯重建过程中,人力参与程度极低,可视为一个自动优化过程,虽对算力有着较高要求,但无需过多人力介入。只要具备足够优质的算力,便能快速获取三维空间影像并完成重建,且不仅局限于面部,还可针对演员全身进行多角度拍摄与重建。
一旦完成动态高斯内容的重建,便会形成一个个三维的影像片段,当下暂无十分贴切的词汇来精准描述它,虽有人将其称作 4D 数据或按传统说法称为体积视频,但鉴于高斯是通过函数来表达的,它与传统体积视频有所不同。这样的三维影像极易嵌入到 VR 系统之中,并且包含场景的三维影像在任意时刻均可从多角度进行观看,最为关键的是,它如实记录了真实世界的情况。
借助一套固定的系统,便能拍摄并快速产出相应成果,这对于弥补 VR 内容缺失有着重大意义。以瑜伽教练数字人为例,其拍摄系统置于前端,瑜伽过程可从多个角度进行重现,使用者佩戴 VR 眼镜后,能站在不同位置、以远近各异的视角观看此数字人。这些数字人的呈现数据是通过高斯点状函数呈现的,当前主流 PC 上的渲染速度极快,可达每秒 500 帧,这使其能够便捷地移植到手机以及 VR 一体机上。
通常情况下,制作数字人需要搭建一套 4D 拍摄系统。此前制作数字人时,运用的是面部 4D 系统,而构建全身系统往往需要规模更大的 4D 体系。不过,面部采集需要几十台甚至上百台相机,全身采集却并非如此,通过算法补充便能达成需求。
以对人体的 360 度重建为例,三维模型是对拍摄结果的精准复现,所以当拍摄存在模糊之处时,模型同样会如实记录该模糊状态。由于当下拍摄系统所需相机数量较多,一般难以采用昂贵的全局快门,普遍使用的是卷帘快门,这就容易在快速运动时引发模糊,而在以往,这种模糊对于三维重建堪称致命缺陷。但得益于高斯这类技术对误差出色的包容能力,它能够很好地记录模糊情况,大幅降低了数据预处理的难度。未来期望将此类技术应用于 VR 领域。
数字戏剧内涵丰富多样,既涵盖在舞台上运用新型数字化技术拓展表演能力,同时也引发思考:未来能否将戏剧完全搬入数字空间?最初在电影学院探讨 VR 电影时便发现,严格意义上并不存在 VR 电影,因为电影侧重画面感,进入 VR 领域后画面感荡然无存,VR 强调的是临场感与体验,这与戏剧更为相近,而非电影。
倘若能将上述技术应用于演员捕捉,并构建于用户的三维虚拟场景之中,便有可能将一部戏剧迁移至 VR 空间。当然,戏剧还涉及一个难点 —— 演员与用户的互动,这就需要借助 AI 手段,让采集的数据能够驱动,并与演员展开深入交流与对话。如此一来,最终用户便能在 VR 中观赏到超逼真的场景,且无需超强算力,鉴于当前主流设备已能出色地复现包括演员及周围环境在内的场景,以照片级真实感呈现,消除引擎痕迹,这正是该技术最为重要的发展方向。
最后,高斯重建虽是一个细微的技术要点,但在北理工与中戏的合作进程中可以看出,文化与科技融合蕴含诸多可能性。应以技术服务艺术创作,在此将其归纳为 “道法术器”。在当下文化科技融合的思路里,“道” 与 “法” 依旧要基于艺术创作的科学理论,这要求创作者、导演、艺术家们深刻理解新技术可能带来的效果与呈现方式,毕竟创作方法与理念自身也在持续升级。与此同时,要提供 “术” 与 “器”,即创作所需的技术手段、呈现手段,打造采集设备、呈现设备以及交互设备等硬件工具,以此构建完整的艺术作品。
活动现场
END
一带一路·共赢未来
中 心 简 介
丝路规划研究中心是全国政协办公厅业务主管、民政部注册登记的专业性、应用型智库。中心致力于开展“一带一路” 相关重大问题研究、规划推动等工作,是依托专家委员、服务“一带一路”倡议的战略融智平台。
页:
[1]