爆火的AI数字人究竟是怎么实现的?

来源:互联网 更新时间2023-12-15 10:24:53 点击数:

元宇宙的概念虽然有些褪色,但是元宇宙相关的数字人技术却在短视频和直播赛道找到了大展拳脚的地方,甚至有可能对当前的直播电商业态产生颠覆。

2021年,创壹科技创造的抖音虚拟美妆人物柳夜熙,发布了第一条视频,仅以此视频登上热搜,获赞量达到300多万,同时涨粉丝数上百万,被称为2021年的“现象级虚拟人。之后,越来越多的虚拟偶像或数字人出现在抖音等短视频及直播平台上,不仅获取了大量流量和粉丝,还可以7X24小时不间断直播带货,取代人工主播。


数字人,也称为虚拟人,这一应用涉及到大量底层技术,包括了3D建模技术、表情识别技术、动作捕捉技术、实时动画技术、实时渲染引擎、深度学习技术、语音识别技术等等。不同类型的数字人,涉及到的技术也不一样,比如形象上有3D卡通、二次元、超写实人物等类型;还有半身或者全身的区别。

数字人的视觉制作

数字人视觉制作主要是基于形象建模、动作驱动以及视觉渲染这三大环节。

数字人建立的第一步需要进行前期的形象设计以及建模。2D数字人需要原画等形象设计,3D数字虚拟人需要使用三维建模技术生成数字形象,又分为基于IP或者基于真人设计。

三维建模目前主要包含静态扫描建模以及动态建模两类,其中相机阵列扫描静态重建为主流技术。动态光场重建不仅可以重建人物的几何模型, 还可一次性获取动态的人物模型数据, 以重现不同视角下观看人体的光影效果,是目前国内外巨头及研究机构重点发展的技术方向。

单反相机阵列式人体人像扫描仪

有了形象和模型后,还要驱动着模型动起来,那么就需要用到智能合成、动作捕捉相关技术。目前智能合成技术主要是实现了嘴型动作的合成,适用于半身数字人形象。如果要实现全身数字人,就需要依赖动捕。动捕技术又分为光学式、惯性式及计算机视觉动捕等。现阶 段光学式和惯性式动捕占据主导。

诺亦腾基于MEMS惯性传感器的动捕系统

最后数字人一定是以视频的形式展现出来,就涉及到视觉渲染。渲染技术,是指把模型在视点、光线、运动轨迹等因素作用下的视觉画面计算出来的过程。主要的渲染技术有离线渲染与实时渲染两种类型。离线渲染的美学和视觉效果好,但是无法实时控制,常用引擎包括Maya、3DMax等,主要用于影视领域;实时渲染的优点就是可以实时控制数字人的动作,常用引擎包括Unreal和Unity等。

数字人如何开口

前面介绍了数字虚拟人涉及到视觉方面的技术,但是还不够,数字人还要能说话,最简单的方式是给视频加后期配音,是一个比较耗时耗力的工作。不过随着文字转语音(TTS)、唇形同步、语音识别技术的引入,不仅可以实现自动配音,还可以让数字人的口型与声音同步,视频看上去与真人主播无限接近。

TTS、语音识别技术已经非常成熟,且广泛应用于日常生活中,智能手机上都有这样的功能。唇同步技术相对来说是一个比较小众的技术,却非常适合数字人应用。

在数字人领域中,唇形同步(Lip Sync)是非常重要的一环,直接影响数字人的逼真程度。现有的数字人唇形同步技术包括Wav2Lip、DeepFake、PaddleGAN、Audio2Face、FaceSwap、LSTM、Audio2Lip、Lip Generation和Talking Head Synthesis等。

Audio2Face将音频信号与数字人面部运动信息相结合

来自硅谷的公司TwinSync提出了一种全新的无训练zcm模型,该模型不需要进行繁琐的模型训练,仅需上传源视频和音频文件即可获得高质量的唇形同步效果。现在D-ID等数字人平台也都实现了类似功能,上传音频文件系统即可自动实现唇形同步。

数字人的AI赋能

数字人除了可以说话,还要能听懂别人说什么,并且可以应答。ChatGPT技术的出现使得这件事变得简单。程序实时提取直播平台上面的弹幕和评论,然后调用ChatGPT的接口获得回复,再通过TTS转为语音,驱动虚拟人唇形同步,进行播报。

基于ChatGPT的数字人直播

应用AI技术可以大幅降低直播运营成本。比如过去直播的文字稿都是由人工编写的,但现在几乎都是由AI大模型完成。将所需内容输入大模型,就能够马上得到一段文字稿。

以前数字人直播需要一个场控人员来监控直播内容并回答提问。现在只需要事先在后台配置好相关问题的回答,当观众触发相关问题时,数字人主播就能智能地进行回答。

数字人平台

目前数字人平台除了D-ID以外,还包括腾讯智影、WarpEngine、HeyGen等。

HeyGen

其中HenGen平台的数字人效果非常不错,提供了数字人编辑、文本编辑、音视频编辑等功能:

  1. 数字人编辑:支持上传图像,支持AI绘画生成,也可以直接选择素材库里的avatar三种方式
  2. 文本编辑:可以直接输入,也可以使用ChatGPT生成脚本
  3. 音视频编辑:支持直接上传声音;视频编辑可以增删修改各种元素,还能上传幻灯片文件用来生成视频内容。

HenGen编辑功能

相信随着数字人平台技术的不断完善,数字人的效果会越来越逼真,结合AI技术,会有越来越多的虚拟数字人应用于电商、教育、个人或企业宣传、医疗、客服等领域。


Tag: 数字人
首页 AI对话 资讯 我的