从'AI证件照'到'AI译制片'：探索爆款AIGC应用的商业化路径与挑战

来源：脑极体更新时间2023-12-05 13:27:15 点击数：

让郭德纲飙英文、让霉霉说中文的翻译视频生成工具HeyGen和掀起AI证件照热潮的“妙鸭相机”一样，在一阵疯狂刷屏之后，又迅速在各大群里销声匿迹了。

十月份，由HeyGen制作的各种明星跨语言翻译视频，在全网疯传，大家震撼于AIGC地道的中英文表达，完全没有译制片的腔调，惟妙惟肖的音色还原、高度对齐的口型声音，让不少人表示，“真的有被吓到”“配音演员要失业了”……

太阳底下无新事，这个现象级AIGC应用，也逃不过“速朽”的命运。

如今我所在的LLM大模型讨论群里，偶尔有人发一个中英翻译视频，根本无人讨论，可能大多数人连点开看看，都提不起兴趣。

大众的新鲜感很快会过去，“明星译制片”只有看个乐子的娱乐属性，并不是高频刚需，猎奇尝鲜之后，到了真金白银付费的时候，自然风过了无痕。

这一年，大模型无疑是全球最大的热点。但热归热，最终在商业市场立足的大模型应用仍然稀少。

明明已经是“百模争艳”，为何成功产品化的现象级应用，就那么几个？

而这些产品成熟也不缺热度的爆款AIGC应用，为何无法将流量转化为持久的经济效益，商业化仍是一团迷雾？

本文希望从“AI译制片”这个小切口，探讨一下大模型的产品化条件和商业化迷思。

一夜爆红

是产品化的胜利

首先要明确一点，妙鸭也好，HeyGen也好，AIGC应用的一夜爆红，对于大模型产业来说，绝对是一件正面的事。

大模型只是一种基础技术，相当于钢材，大模型厂商相当于炼钢厂，还要有人设计出洗衣机、跑步机、微波炉等一个个具体的产品，新技术才能为人所用。

而HeyGen的一夜爆红，正是产品化的胜利。

技术原理上，跨语言翻译视频制作并不是什么新事物，业内已经有很多科技公司、影视公司、后期制作公司在探索并推出了专业级工具平台。

简单来说，就是升级版的TTS（Text To Speech）技术。利用大语言模型对文本进行更地道的翻译，然后对声音空间进行更好的建模，训练一个跨语种迁移TTS模型，让风格迁移、音色迁移、情感迁移更加鲁棒，合成的语音更加自然、还原。

这种技术的特点就是高效，整个翻译过程全自动化，可以批量生成翻译视频。不过在自然度和表现力细节上，还是不如真人配音演员的演绎那么细腻、有创造力。

总结一下就是，HeyGen背后的技术原理，并非什么独家秘籍。

其火爆的原因，是极高的产品化能力。

一般来说，AI技术的产品化，要经历三个步骤：

第一步：选择工具。

工欲善其事，必先利其器，工具是开发人员喜欢花费大量时间争论的话题。HeyGen的工具选择，是比较务实的，甚至看起来特别“小白”，那就是头部闭源模型+开源“大礼包”。

有网友扒出，HeyGen是用Whisper将语音转文字，GPT4（目前未开源）进行文本翻译，声音克隆+生成音频用so-vits-svc，最后用GeneFace++，将翻译后的语音与视频中说话者的嘴唇动作同步。

大模型热潮以来，我们看到了许多开发者在衡量和挑选“最好”的大模型，而市面上有各种不同的基座模型供应商，提供类似的竞品服务，开发者想要找到绝对意义上最好的工具，几乎不可能。这些底层工具如基座模型、编程语言等，先进性都可能变化。选择好相对较优的工具组合，然后快速去开发demo、验证想法、迭代升级，才是开发者最应该做的。

第二步：原型设计。

HeyGen选择的工具，无论是GPT4的API，还是开源模型，都是比较容易获取的，但大多数普通人都不会从搜索GitHub仓库、处理软件bug中获得多少乐趣。

就拿跨语种视频翻译来说，其中涉及了多模态内容的翻译，包括语音、文本以及视频，在字幕翻译、语音合成、智能配音方面，目前都有很好的自动化，但将多模态功能集成到一起，实现端到端一键翻译的产品还不多见。

所以，HeyGen构建了一个简单易上手的访问界面，通过集成多种模型、多种工具，降低了翻译门槛，用户只需要上传初始视频－选择目标语言－一键输出，就可以坐等声音克隆完成了。

HeyGen的核心价值，就是让非技术用户不必陷入繁多的技术细节中，不需要安装N多个额外的工具，就可以与多个模型交互，完成转写、翻译、配音、图像处理、音画同步等一大堆复杂的事情，轻松进行高维度、可交互的内容创作。

第三步：产品化。

明星、名人的跨语言翻译视频固然精彩，但只是一种用例，并且只能停留于C端用户玩梗，涉及自然人的声音、肖像等版权问题，是无法大规模普及并商用的。所以，虽然明星译制片带火了HeyGen，但HeyGen想要将产品投放市场并发挥价值，还需要更有说服力的产品力。

从HeyGen官网可以看到，数字人+跨语言翻译视频，才是HeyGen的核心产品力，并给出了跨境电商营销视频、跨语种品牌宣传、老师制作教学视频、社交媒体吸粉、为生日婚礼等纪念日制作令人难忘的个人视频等，一系列落地场景。

在此基础上，HeyGen让数字人跨语言翻译视频，可以通过自动化流水线来制作。

用户可以上传自己的照片，进行个性化形象定制，也可以在HeyGen提供的数字人素材和模板中选择，输入脚本后就能生成自己所需的多语种视频了。

至此， HeyGen顺利完成了AI译制产品化的转换，从而取得了巨大的成功，导致了“多年译制无人问，一朝HeyGen天下知”的景况。

从AI写真到AI译制片的爆火，一次次说明，产品化是承上启下、不可或缺的一步，再怎么强调也不为过。

可以肯定地说，不能完成从技术到原型设计再到产品化的转换，将是许多大模型投资回报率低的主要原因，也是许多AI创业项目失败的原因之一。

难逃“速朽”命运

商业化的魔咒

然而，即便如此成功的产品化，HeyGen又一次重复了“妙鸭”前辈的故事，在访问量陡增之后，又很快在各大群里销声匿迹了。

公域流量的退潮，似乎是爆款AIGC应用的共同命运。

对此，有人认为，HeyGen是在“闷声发大财”。虽然猎奇玩家散去了，但留下来的用户还是给HeyGen贡献了收入增长，HeyGen连续九个月环比增长率在50%以上。创始人Joshua Xu也在社交媒体上公布了相关数据，仅七个月时间，ARR年度经常性收入就达到了100万美元。

问题来了，HeyGen的商业化潜力是可持续的吗？

我们认为，HeyGen将要面临的商业化挑战，还是非常大的。

首先，技术工具无法被垄断，仅靠多模态AI无法建立商业模式。

HeyGen凭借大模型强大的多模态和理解能力，让跨语种翻译视频制作，达到了传统AI译制所望尘莫及的水平，这是非常厉害的工作。但大模型就像c++、数据库一样，只是一种新技术工具，它是无法被垄断的。HeyGen所使用的开源工具极易获得，闭源模型API也敞开了迎客，所以仅靠底层工具无法建立商业模式和竞争壁垒。

而产品创意、交互界面的开发门槛并不高，大量科技企业和个人开发者都可以轻松复刻并优化升级，产品被超越或许只在旦夕之间。

如今点开海外科技媒体的报道页面，会看到类似HeyGen（原movio）的视频生成工具，推荐清单高达95个之多。可以说，HeyGen提供了一个宝贵的AIGC用例，但很快就开启了一场白热化竞争，这对其后续收入的持续增长是很大的威胁。

其次，C端付费刚性，B端行业壁垒深，收入增长曲线会放缓。

目前，HeyGen收入主要靠C端客户付费。免费版本只支持一个免费的credits字幕，显然仅供玩票，而最低的创作者（Creator）付费档也要24美元/月，对于个人博主来说虽然不算太贵，但随着一大堆同质化产品的价格“内卷”，未来也会面临性价比不高的窘况。

而商业用户（business）虽然付费能力强、价格接受度高，但对跨语言视频翻译的技术含金量则要求更为复杂。HeyGen商业版本的客户，大多是制作电商营销广告、语言学习数字人、多语种新闻播报、译制片等，对翻译质量就会提出更为细粒度的要求，比如文本翻译的长度，要尽量和目标语言接近，来保持说话口型的一致性。还有，不同人说话的韵律不一样，停顿的位置、重音的位置都要对齐，才能高度还原个人风格。

再比如，老人、小孩说同一个文本时，因为角色人设的不同，遣词造句也应该不一样，翻译后的文本、语音都需要跟人设相对齐。

还有很多文化细节，是跨语种翻译中要进行强把控的，很多还是要人工译者去完成。毕竟商用场景不同于娱乐场景，跨语言容易产生歧义，一旦出现1%的错误，都可能让做对的99%工作打了水漂，面临丢单甚至海外市场合规风险。

所以说，商业用户需要复杂、高质量、高控制的产品。这就需要厂商在数据方面，尤其是小语种等少样本数据，有独家的、高质量的数据积累。模型训练，强行业知识等，都要长期积累和迭代，达到专业译者的水平。

目前，已经有AI公司针对精品化视频译制的需求，推出了ToB的产品解决方案，训练跨语种 Voice Conversion模型，采集配音演员的口型，由人工控制，再经由VC模型生成配音结果，比TTS模型的表现力更强，细节保留更多。

目前国内的AI巨头都很重视B端市场，资源充足，并且在机器翻译TTS、多模态AI技术方面的积累深厚，都可能是HeyGen商业用户的争夺者。

大模型的产品创新风口，才刚刚开始，要保持商业化的优势身位，如逆水行舟，“当红顶流”也不能掉以轻心。

爆款应用“速生速朽”

大模型的商业迷思

2022年11月30日，ChatGPT问世，在一周年刚刚过去之际，这场大语言模型的热潮，将所有人都席卷其中。或许还有人无知无觉，但也注定无法置身事外。

一年以来，时常有妙鸭相机、HeyGen这样的爆款应用，在社交媒体刷屏。这证明了几件事：

1.大模型是条件，而不是结果。运用好这些新工具，创造新产品的人，会获得新时代里无限多的机会。

2.基建是问题，但也不是问题。提到大模型，业界总会担忧算力卡被限制，国产大模型能力有差距，但悲观者正确，乐观者前行。实际上，无论算力基建、开发工具、基座模型，在今天都不是，也不该是应用开发者的阻碍。

业内有人说过，国产卡只要达到N卡60%的性能，用户就会买单。而一些开发者告诉我，密集使用了文心一言、讯飞星火等国产大模型，基础逻辑推理确实能叫板GPT 3.5-turbo，非基础能力比如func call、稳定性等也可圈可点。而妙鸭、HeyGen也都是中国企业所开发的，行动比洞见更重要。

3.产品化，是大模型商业化的必要条件。做了那么多通用大模型和行业大模型，如果没有大量产品化的成果，是无法转化为使用价值和经济效益的。“改变世界”的不是大模型，而是各种各样的产品，无数个HeyGen，帮助开发者完成从原型设计到产品化的转换，降低试错成本，将是接下来大模型厂商最重要的动作。

4.建立商业壁垒的，是刚需场景+强业务知识/数据+软件工程。HeyGen的商业化挑战，说明大模型不是壁垒，产品也不是壁垒，这些都是很容易被复制的。而行业知识/数据，大规模软件工程的流程控制、降本增效，可以针对特定场景的需求深入挖掘、快速开发、快速迭代优化，才符合AI技术特性，才是商业化的保障。

几位行业大模型应用的开发者，不约而同地跟我说过一件事：先找到场景，再优化产品和服务。也就是先想好商业变现的路线，确定自己的壁垒达到了，再去扎扎实实做产品，心里才能不慌。

比如一个ToC的民宿大模型，解决的是旅客入住民宿时，管家介入太深显得没有边界感，过度打扰；管家介入太浅，又缺乏服务价值感，无法及时解决问题。基于大模型的语音交互助手，就在旅客和管家之间，起到了很好的缓冲桥梁作用，让服务恰到好处。而旅客在当地的餐饮、游玩、购物等活动，也都是围绕“住”展开的，通过民宿大模型提供优质可靠的推荐服务，也带来了商业转换的潜力。

一个ToB的金融大模型应用开发者也表示，企业机构内部的多样化需求，是不可能由一个通用的、标准化的软件产品来承载的，所以ToB大模型创业，既要做业务分析咨询，又要做软件开发写代码，才能真正服务好客户。AI软件开发的流程化、自动化，对于控制成本非常重要，不能每个项目都靠一群博士“手搓”代码。