自ChatGPT引爆市场以来,创业市场开始变得热闹,这不由让人想起2014年那波移动互联网的创业热潮。
在过去一段时间,我们看到越来越多的人开启了AI创业之路,主要分为两拨人。
一拨是由高校、科研院所的教授、科学家领衔的创业团队,他们也是国内最早研究Transformer 模型,同时在生成式模型方向有多年学术沉淀的一群人,从如何更好生成到如何更可控生成,他们一直在探索AI想象力边界。
而最近也明显感受到互联网大厂高管、AI 1.0时期的从业者、垂直细分领域从业者以及连续创业者也陆续加入到这波AI浪潮中,他们很多产品经理、技术出身,思维灵活,懂得设计产品,运营社区,对于用户需求有敏锐的sense,擅长做从0到1的产品起步。当然从产品端,我们也兴奋地看到国内如妙鸭类的产品引爆社交媒体。
不过,在对AI技术带来的翻天覆地的变革感到兴奋的同时,也需保持理性。工具类AI产品的商业化变现路径在哪里,哪些竞争要素才是应用类创业者真正的壁垒?哪些场景才是真正的刚需?这又回到创业最核心的问题,PMF在哪里?
技术只有真正落到具体场景和需求中才有价值,技术能力强的团队也需要补充更懂市场和用户的人才能走得更为长远。
作为多年专注于AI投资的锦秋基金,一直站在产业第一线视角洞察AI技术发展趋势和创业市场变化,在过去已投资了多家具有全球化视野同时具备技术创新和商业化落地能力的人工智能头部企业。
目前如火如荼的AI创业,现在是否适合入局?哪些领域的AI项目更容易获得融资,哪类AI产品流量更大,用户粘性更强?AI2.0 阶段的创业和AI 1.0 相比哪些技术范式发生了转移?
针对准备入局和正投身于AI领域的创业者,锦秋基金投资副总裁郑晓超通过对AI行业、趋势、产品等多个维度的分析,从投资视角一次性讲清AI创业最需关注的两大问题——适合的方向和适合的时间。
本文为锦秋基金投资副总裁郑晓超《从投资视角看AIGC发展趋势》的演讲精华,有删减:
以下为本文目录
01 AIGC正处于技术萌芽跟期望膨胀阶段
02 文本和图像类AIGC应用机会开始涌现
03 3D、音频、视频大模型仍处于非共识阶段
04 文本和图像类AIGC访问量最大,商业类AIGC正在崛起
05 Chatbot 访问量最高,虚拟陪伴应用粘性最强
06 AI浓度变高,Copilot 类创业占比近一半
07 通用场景AIGC融资较多,垂直场景启动更易
08 从新范式转移看AIGC创业时机
09 AI创业:from China to Global
AIGC正处于技术萌芽跟期望膨胀阶段
一个新的技术在其发展过程中会经历一个比较缓慢的蛰伏期,等过了一个临界点后,会进入到快速发展期,之后又会进入到一个相对比较平稳的发展阶段,这就是我们通常所说的创新扩散“S型曲线”。
实际上之前的几次技术周期都经历了这样一个过程。在PC互联网时期, 2011 年PC开始出货量见顶,后面进入到逐年下降的阶段。在 2012年,移动互联网已蛰伏多年,并且围绕iPhone 等各种移动互联网应用也出来了,像字节也是在 2012 年时开始出现的。这个阶段,移动互联网就开始接力PC互联网,进入到了快速增长阶段,但到了2017 年,智能手机出货量也开始见顶,从 2017 年到现在,整个移动互联网的创新在大幅放缓。
从2017年的 iPhone 10,到最近的iPhone 15发布,作为一个重度的果粉,我都已经慢慢不追科技春晚了,因为很多的创新其实都已经变成了微创新,并没有让人觉得非常兴奋的点。不过今年6月份苹果发布的Vision Pro还是很让人兴奋的。Vision Pro 大概是在2015 年左右立项,也就是在智能手机出货量开始见顶时,新的技术又开始蛰伏了。
另一个比较有意思的点是,奠定这一波大模型的基础——Transformer 技术框架的论文《Attentions is All You Need》也是在 2017 年6月由谷歌团队提出,又经过了多年的积累,到了今年,ChatGPT 彻底引爆整个市场,现在我们进入到了大模型快速发展的早期阶段。当然大模型可能不是这个周期里唯一重要的事情,AR、 VR 也是其中不容忽视的技术变量。
再从大模型的具体发展周期来看。 Gartener 技术成熟度曲线旨在说明一般新技术出现会经历的几个阶段,目前基于 AIGC 的 AI 2.0目前正处于技术萌芽跟期望膨胀的阶段。我们看到ChatGPT 在今年 5 月流量开始见顶,最近几个月也一直在下滑,所以整个市场预期我觉得是在慢慢变得冷静。对于整个大模型引领的这一波新技术浪潮,我们长期会保持乐观,但是短期还是会保持相对理性。
文本和图像类AIGC应用机会开始涌现
每一次的技术创新在整个周期的不同阶段,其价值链条所处位置是不同的,也就是价值链的传递。随着价值链的传递,其市场规模是呈数量级逐渐放大的。虽然应用层的市场规模最大,但是它的市场集中度会降低,而相对来说底层技术、硬件框架、 OS 这些市场相对更集中(不然对于应用开发者会是一个灾难)。所以一般来说,上游集中度很高,可能两三家占据了一半以上的市场,但下游会呈现百花齐放的状态,会有数量众多的应用推出来。
比如在PC互联网时期,早期能够捕获整个产业链价值的其实是做硬件的公司,比如IBM、苹果,之后就会传递到做 OS 的微软,做芯片的英特尔,再往后才会到应用层,像谷歌、Facebook 等。同样,移动互联网也会经历类似周期,从智能手机到安卓、iOS,再到ARM或者高通,最后到像字节和美团等应用。
对于大模型来说,我们认为像大模型公司 OpenAI ,芯片公司英伟达其实发挥了大模型技术浪潮技术底座的作用。随着大语言模型和文生图模型的成熟,我们看到很多像 Midjourney、Character.ai这类优秀应用的出现。这里面一个takeaway是我们要在正确的时间做对的事情。在底层技术不够成熟的情况下,你可以去做技术创新,因为这时技术优势能带来非常强的产品竞争力,比如 ChatGPT 之所以很强大是因为有自己的底层大模型, Midjourney 效果惊艳也是因为自己做了底层大模型,使得他们产品实力突出。但当底层技术已经非常成熟了,创业者就应该更多去寻找一些应用层的创新机会。如果此时再去做大语言模型创新的话,会非常卷,难度比较大。
3D、音频、视频大模型
仍处于技术发展早期
细分来看,目前不同模态大模型的技术发展程度是有差异的。大家可能目前关注更多的是文本跟图像,两者已经进入到了相对成熟并且应用开始爆发的阶段。
大语言模型
对于大语言模型来说,其实分成了几个发展阶段。第一阶段是从 2017 年 6 月 Transformer 的那篇论文提出到 2018 年 Bert 的模型的出现前,这期间属于非共识阶段,大家都知道它,但并不清楚它到底能起到什么作用。2018 年 Bert 模型提出来,并开始应用在一些比如翻译等场景中,此时大家发现基于 Transformer 预训练的模型能够提升翻译各种文本的效率,但当时也只是把它作为任务能力提升的工具。到了第三阶段, 随着GPT 3出现开始形成新的共识,也就是通过预训练的通用大模型去完成几乎所有任务,只要下一个 token 预测越来越准确,就可能有更多的智能产生,也就是“涌现”,这就是大模型 AI 的第一性原理,以前的各种小模型、架构可能也就逐渐抛弃掉了。
现在大语言模型已经有了 GPT 4这样闭源的基石模型,像 Llama 2等开源模型也出现了。从底层的技术角度来讲,大语言模型已经相对成熟,并且已经有像 ChatGPT 月活过亿的killer App教育了整个市场跟用户。所以大语言模型进入到应用快速爆发阶段,包括各个企业可能都在用 AI 的tools、 Copilot 去结合业务场景做企业知识库、 chatbot,游戏NPC等,实际上这些都正在发生。
文生图
图像生成领域目前也进入到一个比较成熟的阶段。 Diffusion扩散模型比较重要的基石理论是在 2020 年提出的,2021 年 OpenAI DALL -E推出,到2022年上半年,闭源模型Midjourney V 1 版本推出,但那个时候还非常粗糙,很难商业化。再到2022年 8 月, Stable Diffusion 发布了一个开源模型,然后整个这个文生图就开始进入到一个非常快的发展阶段,直到今年 Midjourney 发布V5版本,图片生成的效果已经达到让设计师感到惊慌的程度了。目前 Midjourney 的Discord 社区用户已经超过1700 万人,是文生图里的killer APP。在图像生成领域,它的闭源基石模型跟开源基石模型都出现了,开始进入到了一个应用爆发的阶段,比如妙鸭、 Lensa 等一系列应用如雨后春笋般出现。
相对大语言模型和图像,其他模态目前整个发展阶段会相对落后,关注度也没有那么高,比如3D生成,视频生成,音频生成领域。
3D生成
3D生成的基石理论 NeRF 是在2020年提出的,从2022年开始进入到一个加速发展阶段,数量繁多的模型出现,比如初期的DreamFusion,Magic3D等,但到目前为止还没出现一个大家公认的基石模型。不过通过不断调研我们也发现,在一些游戏资产、元宇宙资产、数字人资产的生成中有比较多的关于3D生成应用的探索。
视频生成
此外视频生成也是一个非常重要的方向,它是基于图像的 Diffusion 模型来做的,把不同的图像一帧帧的动作连贯跟关联起来变成视频。其实从去年开始在视频生成领域有非常丰富的论文跟产品出现,目前做的最好的还是 Runway,估值已经达到 15 亿美金,我们判断,目前视频生成的商业化落地还处于比较早期阶段。
音频生成
在音频生成领域,基于 Transformer 预训练的新技术范式,相比于过往 TTS 的语音会有比较大的质的飞跃,但目前仍处在前期应用探索的阶段,原因在于有音频数据并没有图像跟文本丰富。值得一提的是,今年微软跟Meta都提出了一些比较有意思的音频生成模型,类似于 ChatGPT 的prompt,用户输入一个 3 秒钟的语音,它就可以很快的去克隆一个用户自己的音色,连说话的情感基调也是一样的。不过总的来看,3D 视频跟音频还是处在技术创新早期。
文本和图像类AIGC访问量最大
商业类AIGC正在崛起
为了更加清晰明了的洞察整个AI行业创业图谱,我们做了今年8月单月AI海外产品访问量的梳理。如果刨除 ChatGPT 这些大的应用, 今年8月整个AI市场的产品大盘的访问量跟我们上述介绍的分布是比较契合的。
目前访问量最大的应用是文字,其次是图像,之后依次是商业领域、代码生成、音频跟视频。
我们发现大语言模型产品访问最多的主要集中在虚拟角色,就类似于character.ai,其次是通用写作。图像则更多在图像生成跟编辑领域。商业板块则主要是各种垂直行业的应用。上述访问量反映了文本跟图像的 AIGC产品目前是比较容易找到PMF的,但也同时也说明创业者在这些领域开始卷起来了。
Chatbot 访问量最高
虚拟陪伴应用粘性最强
从动态变化的角度我们再来看去三个月TOP100的 AIGC 产品的流量变化。
可以明显地看到整个大盘其实从5月开始见顶,6-8月开始稍有下滑。访问量最多的还是ChatGPT 类的chatbot,不过chatbot的流量连续三个月都在下降。而类似于像 NewBing这类搜索则流量相对平稳,图像生成的产品流量在6-8月有微涨。从平均用户时长角度来分析,虚拟陪伴类应用虽然访问量并不是特别高,只在所有应用中排名第五,但是它的平均的用户时长最长,平均为25分钟,而且还在往上涨,如character.ai 目前的平均用户时长为 34 分钟。用户时长排名第二、三位的分别是生产力助理,文档制作。
AI浓度变高
Copilot 类创业占比近一半
YC 创业营基本是北美创业的一个风向标,我们可以从 YC 孵化器今年冬季和夏季两期创业营的数据来观察AI海外创业趋势。
首先, AI 浓度在快速提高,也意味着 AI 创业更卷了。今年上半年 37% 的项目是 AI 的项目,到今年9月份AI项目的比例上升到了 60% 。
其次,不同类型的 AI 项目占比跟分类也发生了明显变化。底层大模型创业在减少,从 14% 下降到了6%,更多的创业者开始往应用层、中间层转移,比较多的集中在了Copilot 这块。 今年上半年Copilot 更多还是做比较浅的 ChatUI,深度结合Workflow的Copilot成为创业热门。以法律行业为例,法律行业Copilot 扮演着职业律师合作伙伴的角色,它可以帮律师完成审查合同、做会议纪要、做企业内部知识库检索等工作,而不仅仅是一个法律知识问答的对话框。
通用场景AIGC融资较多
垂直场景启动更易
从AI创业项目融资金额来看,不同领域获得的融资额是有所差异的。
to B应用方面,在通用场景这块的创业公司拿到了更多的资金,而专注于垂直场景的to B应用获得的融资大概只有其1/5 左右。to C应用主要分为个人通用类和个人效率工具,截止到9月17日,个人通用应用融资数量大约是个人效率工具的2倍左右。
同样的趋势也是出现在了平均单笔投资金额上。 to B 通用工具平均拿到的钱大概是做垂直场景垂直行业的 4 倍左右,通用的 to C 应用拿到的平均单笔的融资金额是单点工具的to C 应用的 2.5 倍左右。
从中我们也能得出结论,通用场景往往是比较烧钱的,因为需要兼顾不同领域的知识跟能力,面向人群也更广,而相对而言,垂直场景或者是偏单点应用的工具其实不需要非常多的资金就可以启动。
从新范式转移看AIGC创业时机
在总结了过往和海外AI产品的新趋势、变化后,回到最为核心的问题,对于创业者而言,现在到底是否合适做 AIGC 创业呢?这里想跟大家分享几个观点。
第一,预训练大模型带来了新范式的转移,使得用 AI 技术去做应用开发的门槛比以前大幅降低,而如果你是做 to B 生意的话,也会带来交付成本的大幅降低。
原理很简单。在AI1.0阶段,你要做一个 AI 应用,需要算力和非常多的数据准备,比如数据清洗、打标、结构化,然后根据你要完成的任务去做拆解,拆解完的各部分可能需要去训练一个个小模型,之后还要去做模型的运维跟部署才能去支撑你的应用。而且如果你是做 to B 类的话,可能针对每个 to B 的客户你都要把模型重新做一遍,如果没有几十人的团队很难干下来。
然而到了AI2.0阶段,开发门槛发生了显著变化,上述这些复杂的工作,全都交给一个通用的大模型解决。你可以用通用大模型的API 进行调用,或者自己去借助开源模型 finetune一个出来,如果团队能力强的话,也可以自己训练一个大模型,这种通用大模型可以解决以前 10 个小模型解决不了的问题。
当然这是一个最简略的图,你还可以再加向量数据库、思维链、思维树,做AI agent 去解决更复杂的问题。但不管怎么样,与AI 1.0时期相比,应用开发门槛是降低了一个数量级的。
第二,大模型带来了人机协同的新范式。
过去 AI是一个简单的工具,可能带来的帮助并不是特别大。现在大家在做AI的Copilot , 让 AI 成为你工作的一个partner,你给它定目标,它快速地去执行任务,然后再由你去做修改、调整跟确认,最后 AI 结束该任务。
而我们现在正在从Copilot到agent 模式迁移。在 agent 模式下, AI 作为一名公司员工,可以自己组建团队,你给AI agent 一个任务,它可以自动安排任务给产品经理、架构师、运维、程序员,并由他们自己去观察、思考、行动,然后再去结束整个任务。在该模式下会诞生很多超级个体或者是超级团队,人类在其中扮演的角色是给 AI 定目标,提供资源,做检查跟评估、反馈。
实际上,我们发现很多 AIGC 团队其实已经不需要那么多人了,它可能背后有很多的AI机器人在工作,比如一个10 人的AI创业团队,你担任CEO,CTO 可能是GPT, CMO 可能是 Midjourney。
再往下一个阶段发展可能会进入到 AI Society 模式,就是人跟智能体两者是一个相对比较平等的角色,既可以自主提需求,也可以互相提供资源,当然这是比较长远的事情。
AIGC产品的开发门槛大幅的降低,也意味着只需非常少量的资金即可推出AI产品。根据A16Z的最新统计数据,在访问量 TOP50 的AIGC公司中有超过二十家公司是没有融资过的,在以前的互联网时代其实是不会出现的。这里我们发现互联网的烧钱逻辑变了,创业者用少量的资金推出一个 AI 产品是可行的,原因就是我们前面提到的,开发门槛降低,以及新的人机协同带来的生产力提升。
另一方面对 AI 创业者的好消息是消费者使用和付费意愿也大幅提高了。右边这张图,我们在把AIGC产品跟非 AIGC产品的自然获客进行对比后发现,AIGC最低四分位只有 2% 的流量来自于付费流量, 98% 都是自然增长,同时TOP50 AIGC公司中有 90% 的公司已经盈利了。而非 AIGC 产品的话,它的最低四分位有 70% 的流量是都是付费的。
因此 AIGC产品相比于过去的互联网跟移动互联网,大家使用和付费的意愿提高了很多。我觉得背后的逻辑,一个是 AIGC产品中一方面是提升生产力,大家普遍更愿意为“开源”而不是“节流”去付费,另一方面也有类似于妙鸭这样的产品,在满足消费者美、有趣的这种社交需求上相比前代技术有了质的提升。
回到开头的那个问题,现在是不是AIGC创业一个好的时点?我的结论是Yes,AIGC目前还处在整个新的创新周期的早期阶段。
AI创业:from China to Global
中间这张图是我在今年2月份时候的一个截图,我觉得这是中国移动互联网的高光时刻:在北美的 APP store 排行榜的前五里面有四个APP都来自中国,第一个是拼多多的Temu,第二是capcut,也就是剪映,第三是TikTok,第四是谷歌,第五个是Shein。说明中国的团队是完全有能力做出全球一流的应用的。
右边这张图是斯坦福的一项研究,说的是中国的AI论文指数在2020年的时候就超过了美国,说明中国的AI人才积累也是有的,但需要看清差距的是中国的AI论文数量多,但缺乏原创性和有影响力的研究。尽管这次AIGC浪潮又是美国在引领,但在OpenAI等已经把路径走通了的情况下,对我们来说追赶也不是那么困难的事情。
我觉得中国创业者应该具有着眼全球的野心。在一些技术比较成熟的细分赛道去全球卷应用,因为中国有最好的程序员、产品经理跟运营。而在一些技术上还不是那么成熟的赛道,比如 3D、视频、音频、AI agent等,中国的创业者也是有能力去拓荒,成为更多行业的SOTA。