AI Agent(智能体),即便你不知道这是什么,今年也一定在某些AI大佬口中,听到过这个词:
2023年11月13日,微软创始人比尔·盖茨为Agent撰写了一篇千字博文,称其将颠覆软件行业和人机交互方式:“谁能主宰个人助理Agent,那才是大事。因为你将永远不去搜索网站,不去生产力网站,不去亚马逊。”
哥伦比亚大学计算机科学教授Jeff Clune则在Agent身上看到巨大商机:“可能价值数万亿美元。”而进一步,英伟达高级研究员Jim Fan预言,Agent将“推动整个文明的进化”。
时间倒退到6月27日,OpenAI应用研究主管Lilian Weng的一篇六千字博客《LLM-powered Autonomous Agents》,则迅速为方兴未艾的AI应用层指明了方向:做Agent。
所谓的AI Agent,可以被理解为一颗能自主使用工具、执行任务的“人造大脑”。
今年Agent有多火?“6月后,AI赛道几乎没人谈怎么做大模型,涌过来的都是自称Agent的项目。”一名投资人告诉36氪。近一个月,她聊了20多家自称做Agent的公司:“有之前做RPA的,也有做AIGC的,一半多的项目做的根本不是Agent。”
而在“AI腹地”硅谷,据知名AI记者Matt Schlicht的统计,至少有100个正经项目在将Agent商业化,近10万名开发者正在构建Agent。“每周都有新的Agent公司诞生。”AI应用云服务厂商E2B如此形容Agent创业的盛况。
△知名Agent一览,图源:E2B
太平洋对岸动作频频,国内巨头和创业公司也很快踏上Agent的追风之路。
在9月-10月短短两个月里,百度、智谱AI等大厂和AI独角兽先后发布了Agent开发框架,或者自研了Agent应用。市面上的打着Agent旗号的创业项目,也如雨后春笋般冒了出来——在近期阿里云主办的黑客松上,18个AI项目,其中7个提到了Agent。
然而,5个月后,在11月6日举办的首届Dev Day(开发者日)上,OpenAI轻轻打了个响指:发布定制版ChatGPT(OpenAI称其为GPTs)的低代码开发工具GPT Builder——下游的客户和开发者只需上传训练数据、配置模型参数,用几天甚至几小时,就能用目前全球最强的大模型基座,开发自己的Agent。
GPT Builder发布仅一天,就有上千基于GPT的AI应用上线了GPT Store;三天内,定制化的GPTs以每分钟一个的惊人速度新增。截至12月4日,即便在非官方商店GPTs Hunter,也已经上线了3.3万个GPTs。
OpenAI用一场发布会,让Agent创业一下子陷入全网唱衰的境地。前有OpenAI利用GPT的基座能力优势自己搞开发,后有下游客户和开发者用GPT Builder低门槛做自研——Agent企业,似乎已经到了随时可能被上下游吞并的“存亡之秋”。
先前被OpenAI指路的不少Agent创业公司迅速陷入恐慌:
在Twitter Space上,一场关于Dev Day的实时讨论会吸引了近百人。当GPTs出现在Sam Altman身后的屏幕上,讨论会的“国粹”立刻此起彼伏:“woc,这半年都白干了!”几名开发者在网上开玩笑:“我们和OpenAI的差异性就是比他差。”
一名正在帮两家Agent公司谈融资的FA焦虑到夜不能寐。她连夜和创始人拉会,“必须让他们在BP里强调技术的差异化,不管多小的差异都行。还有就是,先强调国内市场,毕竟OpenAI还进不来。”
但在海外,不少创业公司对Dev Day又显得十分冷静。
美国AI 3D创业公司Luma AI增长负责人Barkley Dai告诉36氪,感到恐慌的企业往往只是套壳了Agent一词,没有真正找到落地的场景,“找到场景的AI厂商已经开始商业化形成数据飞轮了,没那么容易被淘汰”。
“正好借机大浪淘沙,还能重新炒热AI应用赛道。”另一名海外开发者也表达了类似的观点。
即便开发者们观点态度不一,但OpenAI在Agent上的狼性布局,也恰恰证明,如今没有人会否定Agent在AI落地中的价值。
本文将解答的问题是:
Agent的落地价值是什么?业内玩家如何分类?
OpenAI对Agent企业的影响是?Agent企业的核心竞争力是什么?
Agent的商业化情况如何?
当一颗聪明的人造大脑,学会了使用工具
“ChatGPT只能做谈天说地、写诗作画这些风花雪月的事,但没法订票、报销、做PPT。”
这句在业内广为流传的论断侧面反映出了大语言模型的局限性:无法主动感知环境信息,并做出决策和行动。图灵奖获得者杨立昆(Yann LeCun)也断言:大语言模型无法通往AGI(通用人工智能)。
但基于大语言模型的Agent,却被Andrej Karpathy和Lilian Weng等OpenAI技术专家视作通往AGI的必经之路。
如何理解Agent的革命性?我们不妨将AI的落地,想象成完成一个项目的过程。
无论是以Midjourney等为代表的AIGC(AI生成内容)技术,还是ChatGPT,都可以被视作组内具有智慧的“军师”。“军师”们能根据沉淀在脑海中的知识,对上级布置的项目进行头脑风暴,给出初步的想法和思路。
与此同时,“军师”发挥潜力的程度,极大程度上还依赖于人类下达指令的质量——也就是输入Prompt(提示词)的质量。
但要交付一个出色的项目,只有“军师”纸上谈兵是不够的,还需要上网检索信息,或从数据库中找到并分析以往的业务数据,并用办公软件做一份上级和合作部门看得懂汇报PPT。
这意味着,要想大模型真正在实际任务中派上用场,必须让它能够调用第三方工具的API,学会使用工具。
2023年3月微软发布的365 Copilot(副驾驶),已经让大模型初步学会了实用工具,帮人类做PPT、写文稿、整摘要。
然而,由于Copilot无法自主执行和结束任务,在使用Copilot的过程中,人依然需要通过调整Prompt等方式,对Copilot的执行结果进行修改、给出反馈。
更进一步,能几乎自主执行任务、不需要实时输入高质量Prompt的AI实体,就是Agent。
△图源:腾讯研究院、招商证券
Lilian Weng的博客指出,Agent能让人类解放双手的原因,则在于模仿人类执行任务过程的四个组件:大模型+记忆+规划能力+工具使用。
“记忆”确保前后目标一致,“规划能力”则体现在对任务的拆解和检查。剩下的则是Agent最核心的两个部分:“大模型”是能够理解任务并进行决策的大脑,“工具使用”则意味着执行行动。
△图源:Lilian Weng《LLM-powered Autonomous Agents》
发展至今,Agent的落地方向,根据“调用Agent数量”和“是否设置特定目标”,已有了四个探索方向的分野。
就像真实的项目组中,既可以由一人主导所有流程,也可以多人分工,根据任务所调用Agent的数量,Agent的模式也无外乎两种:单体Agent(Single Agent),和群体Agent(Multi Agent)。
放眼国内,单体Agent目前被更多应用于某一特定的流程,或者具有特定场景的任务中。
比如高瓴创投投资的语音转录平台“Airgram”,推出了销售场景下的会议Agent;成立于2021年的“魔音智能”的Agent,聚焦在私域运营和客服场景。而百度、滴滴、蓝凌等大中型厂商,则针对企业的费控、数据分析、沟通等具体工作环节,分别推出了Agent方案。
但当业务流程愈加复杂,并且难以切分成孤立的环节,让一群Agent互相分工就成了最直接的解决方式。
下半年以来,愈来愈多的厂商对群体Agent进行了研发。近期完成天使轮融资的“KeepChat”,针对完整的销售流程和客户需求,在AI销售背后接入了4个Agent进行协作。
清华大学计算机科学与技术系副教授刘知远成立的“面壁智能”,则把智能软件开发平台ChatDev做成了一家只有Agent员工的软件开发公司。CEO Agent负责接收用户需求后,并把开发和交付任务分配给CTO、开发经理、产品经理、测试专员等Agent角色。
根据是否设置特定目标,Agent又可以分为自主式(Autonomous)和生成式(Generative)。
自主式Agent,往往受限于特定的任务目标,比如交付特定功能的软件、制作特定内容的PPT。但剧本、游戏脚本创作等创意型工作,往往需要不经意间碰撞出的思维火花。为了探寻Agent产生创意的可能,没有特定目标的生成式Agent应运而生。
生成式Agent探索的里程碑事件,发生在2023年4月——在斯坦福大学和谷歌研究院研发的“虚拟AI小镇”内,15个身份各异的Agent居民,自由进行社会交往。
△图源:斯坦福大学、谷歌研究院
“虚拟AI小镇”的诞生,让不少开发者和厂商看到了Agent重构游戏和社交玩法的可能性。比如小冰成立的游戏工作室ICEGamer,在游戏中引入了Agent NPC。开发者只需为NPC编写必要的世界观脚本和人设,游戏过程中的迭代和进化则全权交由Agent和玩家。
“理想情况下,生成式Agent能够根据玩家行为自主构建游戏副本。”前《和平精英》AIGC策划张昊阳告诉36氪。他成立的AI游戏公司AutoGame,探索的不仅仅是用Agent作为可智能问答的游戏NPC,还用Agent作为数字员工,编写游戏脚本,制作游戏组件,创造游戏玩法。
可见的是,人们对于Agent的期望,已经不仅仅是让人类在原有工作中解放双手,而是期待Agent真正成为人类的“数字分身”,构建新的生产方式。
OpenAI淘沙,数据和技术仍是企业“护城河”
11月6日的Dev Day,被不少人视为OpenAI正式开抢Agent厂商蛋糕的标志。
多数人认为,像OpenAI一样提供开发框架和工具的Agent中间层公司,会首当其冲。Atom Capital在官方推文中直言:“大量 Agent 框架公司将失去存在价值,开发者会因为生态便利性等原因转移到 OpenAI 的官方框架之下。
当OpenAI直接向下游开发者“卖水”,Agent生态的竞争也将加剧。已有的几万个GPTs,功能覆盖了设计、写作、故障排除等工作需求,也延伸到了算命、教学、食谱生成等生活娱乐场景。“其余厂商再想开发特定场景下的Agent,都会撞型。”一名开发者对36氪表示,“相当于和OpenAI生态中的几千名开发者竞争。”
△图源:GPT Store
但当Dev Day引发的震荡逐渐消退,厂商们也逐渐回归冷静。在大会上,Sam Altman将GPTs称作“precursors to agents(Agent的前身)”。这句话已明确指出,GPTs更偏向于聊天机器人,还达不到自主行动的程度。
经过一个月的试用和研究后,前述开发者告诉36氪,由于主要由简单指令创建,大部分GPTs远达不到交付给客户的企业级标准。
这意味着,OpenAI的GPTs尚未达到与Agent厂商争抢蛋糕的水平。不过,OpenAI在Agent布局上显露的野心,也让国内外厂商重新审视自身的壁垒。
要想在Agent竞争中构建“护城河”,数据壁垒是关键的一堵墙。
但在国内,构建数据壁垒并不容易。一方面,大部分领域私有数据分散在不同企业和专家手中,具有高敏感和难整合的特点。另一方面,业务中产生的“过程数据”,往往非结构化地存储在企业的服务器中,甚至专家的“大脑”中。而澜码科技CEO周健认为,专家知识的数字化是AI Agent落地的必要条件。
一些企业的“巧劲”,是寻求与中游企业或者第三方服务商的合作,进而共享下游行业的客户数据。比如以人力资源行业为业务切口的“澜码科技”,先与企业客户众多的猎头平台进行合作,以此为切入点,积累简历筛选、人岗匹配等业务数据。
但过程数据,往往难以通过第三方服务商进行共享。不少厂商认为,为数不多的获取路径,是先从相关业务“冷启动”,完成过程数据的原始积累。比如想要做游戏Agent,不妨先开发一款传统游戏。
而在数据私有化程度不高的行业——比如视频生成、小说生成等数据主要来源于网络的场景——不少从业者认为,Agent企业要做的是数据治理。
将公开数据转化成半私有,甚至私有数据,比拼的不仅是清洗技术,还有企业的业务理解水平。
“任何数据都有利用价值,根据业务需求去分级是比清洗更重要的一环。而分级就考验企业的业务理解能力,理解越深,越知道哪些数据是重要的。”内容创作Agent厂商波形智能的CEO姜昱辰解释。
她用小说写作场景举例,文笔流畅优美并非高质量数据的重要特征,读者评分、浏览量等市场化指标才是最重要的数据质量标准。
“护城河”的另一堵墙,则是技术。
在Agent的构建上,仍有许多悬而未决的技术难题,其中不少源于“大脑”大模型。2023年6月,风投机构a16z在与4位AI独角兽CEO的对谈中就指出,目前的LLM需要解决不受控制乱说话的“幻觉”问题、长时记忆的前后一致性问题,以及增强多模态的理解能力。
不少从业者都对36氪表示,OpenAI开发者大会后,其他竞争者还有一段点对点突破技术难题的“缓冲期”,用技术解决方案去获客。
比如,波形智能选择突破的难题是:自研名为RecurrentGPT的增强记忆技术解决方案,提升大模型记忆力;同时,在解码阶段控制文本生成的循环次数,控制平方级增加的内存和推理成本。
再比如,人机交互界面的多模态探索,目前还是鲜有人涉足的领域。目前人机交互最主流的方式,仍然是输入自然语言。但落实到具体的业务场景,LUI(自然语言交互界面)的作用十分有限。“比如对门店经营状态的分析,往往要输入一段门店监控视频。”澜码科技CEO周健表示,“由于多模态技术处于发展初期,对图片、视频、图表等多模态UI的探索还很少。”
越用越亏,Agent商业化需求解
从实验室走向广阔的应用田野,是Agent的宿命。
今年,随着技术实现成为可能,Agent的商业化也正式迎来了爆发。比如在硅谷,至少有100个严肃项目在推进Agent的商业化。
然而,如何控制高昂的调用成本,是困扰不少Agent厂商的首要难题。
接入Agent后,所有需要处理的业务场景,都会转化成需要底层大模型理解的数据,产生高昂的推理成本。一个典型案例是,斯坦福的虚拟小镇框架开源后,每个Agent一天就需要消耗20美金的Token数,比用人成本还要高。
所谓的Token,是模型能够理解和生成的最小单元(1 Token≈750个单词)。张昊阳也算了一笔账:在游戏场景下,Agent的调用需要消耗海量的Token,成本高达人均1元/小时——一旦用户达到上万规模,企业就会很难负担成本。
Agent想要真正实现规模化落地,多个厂商都对36氪表示,Agent玩家们最先考虑的不是盈利,而是如何把高昂的推理成本转嫁给用户。
目前,无论是To B还是To C的Agent玩家,“Pay by Token”是最基础的一种商业模式。所谓“Pay by Token”的付费模式,就像用水龙头放水,用户使用Agent消耗了多少Token,就要支付Agent厂商相应的算力成本。
目前,To B的Agent厂商已经摸索出较为成熟的一套收费模式:定制/部署费用+Pay by Token。相应的,消耗Token所能产生的价值也有客观的衡量标准,比如节省的人力成本、增加的销售额、提升的办公效率。
但对于以游戏和社交产品为主的To C Agent应用而言,要让“Pay by Token”模式运作起来并不容易。Token的价值,需要转嫁到主观的产品体验,难以有衡量的维度,用户的使用和付费意愿并不能被保证。
张昊阳举了一个例子:目前主流游戏内付费手段主要靠通行证(月卡)、道具付费等手段,月卡玩家可以获得更多游戏内收益。生成式AI接入游戏后,在玩家付费意愿有限的前提下,如果不采取按量付费的商业模式,部分超高粘性的玩家游玩所产生的算力成本将变得难以承担。
这让To C的Agent产生了一个商业悖论:玩家越多、使用时长越长,公司反而亏得越多。
但C端难以真正商业化的核心原因,在于Agent还没有为用户创造新的需求。
以游戏为例,“目前大多数‘AI游戏’产品只做到了将Agent的能力应用于NPC对话,这并没有带来本质上的玩法创新,而是在用新技术提升现有体验。”张昊阳总结,“游戏接入生成式AI能力后,必须创造出新的游戏玩法,真正做到AI Native(AI原生),玩家才能真正为AI游戏买单。”
不过,即便付费模式尚未有定论,但在IP打造上,Agent已经显现出了切中用户需求的潜力。成立于2021年的Character.AI,用Agent打造的则是一个角色定制社交平台。今年,这个AI独角兽的App最高月活,已经达到420万。
△图源:Character.AI
目前,不少厂商正在尝试为Agent增加数字形象,实现原来数字人无法主动进行的电话呼出、网络搜索等能力。更进一步,具有记忆力的Agent IP,还能与粉丝产生比肩真实追星体验的情感联系。
如今看来,OpenAI已经用GPTs为Agent热好了场子,但想让Agent真正飞进寻常百姓家,无论技术,还是商业化,都还有一段路要走。