今年8月,国家互联网信息办公室公布的数据显示,国内已通过国家级备案的人工智能服务达到了188款,地方网信部门登记在册的生成式人工智能服务则达到了26款。一共超过200款AI大模型出现在互联网上,颇有行业一片欣欣向荣的气息。
不过如同新能源汽车行业的发展历程,大多数技术或资金底蕴不足的AI企业,最终很可能成为强者的垫脚石。头部企业的产品规划和发展方向,往往代表着行业动向,更是小企业的生机所在。24年,到底有哪些足以代表行业方向的大模型呢?雷科技旗下智能Pro在本文进行一波盘点。
文心一言:国产大模型排头兵
ChatGPT初露峥嵘之时,不少网友曾表示,通用AI大模型跟搜索引擎没区别。
的确,当初AI大模型给人的感觉很像搜索引擎,身为国内用户数量第一的搜索引擎公司,百度自然感受到了压力。于是2023年3月16日,百度正式发布了AI大模型文心一言,领跑国内AI行业。
经过数次迭代,文心大模型的功能愈发丰富,并陆续推出了文心大模型3.5/4.0/4.0 Turbo,以及文心大模型4.0工具版等多个版本。到如今,文心大模型已支持输入文字、图片、网页、PDF等不同模态的信息,可输出文字、图片等多种模态的信息。
(图源:文心一言官网截图)
从文心大模型4.0工具版的命名就能看出,文心大模型正在从“泛用性”向“专用性”迈进,已不再是单纯的“搜索引擎”,而是可以帮助用户提高办公效率的工具。取得行业头部地位后,文心4.0大模型已收费服务,仅留下文心3.5供用户免费使用。
智谱清言:清华血脉,B/C端同发力
绝大多数我们熟知的AI大模型偏向C端使用场景,拥有清华大学学术“血脉”的智谱清言则是B端与C端并进的一款AI大模型。目前智谱清言加入了AI搜索、AI画图、PPT生成、视频生成、长文档解读、数据分析、视频生成等功能,其首页推荐的功能也以办公场景为主。
然而智谱清言的资源比不了腾讯、百度、阿里巴巴、字节跳动等企业,开发多款大模型的压力不小。同时开拓B端和C端市场,更像是重压之下的突围措施。《中国大模型中标项目监测报告》显示,今年前三季度智普华章中标大项目达到了22个,追上了讯飞星火和百度文心一言,但披露的中标金额仅为2472.3万元。
(图源:智谱清言官网截图)
小雷曾使用智谱清言创作文章、视频、图片,体验都还算不错,可没有一样能够称得上第一。没有什么缺点,又难以找到让人眼前一亮的优点,是智谱清言当前面临的问题。
小雷认为,智谱清言应当集中资源和技术,放弃多线竞争,主攻面向专业场景的B端市场,强化品牌定位。等到B端市场取得一定成果后,再开拓众口难调的C端市场。
豆包:全能、强大、真好用
就小雷的“身边统计学”而言,豆包已经成为了小雷和同事、朋友最常用的AI大模型。字节跳动财大气粗,旗下AI的大模型就有即梦、海绵音乐、星绘等,分别面向视频生成、音乐生成、图片生成等多个领域。仅下载一个豆包,无法体验到字节跳动在AI大模型领域的全部实力。
(图源:豆包官网截图)
不过豆包在文字、绘图等方面的出色表现,足以令其稳居AI大模型第一梯队。尤其是作图方面,豆包加入了绝大多数通用大模型不支持的图片区域重绘、扩图功能,生成图片的清晰度也超过了其他大AI大模型,雷科技目前的许多配图均由豆包AI生成。此外,豆包的各项功能也在朝着专业化场景发展,可帮助用户做PPT、写代码。
难能可贵的是,豆包暂时还没有推出开通会员或充值选项,依然可以免费使用,而且提供丰富的智能体可用,甚至包括礼物挑选、饮食推荐、好评撰写等。
讯飞星火:B端强势,C端起势
科大讯飞是国内B端市场举足轻重的企业,其推出的讯飞星火大模型也以B端场景为主,广泛应用在医疗、教育、工业、科研等诸多领域。10月24日科大讯飞发布的讯飞星火4.0 Turbo,更是号称七大核心能力全面超越GPT-4 Turbo。
面向C端市场,讯飞星火大模型也支持AI搜索、PPT生成、图像生成、内容写作等功能,其提供的智能体更是五花八门,从吃喝玩乐到日常工作再到结婚策划一应俱全。
(图源:讯飞星火官网截图)
总体来说,讯飞星火大模型提供的功能主要依然围绕文字信息,图片生成功能中规中矩,编程倒是亮点,文字工作者可以使用讯飞星火生成诗词、宣传语、小说、视频脚本等信息。B端市场讯飞星火已占据主导地位,或许未来会发力C端,推出更多实用、好用的功能。
有道子曰:专注翻译,赢在专业化
与前面几款加入了专业办公能力的通用大模型不同,有道推出的子曰大模型专注于翻译场景。据有道首席科学家段亦涛介绍,子曰大模型2.0升级了口语对话、教育场景下的知识问答、文字处理三大能力,并且拓展到了更多学科、学段。
专业场景一直是翻译界的难题,因此才会出现商务英语、计算机英语等学科,子曰大模型以翻译功能为核心,可更智能、精准地翻译内容。此外,有道官网显示,在AI大模型的加持下,有道还加入了AI写作、AI PPT、AI口语陪练等功能。
(图源:有道官网截图)
网易有道和百度翻译是小雷最常用的两款翻译软件,但在体验中,偶尔会遇到专业名词翻译不精准的问题。AI大模型可根据口语习惯进行训练,面对一些有歧义、不常用的词语,将能够提高翻译的准确性。
Kimi:文字生成领域的真王者
月之暗面不算大公司,拥有的资源比不了百度、阿里巴巴、腾讯、字节跳动,但其开发的Kimi却创造了奇迹。点点数据公布的11月苹果平台全球AI APP下载量数据显示,Kimi以6%的份额位列第四,另一个进入前五的国产AI应用则是豆包。国内市场,新榜公布的AI产品周榜中,Kimi以760万周访问量位列第一。
严格来说,Kimi的功能不算丰富,主要围绕文字内容和思维导图,甚至没有其他AI大模型标配的文生图功能。但Kimi免费使用的策略、强大的文件解析能力、多语言对话能力等,令其成为了许多文字工作者的首选AI大模型。
(图源:Kimi官网截图)
小雷经常使用Kimi搜索信息、解读文件、检查文章错别字,Kimi的爆文生成器功能更让小雷有了把过去构思的小说内容,通过AI大模型写出来的冲动。
Kimi的爆火证明,AI大模型功能的丰富度并不与用户数量呈正相关,把为数不多的功能打磨好或许更加重要。近期,月之暗面又推出了视觉思考模型k1,强化了Kimi的数理化基础科学思考能力,而且能够呈现完整的思维步骤,未来或将成为学生们的学习利器。
快手可灵:让视频大模型不再是期货
Sora发布后,无数网友嘲讽中国互联网科技公司没有创新力,创造不出能够媲美Sora的产品。然而仅仅四个月后,在Sora仍处于PPT状态的情况下,国内短视频平台快手旗下的AI团队就打造出了视频生成大模型可灵。
经过小雷的实际体验,在国内视频生成大模型中,可灵稳居第一梯队,并且是第一名的有力竞争者。在文生视频之外,可灵还加入了图生视频功能,并且可以筛选不希望呈现的内容。
(图源:可灵官网截图)
除了生成视频,可灵还支持文生图和AI试衣功能,其中AI试衣即用户上传衣服和模特,生成模特穿着该衣服的图片。若是需要在网上买衣服,可以考虑使用可灵测试衣服是否合身。接下来,可灵还将上线视频剪辑功能,帮助用户创作视频。
视频生成大模型是否成熟,关乎AI大模型能否理解真实世界,重要性可能比其他通用大模型更高。可灵、即梦、Vidu等视频大模型的出现,让我们看到了AI理解世界和帮助我们挥洒创意的可能。
华为盘古:为B端专业场景而生
讯飞星火、智谱清言等大模型,虽以B端为主要业务方向,但也提供大量功能供C端用户使用,华为开发的盘古大模型则完全面向B端,应用范围正如其名,涵盖交通、工业、建筑、媒体、气象、医药等多个领域,堪称包罗万象。
盘古大模型支持十亿级到万亿级参数的不同规模大模型,能够帮助企业推理各类复杂的任务。尽管盘古大模型并非面向C端的产品,但其带来的效率提升,能够影响到我们生活的方方面面。
(图源:华为官网截图)
通用大模型容易被数据污染,加上其黑盒训练模式,日常使用时部分查询到的数据可能还需要校对。专用大模型,尤其是面向工业领域的产品,可避免数据污染。盘古大模型的名气或许不如很多大语言模型,但价值毋庸置疑。
通义千问:低调的扫地僧
作为与字节跳动、百度、腾讯并列的互联网巨头,阿里巴巴推出的AI大模型通义千问似乎有些低调,唯有专用于写代码的通义灵码,小雷曾看到过营销广告,并推荐给程序员朋友使用。
尽管名声不显,但通义千问却十分好用,其支持的功能与其他产品相差不多,提供生活、工作、绘图、职场相关诸多智能体可用,而且还支持扩图功能。需要注意的是,通义灵码可以付费解锁高级功能,通义千问则免费服务。
(图源:通义官网截图)
现阶段通义千问名声不显,毕竟其存在价值更多是服务于阿里云智能业务——AI算力需求的爆发式增长,是阿里必须抓住的机会,正因为此阿里也投资了大半个中国AI大模型创业生态。
腾讯元宝:产品刚起步,彰显巨头意志
与前面几款大模型相比,腾讯元宝的功能特性其实没太大区别,但其提供的智能体却相对较少,整个界面看上去也略显简陋。值得一提的是,腾讯元宝提供的智能体,主要以影视作品中人物为原型,包括李承乾、范闲、海棠朵朵等,支持聊天对话功能,继承了腾讯擅长的社交基因。
(图源:腾讯元宝截图)
另外,腾讯元宝还加入了最新的混元文生视频大模型,可以根据用户描述生成视频。小雷之前体验了该大模型,目前与可灵、即梦、Vidu等产品差距明显。
对于腾讯而言,大模型暂时落后不是大问题。拥有雄厚财力的腾讯,完全可以发挥自己的场景优势,或者收购其他AI公司以壮大实力。参考新能源汽车行业的发展历程,未来数年内国内必然会有大量AI公司倒闭,其中不乏拥有一定实力的企业和技术人员,腾讯通过收购,就能快速提升麾下AI团队的实力。
总结:大模型由虚向实,全面收费成必然
国内AI行业起步期,我们所能接触到的相关应用,主要为聊天解闷,部分产品还打出了“电子伴侣”口号。这是因为当时国内AI企业技术实力不足,且对于行业的发展方向没有明确认知。经过长时间的探索,AI企业逐渐找到了正确方向。
从这些头部企业的动作来看,AI大模型的主要发展方向就是由虚向实,既不是“聊天机器人”,也不是“搜索引擎替代品”,而是能够分析和解读文档、图片、视频、音频等模态文件,并输出我们所需模态信息的智能体。
头部企业还在打造专业化使用场景,如帮助用户生成PPT、制作视频和音频、编写代码等等。若无专业智能体,仅依靠原有的问答、搜索等功能,难以将因好奇和兴趣体验AI大模型的用户转化成付费用户。
尽管现阶段可免费使用的AI大模型不少,但付费恐怕已被头部企业提上了日程,上述十款AI大模型中,文心一言、智谱清言、有道子曰、可灵等,均已提供付费服务,其中文心大模型提供网页端付费版和全端付费版可选。其他AI大模型暂时处于内测或公测状态,正式版很可能也会要求用户付费。
小雷没有列出的AI大模型中,面向专业场景的产品如即梦、百应、WPS AI等,都需要付费使用。AI大模型的训练和推理需要耗费大量成本,无法永远免费为用户提供服务,付费使用迟早会到来,无非是早一天晚一天罢了。
总的来说,一年多时间的探索下,国内AI企业基本明确了发展方向,将持续布局专业使用场景。我们接触较多的大语言模型,也将融入更多功能,最终被打造成万能大模型。AI大模型越来越好用的同时,能够免费提供给我们使用的功能只会越来越少,付费使用的时代即将到来。
最令小雷失望的是,这些AI大模型仍然在云端完成推理任务。与许多网友在意的隐私问题不同,小雷期待本地大模型,所注重的是减少云端算力需求,将推理成本转移到本地,并降低AI大模型的价格。然而考虑到监管、破解版等问题,未来很长一段时间内,恐怕AI企业都不会愿意推出PC端本地大语言模型。