90后清华学霸,大模型创业一年估值25亿美元

来源:猎云精选 更新时间2024-02-21 09:12:19 点击数:

290后清华学霸,创业一年估值25亿美元

正在秘密研发通用多模态模型,预计今年内将推出。

在OpenAI的文生视频模型Sora引发广泛关注的当下,国内这家90后清华学霸创办的大模型公司,持续受到知名机构追捧。

今日,月之暗面(Moonshot AI)被爆完成超10亿美元新一轮融资,投资方包括红杉中国、小红书、美团、阿里,老股东跟投,投后估值达约25亿美元。

就在春节前的2月3日,月之暗面则被爆正在进行2亿美元融资,由蚂蚁和阿里集团共同投资,投前估值预计15亿美元。

针对“最新一轮融资”,月之暗面对猎云网表示,“感谢关注!公司对具体融资信息暂不方便评论。月之暗面过去未来一直坚持推进中国AGI领域的底层关键技术进步及产品创新,也会持续匹配与公司发展阶段相应的资本策略,期待未来有更多好消息与大家分享。”

事实上,成立于2023年4月的月之暗面在融资披露方面“鲜有明确说法”。针对成立仅两个月就被爆完成的首轮融资,创始人杨植麟于2023年10月“更正”道,公司已获得红杉资本、今日资本、砺思资本等知名机构近20亿元投资。

而这,也是月之暗面成立近一年来,唯一一次准确的融资披露。

01

清华学霸创业,携手同门组建全明星阵容

月之暗面之所以能在成立之初就获得头部VC押注,与90后杨植麟本人的“学霸”身份、丰富经历,关系匪浅。

清华求学时,杨植麟师从清华大学计算机系知识工程实验室(KEG)带头人,智源研究院学术副院长、悟道项目负责人唐杰教授。最终他以满分成绩通过所有程序设计课程,并以年级第一的成绩毕业。

随后在2015年,杨植麟进入卡内基梅隆大学(CMU)语言技术研究所(LTI),跟随苹果公司AI负责人Ruslan Salakhutdinov和Google AI智能首席科学家William W. Cohen攻读博士学位。

毕业后,杨植麟曾效力于谷歌大脑研究院和Meta(Facebook)人工智能研究院,是Transformer-XL和XLNet的第一作者。其中,XLNet模型曾在18项自然语言任务中取得了好于谷歌BERT的效果,是当时NLP领域热门的国际前沿模型之一。

据不完全统计,杨植麟曾在ICLR、NeurIPS、ICML、ACL、EMNLP等计算机顶会发表论文20余篇,研究成果累计Google Shcolar引用超过17000。

目前,杨植麟还是清华大学交叉信息研究院的助理教授,研究方向:大规模预训练,自然语言处理,自然语言理解与生成,少样本学习,零样本学习,多模态学习。

90后的杨植麟,在大模型领域,可谓声名显赫:循环智能、智谱AI、智源研究院……到处都有他的名字和身影。

同时,杨植麟和团队也曾作为核心研发成员,参与Google Bard、Gemini、Einstein、盘古、悟道等大模型的研发,发明包括TransformerXL、XLNet、RoPE、Detectron2、Group Normalization在内的AI领域里程碑式的成果,被诸如Google PALM、LLaMa等模型采用。

天眼查App信息显示,月之暗面由杨植麟持股78.97%,拥有绝对控制权。围绕在他身边的创业伙伴,同样实力非凡,不容小觑。

月之暗面联合创始人周昕宇持有公司10%股份,他和杨植麟、张宇韬,是清华大学计算机科学与技术系2011级本科的同学。在大四时,周昕宇就加入各方面都符合他标准的旷视实习,并在毕业之后正式加入,工作内容是算法量产,就是要把算法的生产效率提高很多倍。

作为持股5.96%的第三大股东,月之暗面联合创始人吴育昕毕业于清华大学与卡耐基梅隆大学,曾获2018年欧洲计算机视觉会议(ECCV)最佳论文提名。在2018年10月的GeekPwn国际安全极客大赛上,IYSWIM是6个参赛团队中,唯一一个破解人脸识别算法的团队。吴育昕当时以IYSWIM团队的身份参赛,据他介绍,“自己(以个人名义报名参赛,有名队友没有来到现场)用了谷歌的FaceNet开源代码模型攻破了该算法”。

此外,杨植麟的同门师兄张宇韬,目前持有公司5%股份。公开资料显示,张宇韬本硕均在清华大学计算机系就读。他的研究方向是异构数据融合和知识图谱构建,在KDD、CIKM等计算机顶会上发表多篇文章。他作为技术负责人,参与了科技大数据分析平台AMiner的研发。

02

大语言模型后,正秘密研发通用多模态模型

凭借豪华的团队阵容与深厚的积累,月之暗面成立不到半年,便于2023年10月宣布在“长文本”领域实现了突破。

据杨植麟介绍,针对于“大模型输入长度受限带来的应用困难”,月之暗面正式推出了首个支持输入20万汉字的大模型moonshot,以及搭载该模型的智能助手产品Kimi Chat。

随后,他以Kimi Chat的一些实际使用案例,进行了详细介绍。以输入整本《月亮与六便士》为例,Kimi Chat可以和用户一起阅读,帮助用户更好地理解和运用书本中的知识:

相比当前市面上以英文为基础训练的大模型服务,Kimi Chat具备较强的多语言能力。例如,Kimi Chat在中文上具备显著优势,实际使用效果能够支持约20万汉字的上下文,2.5倍于Anthropic公司的Claude-100k(实测约8万字),8倍于OpenAI公司的GPT-4-32k(实测约2.5万字)。

同时,Kimi Chat通过创新的网络结构和工程优化,在千亿参数下实现了无损的长程注意力机制,不依赖于滑动窗口、降采样、小模型等对性能损害较大的“捷径”方案。

就在今年1月26日,Kimi Chat最新发布了“v1.3 迎春版”:基础模型能力全面升级,用友联网搜索能力、上下文学习能力、文学创作能力、语言翻译能力……小程序版Kimi智能助手,则已支持中英文语音输入。

需要的是,近期,OpenAI的文生视频模型Sora,凭借突破一分钟的时长,再加上演示视频的高度逼真和高质量,持续引发关注。

据多方消息报道,月之暗面也正在秘密研发通用多模态模型,预计今年内将推出。

换言之,在以文本为主的大语言模型领域取得阶段性进展的月之暗面,未来也将在以图像、视频为主的多模态模型领域,与OpenAI等国内外同行展开较量。

而月之暗面在资本市场上的“动作频频”,似乎也正是在为更高的训练成本,更大量的资金和人才需求,做更充足的准备。

以团队规模为例,月之暗面在2023年10月有50人左右,目前该公司团队人数则已超80人。

未来,月之暗面在“多模态模型”领域,究竟能否占有一席之地,我们也将持续保持关注。


Tag: 大模型 AI创业者
首页 AI对话 资讯 我的