AI绘画已经火了两年,但仍有一群人并不满意。
对于他们,仅仅是一张极尽精致的图片还不够,他们希望为画中的人物赋予更完善的性格、好恶、身世、人际关系、世界观,让Ta有血有肉,仿佛真实存在。
“这就是为什么我们的产品叫做‘AI驱动的角色幻想创作平台’,而非AI绘画这种描述。”胡修涵说。
90后的胡修涵在2022年12月,AI绘画正引发大规模讨论,ChatGPT刚刚发布的时候创立了“看见概念”团队,近期刚刚完成天使轮和Pre-A轮融资,总额超千万元,投资方包括源码资本和奇绩创坛等。
他们的产品“捏Ta”则在今年4月刚刚上线,分为微信小程序和APP两种体验渠道。
今天凌晨,他们还推出了自研的开源二次元大模型,捏Ta艺术大模型(Neta Art XL)。
图示:Neta Art XL模型生成效果展示
作为真·老二次元,胡修涵对同人创作生态了如指掌,他提出,不管是基于已有IP的二次创作,还是自己原创故事和角色,本身都是爱好者们内心创作欲的一种体现。
只是产出二创的人毕竟还是少数,大多数人的创作能力(尤其是在图像上)是不足的。
这时,就需要一种工具来填充这种创作能力上的不足。
相比创作单张图像,捏Ta的“创作角色故事”的能力直观体现在两个方面。
第一,平台征集了大量已经成熟的IP形象,游戏如原神、明日方舟、重返未来1999,动画如咒术回战、排球少年、Fate系列等等,共计近500个已有形象。
基于这些形象,用户可以轻松进行改变服饰、表情、动作,更换场景等方面的二次创作。
可供选择的图像风格共有近百个,如具体的艺术家风格、厚涂、赛璐璐、像素小人等等。
而涉及到具体细节,如人物形象的表情动作和服饰、画面的光照和镜头、场景特点等等,共有近千个可选择的标签。
除了最经典的文字prompt之外,捏Ta也提供了“图片捏”,即可以上传手机相册里已有的图片,或此前生成的图片进行二次创作。
同时,“CP图”则需要分别描述两个角色,再套用平台提供的CP模版(如证件照、下腰抱、亲亲等),就能直接看自家CP结婚。
在图片完成后,平台也有添加字幕、台词、图像拼接的功能,可以直接制作漫画,讲述故事。
一般情况下,生成图像的时间约为10-30秒。
第二个特点则是捏Ta的核心功能,“奇旅”。
平台提供了一种类似橙光游戏的玩法,当前有校园、异世界、娱乐圈等几个故事模版,用户可以带着已有IP角色或自己的原创角色进入这种故事里,面临不同需要做出选择的场景。
遇到这些场景时,用户就需要根据自己的选择,输入prompt,创作出相应的场景。
这个功能对于普通人来说或许有些费解,但在养OC(Original Character,原创角色)的同人创作者来看却刚刚好。
养OC其实就是完善原创角色设定,并且是除了外表服饰性格喜好之外,更具体,更深入地构建这个角色的童年、人际交往圈、性格缺陷、魅力来源、生长世界观等等。最终或是拓展成一个完整的小说或漫画故事,亦或用于在网络社群里与其他养OC人进行社交。
要完善原创角色设定,创作者们常用的一个做法,就是将角色放入一个场景,想象Ta在面临某个具体的剧情时,会做什么样的选择。
在此之前,OC养到后期要么自己动手,创作图像或小说,要么就需要在圈内花钱找人约文、约稿、约角色曲。
但现在,基于捏Ta平台就可以做到。正如“奇旅”玩法开展之时页面上的那句“探索角色的更多面”。
目前社区的产出有六到七成为有字幕和多幅图像的类漫画作品。胡修涵也透露,他们的平台现在有近50万用户,其中女生占七成,也大都比较年轻。
“她们的一个共同标签就是很多都写过小说,或者说搞过同人创作。她们内心其实有一个很强烈的心理,就是把自己内心的想法做一个更图像化的表达,让更多人看到,这样才能建立起内心的正反馈。”他说。
不过,当前捏Ta平台并没有明显的付费点,在生成图像时所消耗的“电量”类似游戏中的“体力值”,可以随着时间慢慢恢复,也可以通过社区点赞分享等行为获取。
在“电量值”上是否会做类似游戏的“月卡买体力”玩法,胡修涵不置可否。不过他分享了当前平台已有的两种方式。
第一,得益于国内繁荣的周边物流供应链,捏Ta也提供一个把用户的原创角色定制成亚克力吊牌或吧唧(二次元宅圈的周边徽章)等周边道具的渠道。
第二,从长远来看,用户捏的角色也有可能成为自身就具有内容价值的产品,可以向第三方出租或售卖。
“就像是openai的GPT商店,开发者可以把自己定制的GPT挂出来给其他用户使用,从中收取佣金。但现在GPTs没有跑通,可能意味着只有prompt的价值不高,或者至少建立不起某种经济循环。所以核心的点在于售卖的资产本身。”胡修涵说。
刚过30岁的胡修涵,在2014年毕业于北京大学,获得了智能科学和经济学双学位,并在此后的美国哥伦比亚大学取得了硕士学位。
他最早进入了Meta的视频战略组,担任一个30人左右团队的技术主管,主要负责Facebook、WhatsApp、Instagram三个平台的视频相关全套技术方案。
也就是在做短视频、短剧类内容、新闻、游戏直播时,负责内容管理、视频中插广告的系统对接、版权数据分析等工作。
在那时,他遇到了现在“看见概念”团队的合伙人兼CPO宋禹君,清华大学本科,硕士则毕业于卡内基梅隆大学的人机交互专业。
胡修涵表示,由于最初做的都是内容方面的工作,在Meta时能以7%占比的头部内容获取平台90%的观看量,因此他们对于不同市场、不同内容类型的需求变化较为敏感。
2018年,胡修涵回国进入阿里巴巴,带领团队先后参与了2019双十一大规模数据可视化的高性能渲染工作。
2020年,他又进入了一家上海的B轮独角兽特赞,担任技术VP,从零搭建了这家公司的内容资产管理产品线。
当特赞的新产品线收入从十几万上涨到上亿级,时间来到了2022年12月份。
在这时,Stable Diffusion已经发布有4个月,它的开源是AI绘画爆火的直接原因,也正是基于SD其开发的无数图像生成模型将这一话题不断发酵,一齐将AI绘画推向了舆论热潮的高峰。
而颠覆AI圈的ChatGPT也在11月30日刚刚推出。
这些都让胡修涵觉得,C端的内容生态创作端或许会因此而发生大的变革。
于是当月,胡修涵出走创业,正式创立了“看见概念”公司,他瞄准了二次元社区。
2023年一年,团队主要基于SD框架进行技术研发,但原模型风格不够二次元审美,风格上也比较难符合多样化的镜头。而部分风格优良的模型则人物肢体稳定性欠佳。
因此,在生成人物的表情、动作、镜头、风格表达多样性,风格易调用性,以及多人画面的稳定性等方面,团队进行了大量的研发。
2024年4月,团队正式上线了“捏Ta”微信小程序。
这个名字来源于日语“梗”(Neta)的读音,在ACG圈中常被用作玩梗、致敬使用。在同人二创圈里,又和“养OC”“养娃”“捏角色”等概念相似。
捏Ta的社交媒体曝光量已达到约2.5亿次,位列视频号动漫游戏日榜前十,日均用户使用时长可达40分钟。
令胡修涵印象最深的,是一名用户在200天内,用AI工具生成了500多个原创角色。
刚刚推出的Neta Art XL模型,则覆盖了超过1.3万个角色,近千个不同风格的艺术家,在部分二次元专属名词的识别和生成上,也进行了优化。
目前,整个“看见概念”团队共有15人,其中大部分都是产品研发。
团队的核心技术成员来自Meta、字节跳动、B站、小马智行(Pony.ai)等企业,也曾深度参与二次元开源模型AIDXL以及视频生成模型开源项目AnimateDiff的开发。
事实上,AI绘画应用产品在国内早已有过一波井喷期。
2021年年初,OpenAI推出了里程碑式的DALL·E模型和CLIP框架,前者被称为2021年第一个令人兴奋的AI技术突破,后者则是一种能将文本与图像联系起来的特殊的”图像识别“。
自此之后,AI绘画就开始飞速发展。直到2022年8月,Stable Diffusion开源,短时间内产生了一大批低门槛的AI绘画工具。
捏Ta为什么出现在现在?它与已有的AI绘画式工具又有哪些不同?
胡修涵认为,当图像生成领域开始出现技术革新,产品慢慢涌现时,一开始或许会比较倾向于引入成熟的工作流程中,去快速解决已有的问题,并快速获取一个正面反馈。
而一开始跟进新技术的人,大多也是对技术敏感,对AI本身感兴趣的人。这个群体会倾向于更专业的工具,也会自然希望把工具尽快集成自己的生产流程。
就像是游戏影视行业的部分公司,他们引入AI绘画搭建了新的工作流程,达成了更高效或者更便宜的效果,这时候新技术就被内部消化掉了,也就没有什么产品流出来。
AI绘画生成的游戏道具图
但捏Ta并非是一个创作力工具被应用于工作能效,它本身就是基于具体的创作目的设计的,是一个泛娱乐化产品。
与那些喜欢尝鲜的AI爱好者不同,胡修涵提到,他们的用户群体是泛C端,也就是“当年做卡点音乐视频,在办公室摸鱼写网文的一群人”。
这个群体是为了好玩,为了自我表达而创作,而不是为了解决某个工作问题,为了越做越快越做越好。
在胡修涵看来,他们带来的通常是一种长期的内容创作,或许短期内看似无法产生直接变现,但长期则会形成一种有价值的消费社区生态。
“所以专业的用户其实是不屑于用我们这类工具的,因为我们有意识地把复杂度全藏起来了。但我觉得一个大众性的好的产品,他针对的肯定不是先锋用户。就像我们的用户,他们不是被AI打动的,而是因为对二次元的兴趣才来玩我们的产品的。”胡修涵说。
因此,在多次采访中,胡修涵都强调,他们希望捏Ta能成为一个创作平台,有足够多的内容创作者在产出,也能形成社区进行交流。
当然,现在几乎所有的内容创作平台都面临着一个长期的困境:内容产出不够怎么办?在胡修涵看来,最好的方法就是让越来越多的人都能参与创作
而到更远的时候,基于更加成熟的生成技术,以及更大更优质的用户,社区中诞生的原创优质角色和围绕其展开的故事越来越多,其中最头部的可能就会成为新一代的大热偶像IP。
不过,对于同人二创圈,AI的参与一直是一件相当微妙的事。
对于很多创作者来说,图像是自我表达的一种方式,而由冰冷机器生成的图像难免欠缺灵魂,甚至有“AI绘画是拼凑尸块”的言论。
作为技术开发者,胡修涵先解释了AI绘画的大致流程:多层神经网络模型会学习图像和与图像对应的一系列文本描述,然后将图片中的内容翻译成一个“高维文本向量”,也就是“理解图像”。
当这种翻译足够合理,理解足够深刻时,模型就能反过来,将一系列的文本描述变回相应的画面。
所以,AI绘画并非是很多人想象的像素重组或元素拼接,而是在概念上做了一个融合创新。
“我会觉得AI绘画很像是去追哈利波特世界里的金色飞贼。在使用内容创作模型时,你实际上就是要用尽可能多的文字限制,把你最想要的那个镜头画面逼到一个角落。”胡修涵说。
而对于这种论调带来的对整个AI绘画的消极甚至反对态度,胡修涵也十分冷静。
作为老二次元,胡修涵非常肯定,整个泛二次元群体中有大量“沉默的大多数”,他们对于AI绘画的抵触心理不强,对于画师和绘圈也没有那么高的忠诚度——没有足够的绘画技巧、没有时间精力,或者没有金钱去约稿,所以无法开始自我创作和表达,这才是这群人的核心需求。
并且,在胡修涵看来,跳出这个群体,AI绘画也是一种无法阻挡的趋势。
他提到,今年两会上,央视就用AI生成了一系列海报,这就代表了一种非常具有倾向性的鼓励和引导。
此外,他们的平台在没有投流推广下实现了2.5亿次以上的流量曝光,这也说明总有人喜欢这些内容。而随着技术的不断迭代,人们的思想也不不断改变,未来参与进来的人或许会有更多。
至于AI绘画带来的版权问题,胡修涵认为,某个内容创作需要人的劳动成本,这是一个前AI时代的经济理论逻辑。
随着AI的发展,单个内容的生产和传播成本发生了极大的改变,这时候就需要重新考虑相关问题。
比如,对于AI绘画的定义,未来可能会发展到需要画师的“开光”。
“画师可以认证那些AI生成的东西,说这几张图掌握了我的精髓,那可能这些图的收益就要分他一部分;没有经过认证或授权的AI图像的价值就极低……总之,未来应该会有一套新的版权价值体系。”胡修涵说。