谷歌实验室近日在美国推出了最新的生成式人工智能实验工具 Whisk。与传统的图像生成工具主要依赖文本提示不同,Whisk 着重使用图像作为输入方法,允许用户更直观地创造艺术作品。
用户可以直接上传图片至 Whisk,或者在该工具内生成图片,指定主题、场景和风格等元素。Whisk 系统支持用户混合和匹配这些组件,并可根据需要使用附加的文本提示进行微调。
值得注意的是,在后台,谷歌的语言模型(可能是最近发布的 Gemini2.0Flash)会自动生成输入图像的详细描述。这些描述将输入到谷歌最新的图像生成模型 Imagen3中,从而捕捉主体的本质特征,而不是创造出完全相同的复制品。
AIbase进行了多次测试,上传了左侧的三张图片,就可以融合生成右侧的结果,效果还不错,可玩性很高。如下:
然而,由于 Whisk 仅提取每个源图像中的少数关键元素,谷歌提醒用户生成的图像结果可能与预期有所不同。例如,生成的图像可能在高度、体重、发型或肤色上与原图存在差异。
对此,谷歌表示,这些细节往往对项目的成败至关重要,因此允许用户查看和编辑驱动图像生成过程的文本提示。
早期测试者,包括一些艺术家和创意专业人士,表示 Whisk 更像是一种新的创意工具,而不是传统的图像编辑器。谷歌希望该工具能帮助用户快速进行视觉头脑风暴,而不是精确编辑,让用户在保存喜爱的作品之前,可以迅速生成和筛选多个选项。
经初步测试,虽然 Whisk 使用起来十分愉快,但每生成一张新图像需要等待几秒钟。这些延迟可能是由于高流量造成的,用户们纷纷涌入体验这一新工具。
目前,Whisk 仅对美国用户开放,用户可以在 labs.google/whisk 免费尝试并分享反馈。至于其他国家的用户,则暂时无法访问这一工具。
Whisk 隶属于谷歌实验室,这是谷歌测试其 AI 项目的试验场,包括 Gemini、Imagen 以及最新的视频模型 Veo2等。虽然大多数项目仍处于实验阶段,但一些成功的项目,如最近正式发布的 AI 助手 NotebookLM,则会转变为完整产品。