谷歌推创新AI图片工具Whisk:可上传多张图片，将主体、场景、风格融合

来源：互联网更新时间2024-12-17 10:24:59 点击数：

谷歌实验室近日在美国推出了最新的生成式人工智能实验工具 Whisk。与传统的图像生成工具主要依赖文本提示不同，Whisk 着重使用图像作为输入方法，允许用户更直观地创造艺术作品。

用户可以直接上传图片至 Whisk，或者在该工具内生成图片，指定主题、场景和风格等元素。Whisk 系统支持用户混合和匹配这些组件，并可根据需要使用附加的文本提示进行微调。

值得注意的是，在后台，谷歌的语言模型（可能是最近发布的 Gemini2.0Flash）会自动生成输入图像的详细描述。这些描述将输入到谷歌最新的图像生成模型 Imagen3中，从而捕捉主体的本质特征，而不是创造出完全相同的复制品。

AIbase进行了多次测试，上传了左侧的三张图片，就可以融合生成右侧的结果，效果还不错，可玩性很高。如下：

然而，由于 Whisk 仅提取每个源图像中的少数关键元素，谷歌提醒用户生成的图像结果可能与预期有所不同。例如，生成的图像可能在高度、体重、发型或肤色上与原图存在差异。

对此，谷歌表示，这些细节往往对项目的成败至关重要，因此允许用户查看和编辑驱动图像生成过程的文本提示。

早期测试者，包括一些艺术家和创意专业人士，表示 Whisk 更像是一种新的创意工具，而不是传统的图像编辑器。谷歌希望该工具能帮助用户快速进行视觉头脑风暴，而不是精确编辑，让用户在保存喜爱的作品之前，可以迅速生成和筛选多个选项。

经初步测试，虽然 Whisk 使用起来十分愉快，但每生成一张新图像需要等待几秒钟。这些延迟可能是由于高流量造成的，用户们纷纷涌入体验这一新工具。

目前，Whisk 仅对美国用户开放，用户可以在 labs.google/whisk 免费尝试并分享反馈。至于其他国家的用户，则暂时无法访问这一工具。

Whisk 隶属于谷歌实验室，这是谷歌测试其 AI 项目的试验场，包括 Gemini、Imagen 以及最新的视频模型 Veo2等。虽然大多数项目仍处于实验阶段，但一些成功的项目，如最近正式发布的 AI 助手 NotebookLM，则会转变为完整产品。

Chat AI人工智能中文在线使用

随便看看