Google Labs 推出新的图像生成工具 Whisk

Google 最近在美国推出了其最新的人工智能实验工具——Whisk。与传统的基于文本提示的图像生成工具不同，Whisk 主要使用图像作为输入来帮助用户更直观地创作艺术作品。

功能介绍

背景中，Google 的语言模型（可能是最近发布的 Gemini 2.0 Flash）会自动生成上传图像的详细描述。这些描述被输入到 Google 最新的图像生成模型 Imagen 3 中，捕捉主题的核心特征而非简单复制原图。

AIbase 进行了多次测试，上传左侧的三张图片，融合生成右侧的结果，效果非常出色且引人入胜。

由于 Whisk 仅从每个源图像中提取几个关键元素，Google 警告生成的图片结果可能不符合预期。例如，生成的图像在身高、体重、发型或肤色上可能与原始图像不同。

早期测试者（包括一些艺术家和创意专业人士）表示，Whisk 更像是一个新的创作工具而非传统的图像编辑器。Google 希望这个工具能帮助用户快速进行视觉设计而不是精确编辑，并允许用户迅速生成并筛选多个选项以保存他们的最佳作品。

初始测试表明使用 Whisk 非常有趣，但每张新图片的生成需要等待数秒钟。这种延迟可能是由于高流量导致的，因为许多用户都在体验这一新的工具。

当前，Whisk 只对美国用户提供免费试用并收集反馈。

Whisk 是 Google Labs 的一部分，作为 Google AI 项目的测试平台，包括 Gemini、Imagen 和最新的视频模型 Veo 2。虽然大多数项目仍处于实验阶段，但一些成功的项目，如最近推出的 AI 助手 NotebookLM，将转变为完整产品。

体验链接：