年底王炸!Google三剑客Veo2、Imagen3、Whisk功能测评

啤酒罐数字游民笔记 2024-12-22 18:35:58

引言

年底了,Google又放出了一波大招,发布了三个重磅的AI生成工具——Veo2视频生成模型、Imagen 3图片生成模型以及Whisk图片融合工具。作为一名AI博主,我第一时间对这些工具进行了测试,希望能为大家带来详细的使用体验和效果测评。本文将详细介绍这三个工具的使用方法和效果,帮助大家更好地了解这些新工具的潜力。

1. 使用方法与注意事项

1.1 Google Lab的访问

要使用这些新工具,你首先需要访问Google Lab。当前,Google Lab的服务仅支持美国地区,因此你需要开启美国的全局代理才能访问。如果使用美国IP仍无法访问,建议更换IP,因为Google的风险控制有时会比较严格。作为用户,我们只能适应这些限制。

1.2 VideoFX的申请

VideoFX是这四个项目中唯一需要加入等候名单的工具。我已经申请了,但尚未开通。因此,本文将主要介绍其他三个工具的使用体验,但在文末会展示一些其他用户使用VideoFX生成的视频效果,供大家参考。

2. Whisk图片融合工具

2.1 基本介绍

Whisk是一个非常有趣的图片融合工具,其名字直译为“打蛋器”。Whisk的口号是“少提示,多玩法”,强调用户可以通过较少的提示词实现更多的创意。让我们一起来看看Whisk的具体使用方法和效果。

2.2 使用步骤

2.2.1. **登录Google账号**:进入Google Lab后,点击登录按钮,使用Google账号登录。

2.2.2 **上传图片**:进入Whisk界面,你可以看到一个非常个性化的UI。点击“从头开始”,进入操作台。在这里,你可以上传图片进行创作。

2.2.3 **选择主题、场景和样式**:Whisk将图片分为三个部分——主题、场景和样式。我们分别上传一张主题图片、一张场景图片和一张样式图片。主题图片我们选择一张美少女图,场景图片选择一辆飞驰的跑车,样式图片选择梵高的星空。

2.3 生成效果

点击生成后,Whisk会在30秒左右生成两张图片。从宏观上看,两张图片对素材图元素的迁移做得相当到位,人物和场景都没有问题。样式上,星空的风格虽然不是特别明显,但整体效果绝对在及格线以上。

2.4 文字生成

训练集中明显没有汉字或汉字较少,因此生成的文字有些四不像,但数字生成没有问题。对于场景的借鉴,可以看到镜头的角度几乎一致,光影效果也很类似,高光区域在画面中部偏左,墙面反射合理,人物面部的高光和墙上的投影也非常真实。

2.5 提示词反推

点击生成的图片,可以看到模型自动生成的提示词。虽然我们没有输入提示词,但模型能够准确地反推出我们提交的素材图的描述。两套图片的提示词有一些差异,但都对素材图进行了相对细致且准确的描述。

2.6 其他玩法

Whisk还提供了一些预设,方便用户实现有趣的效果。例如,我们可以选择贴纸预设,上传熊猫图片,生成贴纸效果。生成的贴纸效果非常不错,甚至可以直接开一个业务,帮用户将头像或照片生成贴纸,然后在小红书或抖音上售卖,非常有市场潜力。

3. Imagen 3图片生成模型

3.1 基本介绍

Imagen 3是Google Lab的另一款图片生成模型,支持在imageFX中使用。界面简洁,用户可以通过输入提示词生成高质量的图片。

3.2 使用步骤

3.2.1 **输入提示词**:在提示词输入框中,输入“1girl”进行测试。下方会有一些相关的建议提示词,例如“35毫米胶片”。

3.2.2 **设置种子数**:种子数默认为随机,点击锁可以锁定seed值,方便生成类似的图片。

3.2.3 **选择宽高比**:支持五种宽高比,我们选择默认的16:9。

3.2.4 **生成图片**:点击创建,生成图片。如果提示词无法生成,可以尝试修改提示词,例如“2girls”。

3.3 生成效果

生成的图片质量非常高,对复杂提示词的理解也很到位。四张图片中,人物的一致性做得不错,旗袍上的花纹略有差异,但整体效果非常不错,可以达到90分以上。虽然汉字没有画出来,但整体效果仍然令人满意。

3.4 提示词修改

Imagen 3模型对提示词的理解非常准确,可以通过点击高亮标记的提示词进行修改,生成略微不同的图片。例如,将红色旗袍改为蓝色裙子,生成的图片效果也非常逼真。

4. Veo2视频生成模型

4.1 基本介绍

Veo2是Google Lab的视频生成模型,当前需要申请加入等候名单。虽然我尚未获得内测资格,但通过其他用户的生成作品,可以看出Veo2的潜力非常大。

4.2 生成效果

4.2.1 **外星集市视频**:一个8秒的外星集市视频,运镜和场景都比较稳定,粗看非常震撼。但细看可以发现一些AI生成的痕迹,例如外星人的步伐有些踏空,摊位也有一些AI特有的抖动。

4.2.2 **单人镜头视频**:一个单人镜头中,人物走路的姿势非常逼真,身上的花朵也有合理的惯性运动,人物主体和背景清晰分明,整体效果非常好。

4.3 与Sora的对比

Veo2与Sora在生成视频的效果上有显著差异。Veo2的真实感非常强,而Sora则出现了一些物理错误和穿模现象。虽然Veo2并非每次都能生成完美的视频,但其成品率和效果仍然值得期待。

5. 总结

从生成效果来看,Imagen 3模型绝对可以与Flux和MJ等竞争对手一较高下,特别是在对复杂提示词的理解上表现出色。然而,由于受限于闭源和社区政策,Imagen 3可能失去一些希望微调和获得更大出图自由度的用户。Whisk则提供了更低的操作门槛和更便捷的使用体验,生成效果也非常不错。至于Veo2模型,虽然目前只能通过其他用户的生成作品来了解其效果,但其潜力和成品率仍然值得我们期待。

结语

非常感谢大家的阅读,希望大家能从本文中获得有价值的信息。如果有任何疑问或建议,欢迎在评论区留言。我们下期再见!

0 阅读:3

啤酒罐数字游民笔记

简介:通过AI提高效率,使得1人公司也可以发展壮大