日前有消息显示,字节跳动旗下AI智能助手豆包的视频生成功能在其电脑版正式开启内测,部分用户已开通体验入口、每日可免费生成十支视频。
据内测用户透露,豆包的视频生成功能是基于豆包视频生成-PixelDance打造,具备“文生图”和“图生图”能力,支持动态运镜,还可选择不同的风格和比例。此外,该功能在生成10秒视频时切换3至5次镜头的效果最佳,场景和角色能保持很好的一致性,并且用户可通过时序提示词、长镜头等技巧,增强视频的复杂度和表现力。
对此豆包相关负责人表示,未来将持续开放和优化视频生成功能,从而更好地帮助普通用户创作和表达。
据了解,此前在今年9月的AI创新巡展上,字节跳动方面就正式发布了豆包视频生成-PixelDance模型。据当时官方透露,该模型是基于DiT架构打造,可通过高效的DiT融合计算单元,让视频可在大动态与运镜中自由切换,同时还拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。
不仅如此,这一模型还采用了全新设计的扩散模型训练方法,攻克了视频生成中的多镜头切换一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。
得益于深度优化的Transformer结构,豆包视频生成-PixelDance模型的泛化能力也十分出色。具体而言,该模型可生成3D动画、2D动画、国画、黑白、厚涂等多种风格的视频,能够适配电影、电视、电脑、手机等各种设备的比例。由于经过剪映、即梦AI等业务场景打磨和持续迭代,该模型还具备专业级光影布局和色彩调和能力,生成画面视觉也极具美感和真实感。
近日豆包还上线了图片理解功能,并在PC端及App新增照片和相机按钮,用户在上传图片后会自动识别、并给出答案。据悉,这一功能不仅可识别图片中包含的元素和基本特征,并解析其中的各类信息,还能够理解并解释图片中的幽默元素,例如在输入一张网络图片后,豆包就会解释这张图片的笑点、并分析造成幽默效果的因素。