文本到图像的人工智能系统目前在能力和流行度方面都在蓬勃发展,还有什么比它们在世界最热门的应用程序TikTok中的出现更好的证明。
Tiktok
视频平台最近添加了一种新的效果,称为“AI绿屏”,允许用户输入文本提示,然后软件将生成图像。然后,该图像可以用作视频的背景——对于创作者来说,这可能是一个非常有用的工具。
与谷歌的Imagen、OpenAI的DALL-E 2或Midjourney的同名软件等最先进的文本到图像模型相比,TikTok系统的输出非常基本。它只创建相当抽象和旋转的图像;TikTok建议的“海洋中的宇航员”和“花银河”等提示的梦幻性质反映了这种力量。相比之下,其他模型可以产生真实感图像和复杂连贯的插图,看起来像是由人类绘制或绘制的。
TikTok的模型只产生漩涡、抽象和模糊的图像。不是最先进的,但可能更好。
不过,TikTok模型的局限性很可能是有意的。首先,更先进的模型需要更大的计算能力,这对于公司来说是昂贵和资源密集型的。其次,TikTok拥有超过10亿的用户,让所有这些人都有能力创建他们能想象的任何真实照片,几乎肯定会产生一些令人不安的结果。
TikTok
例如,我们测试了模型创建裸体和血迹的能力——文本到图像生成器经常试图限制这两种类型的输出。根据暴力提示拍摄的照片,如“刺杀鲍里斯·约翰逊”和“刺杀乔·拜登”,产生的大多是抽象的漩涡,英国首相的脸几乎可以辨认出来(尽管这名男子熟悉的金发拖把让漫画变得特别容易)。
模型输出的抽象本质意味着,带有挑衅性语言的提示只会产生漩涡。
同样,一个涉及裸体的请求——“海滩上的裸体模特”——会产生主题上合适的颜色,包括肉色、沙质橙色和海洋蓝色,但不会让牧师脸红。
试图让模型生成裸体图像是行不通的。
TikTok的“AI绿屏”的出现值得注意的是,它显示了这项技术正以多快的速度进入主流。文字到图像人工智能的最新发展周期可以说始于2021,OpenAI最初发布了DALL-E(有关DALL-E的介绍,可以看之前的文章人均艺术家!文本转换为图像,DALL-E程序创造新世界!)。不到两年后,这项技术已经通过TikTok等应用程序掌握在数百万人手中。
OpenAI公司logo
考虑到这些系统的潜在危害和好处,从现在开始,事情只会变得越来越陌生。你对TikTok在应用中增加文本转换图像的功能有什么看法呢?希望大家在评论区留言讨论,更多科技资讯尽在科技译站!
前期烧钱的,印度太想当然了。
是说了一堆大家都知道的废话!拉黑作者
通过用户训练模型库
提问:用两个AI对话会怎样?
凡是抖音,都不值得去做!