免费!文生图新秀Ideogram融8000万美元,文字渲染超越Midjourney

趣唠科技不打烊 2024-03-02 20:28:54

文丨Congerry

文生图时最难的是什么?

文字渲染绝对是其中之一。

无论是2023年12月份发布的Midjourney V6,亦或是上周刚刚推出的Stable Diffusion 3 ,都特意提到了自己在文字渲染上的进步。

到现在为止,AI在图像中生成的文本都不算准确。

但是,今天 AI 初创公司 Ideogram 刚刚发布的文生图工具Ideogram 1.0 在文字生成上已经超越了 Midjourney 和 DALL-E 3 这些前辈们,可用于创建个性化信息、备忘录、海报、T恤设计、生日卡、徽标等。

它的生成效果是这样的。

提示词: "Ideogram "汉堡的广告色彩鲜艳,多汁的汉堡让人垂涎欲滴。汉堡配以各种风味配料,包括香脆的生菜、成熟的番茄和香浓的泡菜。还有一句朗朗上口的口号:"释放你想象中的味道!"背景是几何图形和大胆色彩的俏皮、艺术融合,营造出现代、动感的氛围。

“提示:“一个充满活力、色彩缤纷的“表意文字”汉堡广告,其特点是多汁、令人垂涎欲滴的汉堡。汉堡配上各种美味的配料,包括脆皮生菜、成熟的西红柿和浓郁的泡菜。有一个朗朗上口的口号, “释放你的想象力!”背景是几何形状和大胆色彩的俏皮艺术融合,营造出现代而动感的氛围。” )

提示词中提到的口号“Unleash the flavors of your imagination!”一字不差地出现在了海报上,如果说有一点小瑕疵,那就是“!”变成了“.”。

这样的例子还有。

提示词:"一张由五个人组成的迷人照片,每个人手里都拿着五个与众不同的彩色标签。第一个标志写着 "Helping",第二个写着 "People",第三个写着 "become",第四个写着 "more",第五个写着 "creative"。小组成员的外表各异,有不同的发色和发型,他们对着镜头露出热情的微笑。背景是一幅色彩斑斓的抽象壁画,进一步突出了 "创造力 "这一主题。

(提示:“一张五个人的迷人照片,每个人都拿着五个独特且色彩缤纷的标志。第一个标志说“帮助”,第二个“人民”,第三个“成为”,第四个“更多”,第五个“创意”。团员们造型各异,发色、造型各异,对着镜头笑容温暖。背景是色彩缤纷的抽象壁画,进一步增强了创造力的主题。”)

Ideogram 声称:“我们的系统评估表明,Ideogram 1.0 在文本渲染的准确性方面是最先进的,与现有模型相比,错误率降低了近 2 倍。”

Ideogram 在文本渲染方面并不完美,但应该比 DALL-E 3 和 Midjourney 好得多。首次测试证实了这一点。| 图像:Ideogram

在 Ideogram 进行的基准测试中,用户对 Ideogram 生成的图像的评分高于 DALL-E 3 和 Midjourney 生成的图像。

Ideogram 1.0 使用界面是这样的。

用户通过 Ideogram 能够创建具有不同宽高比(9:16、1:1、16:9)和多种风格(如电影风格、插图、3D 渲染、照片、海报、排版设计)的图像。

此外,用户可以选择不同的模型版本(0.1、0.2、1.0)来优化生成效果,生成的图像还支持设置为私密(private)或公开(public)状态。

值得一提的是Magic Prompt,它是一款创意助手,可以自动增强、扩展和翻译用户的提示词,从而生成精美的创意图片。

Ideogram 还提供了三个例子,分别是原始输入提示词、Magic Prompt 的输出结果以及与 Magic Prompt 相对应的生成图像。

原始提示词:创建一个关于猫的有趣备忘录(Prompt: create a funny meme about cats)

魔法提示词:以一只表情惊讶的波斯猫为主题的备忘录。猫的眼睛睁得大大的,让人觉得它很震惊或很有趣。背景是其他猫咪摆出的各种姿势的彩色拼贴画,主题为 "当你意识到猫咪已经占领互联网时"。整体风格轻松幽默,展现了网上对猫的持久热爱。(Magic Prompt: A meme featuring a Persian cat with a surprised expression. The cat's eyes are wide open, making it appear shocked or amused. The background is a colorful collage of other cats in various poses, and the meme reads, "When you realize cats have taken over the internet." The overall mood is lighthearted and humorous, showcasing the enduring love for cats online.)

原始提示词:(Prompt: )hahahahahhah,笑发财了

魔法提示词: 一个幽灵、万圣节灯笼和骷髅的恐怖万圣节场景。鬼魂穿着破旧的长袍,漂浮在南瓜之间,而南瓜灯则露出顽皮的笑容。背景中,一个戴着高帽的骷髅站在鬼屋附近。月亮在场景中洒下银色的光辉,气氛既阴森恐怖又充满童趣。(Magic Prompt: A spooky Halloween scene featuring a ghost, jack-o-lanterns, and a skeleton. The ghost, wearing a tattered robe, is floating among the pumpkins, while the jack-o-lanterns smile mischievously. In the background, a skeleton with a top hat is standing near a haunted mansion. The atmosphere is a mix of eerie and playful, with the moon casting a silvery glow over the scene.)

原始提示词:绕太阳运行的蔬菜(Prompt: vegetables orbiting the sun)

魔法提示词: 这是一幅充满魅力和奇思妙想的插图,各种蔬菜围绕着明亮的金色太阳运行。这些蔬菜各具特色,滑稽地悬挂在看不见的绳子上,营造出一种失重感。胡萝卜、土豆和西红柿等经典蔬菜,以及朝鲜蓟和茄子等更具异国情调的蔬菜混合在一起,充满了天体景象。背景中的星星在浩瀚的宇宙中闪烁,增添了奇幻的宇宙氛围。(Magic Prompt: A captivating and whimsical illustration of various vegetables in orbit around a bright, golden sun. The vegetables, each with their own distinct personality, are comically suspended by invisible strings, creating a sense of weightlessness. A mix ofic vegetables like carrots, potatoes, and tomatoes, as well as more exotic ones like artichokes and eggplants, fill the celestial scene. The background stars twinkle in the vast universe, adding to the fantastical, cosmic atmosphere.)

这一点对于初学者来说确实非常友好。当然如果觉得不喜欢,也可以关闭该功能。

Ideogram指出,Magic Prompt 可以帮助用户写提示词,但Ideogram 1.0 自身也非常擅长理解复杂的提示词。

提示词:提示:这是一幅迷人的全家福,一个纯色哑光红色球体圣诞礼物栖息在一个蓝色立方体包裹的圣诞礼物上,一棵鲜艳的绿色圣诞树矗立在它们身后,树底缠着一块绿布。右边是一只好奇的小狗,左边是一只可爱的猫咪。(Prompt: A fascinating family portrait of a solid matte red sphere Christmas present perched atop a blue cube wrapped as a Christmas present, with a vivid green Christmas tree standing behind them with a green cloth wrapped around its base. A curious dog is positioned on the right and a cute cat lounges on the left.)

这段提示词中出现了材质,物体,颜色,方向等多种元素,但是Ideogram 1.0 准确地理解了。并且,Ideogram提供的这个例子看起来像是在对标前几天刚刚发布的稳定扩散3 。

Stable Diffusion 3,"蓝色立方体上有一个红色球体的照片。后面是一个绿色三角形,右边是一只狗,左边是一只猫"。(Prompt:Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat)

Ideogram还提供了另外两个例子。

提示词:用电影般的逼真手法描绘一只完全由香脆炸鸡制成的公鸡。它的身体覆盖着一层金黄色的外壳,上面淋着番茄酱,羽毛上缀着完美烹制的热气腾腾的炸薯条。公鸡的眼睛是由两个小而圆的番茄酱斑点组成的,它的喙是用一块香脆的鸡皮做成的。场景的背景是一家灯光昏暗的复古餐厅,霓虹灯和格子桌布为餐厅增添了怀旧和古怪的气氛。(Prompt: A cinematic, photorealistic portrayal of a rooster made entirely of crispy fried chicken. Its body is covered in a vibrant, golden-brown crust, drizzled with ketchup and adorned with perfectly cooked, steaming french fries for feathers. The rooster's eyes are made of two small, round ketchup spots, and its beak is crafted from a piece of crispy chicken skin. The scene is set against a backdrop of a dimly lit, retro diner, with neon lights and a checkered tablecloth, adding to the nostalgic and quirky atmosphere.)

提示词:书房里有两个男人。左边的男子站着,身穿长外套和花纹衬衫,手持拐杖。他面容邋遢,留着胡子。右边的男人坐在椅子上,身着正装,手持拐杖。他们身后的墙上挂着一幅装裱好的男子肖像。房间里有华丽的窗帘和铺着地毯的地板,给人一种复古的感觉。(Prompt: two men in a study room. The man on the left stands, wearing a long coat, a patterned shirt, and holding a walking stick. He has an unkempt appearance with a beard. The man on the right is seated on a chair, dressed in a formal suit, and holding a cane. Behind them, there's a framed portrait of a man on the wall. The room has a vintage feel, with ornate curtains and a carpeted floor.)

初步测试表明,Ideogram 在图像质量方面并不一定落后于 Midjourney,甚至在提示词理解方面可能比 Midjourney v6 和 DALL-E 3 更有优势。

还有个好消息是,Ideogram 提供免费计划,每天最多25个提示词、一百张图,并且为需要更广泛使用的用户提供大量图像配额和价格合理的订阅选项。

最后来介绍一下这家公司。

Ideogram 成立于2023年8月,目标是通过生成式人工智能帮助人们提高创造力,简化创意表达的过程。

Ideogram 的创始团队由世界知名的人工智能专家组成,他们曾在谷歌大脑、加州大学伯克利分校、CMU 和多伦多大学领导过变革性的人工智能项目。

其中,Mohammad Norouzi 是一位在机器学习和人工智能领域具有显著成就的工程师和研究科学家,也是Ideogram的CEO。

在创立 Ideogram AI 之前,Mohammad Norouzi 在谷歌大脑(Google Brain)多伦多团队担任高级研究员。他在2016年加入位于山景城的谷歌大脑团队,并在2018年迁移到多伦多。

Norouzi 的一些重要项目包括:

Imagen 和 Imagen Video:这两个项目涉及使用扩散模型进行高质量的文本到图像和文本到视频的合成。这些技术能够根据文本描述生成逼真的图像和视频内容。3DiM:这个项目通过扩散模型将二维图像转换为三维模型。这种技术在游戏开发、虚拟现实和增强现实等领域有着广泛的应用前景。Palette:这个项目实现了图像到图像的转换,使用扩散模型来改变图像的风格或内容,同时保持图像的质量和细节。WaveGrad:这是一个高效的音频生成项目,使用扩散模型来生成自然听起来的语音或音乐。SimCLR:这是一个对比学习框架,用于在没有标签的情况下学习视觉表示。这种技术可以提高机器学习模型在图像识别和分类任务中的性能。

Mohammad Norouzi 的学术背景同样令人印象深刻,于2015年12月在多伦多大学完成了计算机科学博士学位,导师是 David Fleet。Norouzi 的博士研究得到了谷歌机器学习奖学金的支持,他的博士论文专注于可扩展的相似性搜索。

Willi am Chan(陈俊乐)在卡内基梅隆大学(Carnegie Mellon University)获得了计算机工程博士学位,并在滑铁卢大学(University of Waterloo)获得了计算机工程学士学位,目前是Ideogram AI 的联合创始人兼首席技术官(CTO)。

在加入 Ideogram AI 之前,William Chan 在谷歌大脑多伦多团队担任研究科学家,参与了多个前沿的人工智能项目。在此之前,他还曾在 AMD、NVIDIA、英特尔(Intel)、谷歌、亚马逊(Amazon)和 TD 证券等知名科技公司实习。

Ideogram 在人工智能领域的基础工作包括去噪扩散模型(Denoising Diffusion Models)、Imagen:谷歌的文本到图像系统、用于视频合成的 Imagen Video、用于语音合成的 WaveGrad、神经语音识别、神经机器翻译、用于学习视觉表征的对比学习以及生成对抗模仿学习。

Ideogram 此前已经完成了1650万美元的种子轮融资,由 a16z 和 Index Ventures 领投,其他投资者包括 AIX Ventures、Golden Ventures 以及一些知名的科技界人士。

而此次官宣Ideogram 1.0的同时,Ideogram宣布完成了8000万美元的 A 轮融资。本轮融资由知名的风险投资公司 Andreessen Horowitz 领投,还有其他现有和新的投资者参与了融资,包括 Index Ventures、Redpoint Ventures、Pear VC 和 SV Angel。

结尾欣赏一波网友的作品。

0 阅读:0

趣唠科技不打烊

简介:感谢大家的关注