不会说英语的郭德纲不是好AI

明晰野望科技 2024-03-13 00:59:07

郭德纲在麻省理工讲起了英语相声?

是的,你没看错,郭老师甚至可以用他的京腔英语直接对话赵本山的东北英语。更有大量德云英语听力试题不断冲击着好学的网友。

除了英语,一众外国明星也纷纷操起一口流利的中文,连谐音梗大师完颜慧德的普通话都标准了起来,八国语言随意切换,只需动动手指就能把自己笑拥。

各路名人为何一夜之间变成了语言大师?原来,这都是AI配音搞的鬼。

01

AI越来越会炫技了。

这款“爆火”的AI视频翻译工具叫HeyGen,只需要上传一张人物照片,什么都不用做,啪的一下,一个短视频就生成了。除了上百款数字人素材和模板,官方还提供包括中文在内的50多种语言和300多种不同的音色供用户选择。

HeyGen背后的公司名叫诗云科技,成立于 2020 年。他们最初致力于做 AI 数字人生成,目前其客户包括英伟达、亚马逊、volvo等。

不少网友感叹,“这翻译没有译制片腔调。”“嘴型、手势都对得上,太自然了,差点儿以为是真的。”“不止嘴形,还有身体动作和语速的配合。”

不得不说,在翻译配音上,AI的表现非常出色,HeyGen的火爆程度也完全不输去年面世的AI绘画工具Midjourney。同样只需几秒钟,被称为史上最强作图神器的Midjourney就能调配出各种风格的图像,同类型软件还可以让生成的图片直接动起来。

自去年11月ChatGPT横空出世,大众一次次被AI的创新所惊艳。从GPT4到Midjourney,再到HeyGen,文字、图片到视频,AI不断刺激着人类的感官,一次次刷新着人类的认知。更让人期待的是,AI还有无限的潜能可被发掘,创新之路还远远看不到尽头。

02

那么,人人追捧的AI,究竟离我们普通人的生活还有多远?

虽然2023年以来国内很多公司都发布了自己的通用大模型,但很多还停留在“开放闲聊”阶段,这种泛娱乐的方式并不能带来实际生产力。所以,以“开放闲聊”为产品形态的ChatGPT,“尝鲜“的流量在6月达到巅峰之后,就开始出现下滑。

与通用大模型不同,垂直大模型可以深入到不同行业,更容易落地到具体的场景,如金融、教育、医疗和零售等。目前已经积累了数百万个视频数据的HeyGen,之后也会考虑做视频垂直领域的大模型。

有趣好玩,还能极大提升效率,是AI带给大众最直接的好处。AI配音既能打破语言隔阂,还能取代一部分配音和字幕组的工作。此前,生成式AI的几次创新也都伴随着对重复人工的解放。Midjourney的出现,为影视工作者提供了更高效的工作方式,国内网友熟知的妙鸭视频,最早也是诞生于剧组的选角场景,用AI图像生成的方式不仅提高效率还大大节约了成本。AI生成内容的浪潮已经从追风开始走向务实。

纵观全行业,今年以来的“百模大战”背后,垂直领域的大模型开始成为新一轮布局的重点。

03

说到底,无论是通用还是垂直大模型,其核心点还是落地场景和商业化。让普通人都能用起来,是大模型最重要的后半步。

如今,AI正广泛运用于绘图、配音、剧本写作等方面,科技公司们也在多模态上不断训练自家AI,试图让其产出更接近真人的创作。图片生成上,阿里大文娱推出的妙鸭相机,逼真的换装功能对用户开放后,也曾走红网络。在配音上,AI燕姿、AI杰伦就曾凭借独特的音色与唱腔,搭配与歌手本人风格或相似或迥异的歌曲,吸引了不少关注。

但随之而来的,是广泛运用后产生的争议。AI换脸和AI配音都会构成侵权,甚至会被一些不法分子用于诈骗,如果AI技术被滥用,后果是无法想象的。技术的普及也让这些隐患风险一一暴露,除了监管部门,研发公司也应该从源头杜绝「技术滥用」的发生。

行业巨头们都非常重视这一威胁。OpenAI CEO Sam Altman一直担忧AI有一天会向人类扔核弹。他们最近组建了一支全新的团队,旨在对抗“人工智能的灾难性风险”。

但任何技术的革新都无法摆脱风险和挑战,只要对人类有益,这项技术就值得推进。在具体的应用场景中不断成长,不断满足用户反馈的需求,或许是大模型最快也是最理想的落地方式。

0 阅读:0

明晰野望科技

简介:感谢大家的关注