清明假期,哪里都是人从众,早就预判这一波的我,躲在家里狠狠的补了之前落下的电影。
在看《周处除三害》时,阮经天在礼堂化身兰博那一段戏,深深的震撼了我,这就导致我每次听到"曾经我茫然前行"时,汗毛直接起立。
不过就在前几天,同事给我分享了一版特殊的《新造的人》,大家听听,是不是比原版活泼可爱多了,有种青春女团的Style。
这个版本的《新造的人》直接治好了我的PTSD!
不过这并不是某个女团的新歌,也不是什么网红翻唱,而是百分之百由AI生成的!
生成式音乐绝对是近期最火的AI应用类型,不像Sora,从Suno到Stable Audio2.0,每一个音频应用都是实打实的可上手。
可以说,相较于视频,音频的GPT时刻已经更快地到来了!
不过上面那首"女团版"的《新造的人》,并不是国外AI模型的作品,而是来自国内大厂昆仑万维的AI音乐大模型——天工SkyMusic。
它也是目前国内第一且唯一公开可用的音乐生成的大模型,作为AI界的gai溜子,我们也是第一时间玩了起来,除了《新造的人》,我们还试了一些其它非常有意思的东西。
金属版的《生日快乐歌》,你听过吗?天工SkyMusic目前被集成在天工AI这个APP中,无论是iOS还是安卓,打开就可以看到"音乐"这个入口。制作过程非常简单,开始写歌➡输入歌词➡选择一首参考歌曲➡打完收工。
那首《新造的人》就是网友把原版歌词输进去,参考了《今晚派对》,然后就得到了欢乐又洒脱的另一版。
不过对于音痴的我来讲,歌词是我能控制最多的步骤,所以除了复制一些现成的歌词外,我还是选择自己创造一些"传世佳作"。
比如把剁椒鱼头的菜谱作为歌词放进去,然后选择一首Rap作为参考,就得到下面这首非常有趣的歌曲,不得不说,它的这个中文发音非常地道,与我之前在Suno中生成的对比下,你会发现,还是中国人最懂中国人,天工SkyMusic的发音要比Suno好上不少。
除了把菜谱做成歌这种整活外,天工SkyMusic在许多地方还是可以派上大用场的。最近同事过生日,我直接做了一首重金属版的《生日快乐歌》给他,好不好听不重要,但这绝对是他这辈子听过最激昂的祝福。
当然,不仅是同事,情侣纪念日,朋友结婚我相信天工SkyMusic都能带来一些"意想不到"的效果。
除了有歌词的歌曲,天工SkyMusic还可以生成一些纯旋律的音乐,比如我把《今夜无人入睡》的纯伴奏输进去,就可以得到和它风格很类似的纯音乐。
再比如我输入一段电影预告片里常常出现那种气势非常恢弘的BGM,然后就可以得到类似的乐曲。要知道,在AI之前,我花了一百多美金,在Humble Bundle上购买了几十首的BGM,为的就是在拍短视频时候能用上, 而现在,你只需要输入一首与你想要风格类似的乐曲,理论上你就可以得到无数首同类型的音乐。
试用到这里,不得不再次感叹,音乐的GPT时刻真的来了!
天工SkyMusic的背后是DiT让天工SkyMusic达到如此可用的背后,是和Sora同源的DiT结构。
简单来讲,就是Transformer和Diffusion两个模型相互协作,Transformer负责分析参考歌曲,生成与原曲曲风相近的旋律,而Diffusion负责演唱,最终把高质量的歌曲还原出来。
目前天工SkyMusic生成的都是44.1KHz的高采样率的立体声音频。把生成歌曲下载下来以后,是带有歌词和根据歌曲内容生成背景图的视频,这点可以说是非常贴心了。
截止到我测试完成时,参考音乐中已经汇聚了网友们上传的各类歌曲,因此,在没有指定需求的情况下,使用这些歌曲,也能得到非常不错的效果。
另外就是目前对于歌词字数有着最小限制,每次创作需要输入50个以上才行。这就导致创作一些歌词少,或者纯旋律的音乐时,需要用空格来代替剩余的字数,这多少用起来还有些蛋疼。
不过对于处在内测的APP来讲,这些应该都是小问题,随着产品的不断迭代,应该很快就能更新解决这几个小痛点。
说回到AI,相信很多人跟我一样,没想到视频和音乐的生成式AI能有如此快的发展。在去年的此时此刻,我们讨论的还是GPT4的神奇,而现在,我们已经畅想用Sora制作电影,用天工SkyMusic来创作歌曲。
如果说Sora是视频的GPT4.0,那么我认为像天工SkyMusic此类的音乐AI还处在GPT3.5阶段。比如,在曲风的精细控制上,还有较大的进步空间,当我想指定详细的风格,乐器,甚至情绪,现阶段它还做不到。
在歌词上,如果能根据旋律或者一个主题自动生成,或者自动补全一段音乐,那生成音乐的门槛将将降低很多。
最后,就是有关审美,从上面的几个例子可以听出来,AI目前的作品,还只是处于一个刚跨入"能听"的门槛,距离"好听"还有一段距离。不过随着投喂给模型的好作品足够多,不久我们也会迎来音乐的GPT4时刻。
对于用户来讲,天工SkyMusic能干啥?对于像我这样的普通用户来讲,天工SkyMusic出现最大的意义就是获取音乐的成本大幅度降低。无需懂乐理,无需编曲,配器,只要打开APP点两下,瞬间就可以完成以前几天的工作量。
这就大大激发了大家的创作热情,像什么重金属《生日快乐歌》只不过小儿科,相信在天工SkyMusic在开放后,将会有更多"惊世骇俗"的作品产生。到时候,短视频的BGM很可能就某一首来自AI的作品。
对内容创作者来讲,它可能更重要一些,除了不用花重金购买BGM外,也节省了大量寻找和整理BGM的时间。
至于音乐行业内的用户,天工SkyMusic则能带来效率上的极大提升。想要改编,或者参考一些歌曲,那么现在交给AI就行了。
在不久以后,对于行业工作者来说,也许只要给AI一些基础的提示,它便会进行自动的和声和配乐工作,像什么前奏、间奏、尾奏也统统一步解决。
AI的下一站最近在天工SkyMusic的音乐社区中,又出现许多不错的作品,比如谢帝给诺米道歉之歌,听起来比迪士尼更有西海岸的风格。
因为破圈的作品不少,现在网友们都跃跃欲试。值得期待的是,天工SkyMusic将于4月17日正式面向公众免费开放,到时候直接下载天工APP就可以创作音乐。
可以预见,随着开放,各类型二创歌曲将会越来越多。对于AI来讲,今年将会是生成式音频和视频的一年,与ChatGPT这种纯文字相比,音乐和视频需要考虑更多的维度,建立更多的参数,才能保持前一拍和后一拍,前一帧和后一帧的一致性。
这对于各家的模型算法来讲,都是一个不小的挑战,不过从目前的体验来看,天工SkyMusic做的还不错。
而且天工SkyMusic和Suno相比,还有一个非常特别的地方,就是它要先输入一个参考歌曲,这意味着,天工SkyMusic可以对用户上传的歌曲进行分析。
如果扩展下应用场景,它甚至可以作为一名不错的音乐教师出现,当你输入一首歌曲,节奏、配器、风格直接给出,并且以此来教给你伴奏,或者相关的乐理技巧。
如果推理的速度足够快,算法足够聪明,AI可以对用户的歌声,乐器的弹奏进行实时的监督和辅导,就像某某学习机一样。同样的情景,也可以发生在视频类AI上。
在去年年末,不少AI领域的大佬都认为今年是属于多模态的一年,看来的确是这个样子。就连老黄前一阵在斯坦福的演讲中,也讲到,未来的内容都是即时生成的,也就是说,大家不用去上网看别人上传的内容了,只要张张嘴,打打字,想看什么,AI就给你生成了。
这次的天工SkyMusic多少有点那味儿了,继续期待接下来大家还能整出什么活儿。