重金属《生日快乐歌》，女团版《新造的人》，这届AI玩得有点花

《新造的人》，但是女团版

清明假期，哪里都是人从众，早就预判这一波的我，躲在家里狠狠的补了之前落下的电影。

在看《周处除三害》时，阮经天在礼堂化身兰博那一段戏，深深的震撼了我，这就导致我每次听到"曾经我茫然前行"时，汗毛直接起立。

不过就在前几天，同事给我分享了一版特殊的《新造的人》，大家听听，是不是比原版活泼可爱多了，有种青春女团的Style。

这个版本的《新造的人》直接治好了我的PTSD！

不过这并不是某个女团的新歌，也不是什么网红翻唱，而是百分之百由AI生成的！

生成式音乐绝对是近期最火的AI应用类型，不像Sora，从Suno到Stable Audio2.0，每一个音频应用都是实打实的可上手。

可以说，相较于视频，音频的GPT时刻已经更快地到来了！

不过上面那首"女团版"的《新造的人》，并不是国外AI模型的作品，而是来自国内大厂昆仑万维的AI音乐大模型——天工SkyMusic。

它也是目前国内第一且唯一公开可用的音乐生成的大模型，作为AI界的gai溜子，我们也是第一时间玩了起来，除了《新造的人》，我们还试了一些其它非常有意思的东西。

金属版的《生日快乐歌》，你听过吗？

天工SkyMusic目前被集成在天工AI这个APP中，无论是iOS还是安卓，打开就可以看到"音乐"这个入口。制作过程非常简单，开始写歌➡输入歌词➡选择一首参考歌曲➡打完收工。

那首《新造的人》就是网友把原版歌词输进去，参考了《今晚派对》，然后就得到了欢乐又洒脱的另一版。

不过对于音痴的我来讲，歌词是我能控制最多的步骤，所以除了复制一些现成的歌词外，我还是选择自己创造一些"传世佳作"。

比如把剁椒鱼头的菜谱作为歌词放进去，然后选择一首Rap作为参考，就得到下面这首非常有趣的歌曲，不得不说，它的这个中文发音非常地道，与我之前在Suno中生成的对比下，你会发现，还是中国人最懂中国人，天工SkyMusic的发音要比Suno好上不少。

除了把菜谱做成歌这种整活外，天工SkyMusic在许多地方还是可以派上大用场的。最近同事过生日，我直接做了一首重金属版的《生日快乐歌》给他，好不好听不重要，但这绝对是他这辈子听过最激昂的祝福。

当然，不仅是同事，情侣纪念日，朋友结婚我相信天工SkyMusic都能带来一些"意想不到"的效果。

除了有歌词的歌曲，天工SkyMusic还可以生成一些纯旋律的音乐，比如我把《今夜无人入睡》的纯伴奏输进去，就可以得到和它风格很类似的纯音乐。

再比如我输入一段电影预告片里常常出现那种气势非常恢弘的BGM，然后就可以得到类似的乐曲。要知道，在AI之前，我花了一百多美金，在Humble Bundle上购买了几十首的BGM，为的就是在拍短视频时候能用上，而现在，你只需要输入一首与你想要风格类似的乐曲，理论上你就可以得到无数首同类型的音乐。

试用到这里，不得不再次感叹，音乐的GPT时刻真的来了！

天工SkyMusic的背后是DiT

让天工SkyMusic达到如此可用的背后，是和Sora同源的DiT结构。

简单来讲，就是Transformer和Diffusion两个模型相互协作，Transformer负责分析参考歌曲，生成与原曲曲风相近的旋律，而Diffusion负责演唱，最终把高质量的歌曲还原出来。

目前天工SkyMusic生成的都是44.1KHz的高采样率的立体声音频。把生成歌曲下载下来以后，是带有歌词和根据歌曲内容生成背景图的视频，这点可以说是非常贴心了。

截止到我测试完成时，参考音乐中已经汇聚了网友们上传的各类歌曲，因此，在没有指定需求的情况下，使用这些歌曲，也能得到非常不错的效果。

另外就是目前对于歌词字数有着最小限制，每次创作需要输入50个以上才行。这就导致创作一些歌词少，或者纯旋律的音乐时，需要用空格来代替剩余的字数，这多少用起来还有些蛋疼。

不过对于处在内测的APP来讲，这些应该都是小问题，随着产品的不断迭代，应该很快就能更新解决这几个小痛点。

说回到AI，相信很多人跟我一样，没想到视频和音乐的生成式AI能有如此快的发展。在去年的此时此刻，我们讨论的还是GPT4的神奇，而现在，我们已经畅想用Sora制作电影，用天工SkyMusic来创作歌曲。

如果说Sora是视频的GPT4.0，那么我认为像天工SkyMusic此类的音乐AI还处在GPT3.5阶段。比如，在曲风的精细控制上，还有较大的进步空间，当我想指定详细的风格，乐器，甚至情绪，现阶段它还做不到。

在歌词上，如果能根据旋律或者一个主题自动生成，或者自动补全一段音乐，那生成音乐的门槛将将降低很多。

最后，就是有关审美，从上面的几个例子可以听出来，AI目前的作品，还只是处于一个刚跨入"能听"的门槛，距离"好听"还有一段距离。不过随着投喂给模型的好作品足够多，不久我们也会迎来音乐的GPT4时刻。

对于用户来讲，天工SkyMusic能干啥？

对于像我这样的普通用户来讲，天工SkyMusic出现最大的意义就是获取音乐的成本大幅度降低。无需懂乐理，无需编曲，配器，只要打开APP点两下，瞬间就可以完成以前几天的工作量。

这就大大激发了大家的创作热情，像什么重金属《生日快乐歌》只不过小儿科，相信在天工SkyMusic在开放后，将会有更多"惊世骇俗"的作品产生。到时候，短视频的BGM很可能就某一首来自AI的作品。

对内容创作者来讲，它可能更重要一些，除了不用花重金购买BGM外，也节省了大量寻找和整理BGM的时间。

至于音乐行业内的用户，天工SkyMusic则能带来效率上的极大提升。想要改编，或者参考一些歌曲，那么现在交给AI就行了。

在不久以后，对于行业工作者来说，也许只要给AI一些基础的提示，它便会进行自动的和声和配乐工作，像什么前奏、间奏、尾奏也统统一步解决。

AI的下一站

最近在天工SkyMusic的音乐社区中，又出现许多不错的作品，比如谢帝给诺米道歉之歌，听起来比迪士尼更有西海岸的风格。

因为破圈的作品不少，现在网友们都跃跃欲试。值得期待的是，天工SkyMusic将于4月17日正式面向公众免费开放，到时候直接下载天工APP就可以创作音乐。

可以预见，随着开放，各类型二创歌曲将会越来越多。对于AI来讲，今年将会是生成式音频和视频的一年，与ChatGPT这种纯文字相比，音乐和视频需要考虑更多的维度，建立更多的参数，才能保持前一拍和后一拍，前一帧和后一帧的一致性。

这对于各家的模型算法来讲，都是一个不小的挑战，不过从目前的体验来看，天工SkyMusic做的还不错。

而且天工SkyMusic和Suno相比，还有一个非常特别的地方，就是它要先输入一个参考歌曲，这意味着，天工SkyMusic可以对用户上传的歌曲进行分析。

如果扩展下应用场景，它甚至可以作为一名不错的音乐教师出现，当你输入一首歌曲，节奏、配器、风格直接给出，并且以此来教给你伴奏，或者相关的乐理技巧。

如果推理的速度足够快，算法足够聪明，AI可以对用户的歌声，乐器的弹奏进行实时的监督和辅导，就像某某学习机一样。同样的情景，也可以发生在视频类AI上。

在去年年末，不少AI领域的大佬都认为今年是属于多模态的一年，看来的确是这个样子。就连老黄前一阵在斯坦福的演讲中，也讲到，未来的内容都是即时生成的，也就是说，大家不用去上网看别人上传的内容了，只要张张嘴，打打字，想看什么，AI就给你生成了。

这次的天工SkyMusic多少有点那味儿了，继续期待接下来大家还能整出什么活儿。

玩酷网

重金属《生日快乐歌》，女团版《新造的人》，这届AI玩得有点花

酷玩实验室