AI终于攻破音乐:新歌金曲都能高仿,还会唱Rap

2022年12月1日11:50:25 发表评论
摘要

Jukebox 实现了哪些突破?截至 Jukebox 之前,已知的基于机器学习的音乐生成技术,已经能

Jukebox 实现了哪些突破?

截至 Jukebox 之前,已知的基于机器学习的音乐生成技术,已经能够整合多种乐器的音色,生成复杂的音乐。

但是有一件事一直以来困扰着研究者:用人工智能无法生成音乐中重现人声,捕捉不同人的不同的音色和声音动态和表达风格。

研究者们试过一些手段,比如在符号层面生成再用音频渲染,或者采用风格迁移的方式,但是效果都不好。

OpenAI 决定采用直接在原始音频层级(音频文件的数字浮点层面)上开展工作。但是如果用 44.1kHz率,就意味着每秒钟有4.41万次采样,计算量太大。所以他们决定采用 VQ-VAE (vector quantization variational autoencoder),一种可以用于图像、音频和语言的,编码-解码式的生成模型。

OpenAI 的实现逻辑,简单来说就是先把原始音频编码成数据,训练,然后再用解码器重建成音频。

也正是通过这种方式,Jukebox 在更高工作效率和歌曲拟真程度基础上,还能生成多变的、以假乱真的人声。

论文中的流程图:

更容易理解的示意图:

硅星人:(ID:guixingren123)

从科技到文化,从深度到段子,硅星人为你讲述关于硅谷的一切。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: