Jukebox 实现了哪些突破?
截至 Jukebox 之前,已知的基于机器学习的音乐生成技术,已经能够整合多种乐器的音色,生成复杂的音乐。
但是有一件事一直以来困扰着研究者:用人工智能无法生成音乐中重现人声,捕捉不同人的不同的音色和声音动态和表达风格。
研究者们试过一些手段,比如在符号层面生成再用音频渲染,或者采用风格迁移的方式,但是效果都不好。
OpenAI 决定采用直接在原始音频层级(音频文件的数字浮点层面)上开展工作。但是如果用 44.1kHz率,就意味着每秒钟有4.41万次采样,计算量太大。所以他们决定采用 VQ-VAE (vector quantization variational autoencoder),一种可以用于图像、音频和语言的,编码-解码式的生成模型。
OpenAI 的实现逻辑,简单来说就是先把原始音频编码成数据,训练,然后再用解码器重建成音频。
也正是通过这种方式,Jukebox 在更高工作效率和歌曲拟真程度基础上,还能生成多变的、以假乱真的人声。
论文中的流程图:
更容易理解的示意图:
硅星人:(ID:guixingren123)
从科技到文化,从深度到段子,硅星人为你讲述关于硅谷的一切。