OpenAI的Jukebox AI从头开始制作任何风格的音乐

发布时间:2020-05-11 15:28:00 【来源:

OpenAI今天发布了Jukebox,这是一种机器学习框架,可以生成音乐(包括基本歌曲)作为各种类型和音乐风格的原始音频。通过提供流派,艺术家和歌词作为输入,Jukebox输出从头开始产生的新音乐样本。GitHub上提供了代码和模型,以及用于探索生成的样本的工具。

Jukebox可能不是AI和机器学习的最实际应用,但是正如OpenAI所指出的那样,音乐的产生推​​动了生成模型的发展。在音频级别上合成歌曲具有挑战性,因为序列很长-以CD质量(44 kHz,16位)播放的典型4分钟歌曲具有超过1000万个时间步长。结果,学习音乐的高级语义要求模型处理非常长的依赖关系。

Jukebox通过使用所谓的自动编码器来解决此问题,该自动编码器通过丢弃一些感知上不相关的信息位将原始音频压缩到较低维度的空间。然后可以训练模型以在该空间中生成音频,并向上采样回到原始音频空间。

Jukebox的自动编码器模型使用一种称为矢量量化变化自动编码器(VQ-VAE)的方法来处理音频。三级VQ-VAE将44kHz原始音频压缩8倍,32倍和128倍;最底层的编码(8倍)产生最高质量的重构(以“音乐代码”的形式),而最顶层的编码(128倍)仅保留基本的音乐信息,例如音高,音色和音量。

在Jukebox中训练了一系列先验模型-顶级先验算法,该先验算法生成由VQ-VAE编码的最多压缩的音乐代码,而两个先采样先验算法则合成较少的压缩代码-经过训练,可以学习代码的分布并在压缩后的音乐中生成音乐空间。顶级先验模型对音乐的远程结构进行了建模,因此从其解码的样本具有较低的音频质量,但捕获了高级语义(如唱歌和旋律),而中级和下采样先验则添加了本地音乐结构(如音色,大大改善了音频质量。

使用OpenAI的Sparse Transformers架构的简化变体对120万首歌曲(600,000英文)的语料库进行了模型训练,这些歌曲来自网络,并与歌词和元数据(例如,艺术家,专辑类型,年份,通用)配对心情和播放列表关键字)。每首歌曲都是44.1 kHz的32位,并且OpenAI通过随机混合左右声道以产生单声道音频来增强语料库。

为了让Jukebox适应特定的艺术家和流派,对顶级Transformer模型进行了预测压缩音频令牌的任务训练,这使Jukebox可以在任何音乐风格中获得更高的质量,并允许研究人员指导该模型以以下方式生成:他们的选择。为了向框架提供更具抒情性的上下文,OpenAI开发了一种编码器,该编码器增加了Jukebox音乐解码器中的查询使用层,以处理歌词编码器中的键和值,从而使Jukebox可以更精确地了解歌词和音乐的对齐方式。

Jukebox的模型需要大量的计算和时间来训练:

VQ-VAE包含超过200万个参数(变量),已在256个Nvidia V100图形卡上进行了三天的培训。

包含超过10亿个变量的上采样器在128个Nvidia V100图形卡上进行了为期两周的培训。

包含超过50亿个变量的高级先驱在512个Nvidia V100图形卡上进行了为期四个星期的培训。

在所有这些方面,Jukebox是OpenAI以前的工作MuseNet的重大飞跃,MuseNet探索了基于大量MIDI数据合成音乐的过程。通过原始音频,Jukebox模型学习如何处理多样性和远程结构,同时减少短期,中期或长期时序中的错误。结果还不错。

但是自动存储塔有其局限性。虽然它产生的歌曲在音乐上相当连贯,并具有传统的和弦模式(甚至是独奏),但它们却缺乏重复合唱之类的结构。而且,它们包含明显的噪声,并且从模型中采样的速度非常慢,渲染一分钟的音频需要9个小时。

幸运的是,OpenAI计划将Jukebox的模型提炼成并行采样器,以“显着”加快采样速度。它还打算对点唱机进行英语和西方以外其他语言和世界其他地区歌曲的培训。

“我们的音频团队将继续致力于根据不同类型的启动信息生成音频样本。特别是,我们已经看到在MIDI文件和词干文件上取得成功的前提条件,” OpenAI写道。“我们希望这将改善采样的音乐性(通过调节歌词来改善演唱),这也将是一种使音乐家对世代具有更多控制权的方式。我们希望人与模型的合作将成为一个越来越令人兴奋的创意空间。”

音乐AI正在快速发展。在2018年末,Google Brain的“ Magenta项目”致力于“探索机器学习在创作过程中的工具作用”,提出了Musical Transformer,该模型能够生成具有可识别重复性的歌曲。去年三月,谷歌发布了一种算法谷歌涂鸦,使用户可以向巴赫创作旋律。

中国联通:已累计开通5G基站33.2万站 到今年年底预计超过38万个
饿了么现已入驻1000所高校食堂 校园内平均20分钟送达
谷歌在西雅图附近规划新园区 在亚马逊和微软总部所在地扩大触角
我国国家顶级域名“.CN”数量超过2300万个 IPv6规模化部署提速
邬贺铨:截至8月我国IPv6活跃用户达3.65亿 占互联网用户之比达40.32%
苹果、谷歌、英特尔等公司已经加入行业组织美国“6G联盟”
微软今天正式终止Win7嵌入式系统支持 花钱可买三年补丁
OPPO将发布首款概念级应用OPPO CybeReal 针对AR领域

[ 最新资讯 ]

始祖鸟之家双面派对,设计师系列惊艳亮相

  11月24日,被誉为户外爱马仕的始祖鸟(ARC’TERYX)全新概念店——始祖鸟之家在全国顶级商圈北京国贸开业了。现场门店实拍图片   ...

曝小米显示器34寸本月最后一单出货后将暂停供应 因三星无屏供应原因

  本月初,视讯堂消息称小米的 34 寸带鱼屏显示器型号,之后可能无法再保持 1999 元的价格进行销售。今天,视讯堂发布最新消息,称小 ...

微星Stealth 15M超轻游戏本纯净白即将上架 屏幕为15.6英寸

  根据微星笔记本官方的消息,微星 Stealth 15M (纯净白)即将上架预约,这款笔记本是首款采用 11 代低压酷睿 + RTX 2060 配置的 ...

EG7今天宣布收购《机甲战士5》开发商Piranha Games 增加其游戏公司种类

  Enad Global 7(EG7)今天(11 27)宣布收购《机甲战士5》开发商Piranha Games,增加了其游戏公司的种类。  EG7已同意以2410万美元的 ...

华米将推出GTS 2 mini手表:将于12月1日发布 外观更轻薄更精致

  根据华米创始人黄汪的消息,华米将推出 GTS 2 mini 手表,外观更轻薄更精致。    根据华米微博的消息, GTS 2 mini 手表将 ...

冬季必看的小黑裤穿搭指南|九牧王男裤专家

  伴随着秋冬而来的除了购物欲还有穿搭热情,但如果你正苦于衣服少、缺乏穿搭灵感,那么,一条百搭、舒适的九牧王小黑裤,或许可以帮到你,只 ...