参考资料编译自:Qubits in the Heart of the Machine
大家好,
我写了很多关于视觉算法的文章,朋友们总是问我是否有关于音频的有趣项目。
今天我给大家介绍两种算法。
音乐源分离
老粉丝应该都看到了我介绍的这个算法。 在歌曲中,该算法可用于分离人声和伴奏。
比如《Stay》的原音是这样的:
伴奏和人声很容易分开。 我们来听一下效果:
人声有清晰的空旷无伴奏清唱感,背景音乐可直接混音剪辑!
神器,好消息!
这一惊人的效果也在Reddit上引发了热议:
这项研究的主要负责人孔秋强来自字节跳动,去年他还牵头发布了全球最大的古典钢琴数据集GiantMIDI-Piano。
AI音乐家是真实存在的,可以查看官方演示效果。
该算法已开源,有编程能力的人可以直接运行代码。
项目地址:
没有编程基础也没关系,项目提供了在线可玩的网页。
试用页面:
关于算法原理,可以看我之前写的文章:
基因直播
上面介绍的算法是去年的工作。 给大家介绍一下今年的新作,Gené Live。
知名偶像项目LoveLive,你知道吗? 他们发表了一篇人工智能论文。
生成模型自动写乐谱,乐谱是AI写的~
近日,预印本论文平台arXiv上的一篇论文引起了人们的关注。 其作者来自游戏开发商KLab和九州大学。 他们提出了一种自动为偶像歌曲创作乐谱的模型。 更重要的是游戏图片素材,作者表示这种方法实际上已经被使用了很长时间。
感谢LoveLive! 这是一个历时12年的项目,包括四个团体和几个小组,以及个人和角色歌曲。 许多歌曲都会出现在游戏中。 设计相应的乐谱已经成为一项非常具有挑战性的任务。
随意搜索就会发现数千首歌曲。 也许您听过的一首歌曲是使用人工智能编写的乐谱。
通过深度学习技术,AI算法在图像分类、语音识别等任务中具有出色的表现。 然而,机器学习在理解复杂和非结构化数据方面面临更大的挑战,例如理解音频、视频和文本内容。 以及它们产生的机制。 物理学家费曼曾经说过:“凡是我自己无法创造的东西,我都没有真正理解。”
随着技术的发展,深度生成模型在学术界和工业界得到了广泛的应用。 在当今的游戏开发过程中,生成模型正在帮助我们构建从图形、声音、角色动作、对话、场景到关卡设计的一切内容。
KLab等机构提交的论文介绍了他们自己的节奏动作游戏的生成模型。 KLab Inc 是一家智能手机游戏开发商。 该公司的在线节奏动作游戏包括《Love Live!》 《大学偶像季:星光闪耀》(简称LLAS)已以6种语言在全球发行,并获得了数千万用户。 已经有一系列具有类似影响的类似游戏,使得该作品与大量玩家具有高度相关性。
在 LLAS 中,开发人员面临的挑战是为不同的歌曲生成乐谱,提示玩家在不同的时间点击或拉动琴键,这一挑战定义了节奏音乐游戏。 在游戏过程中,浮动按钮称为音符,它们形成类似于乐谱的空间图案,与背景中播放的歌曲的节奏相对应。 一首歌曲有不同的难度模式,从初级、中级、高级、专家到挑战,难度依次递增。
游戏开发者表示,他们的做法是通过AI辅助的半自动方法:首先AI生成乐谱ai游戏引擎程序设计 pdf,然后KLab艺术家对其进行微调。 另一种方式是AI生成低难度的乐谱,游戏设计师在此基础上进行设计。 难度高。
KLab 表示 GenéLive! 他们使用的模型成功地将业务成本降低了一半。 该模式已部署在公司的日常业务运营中,并将在可预见的未来继续应用。
降低乐谱生成成本对于在线音乐游戏开发商来说是一个重要挑战,因为它是日常运营的瓶颈。 KLab 提出的方法可以仅使用音频直接生成乐谱。
在研究过程中,开发者首先提出了舞蹈卷积(DDC),它生成了人类水平较高的乐谱和较高难度的游戏模式,但较低的难度效果不佳。 研究人员随后改进了数据集和多尺度卷积堆栈架构,并成功捕获了乐谱中四分音符之间的时间依赖性,以及八分音符和提示节拍的位置,这些位置是关键位置的更好位置音乐游戏。 机会。
DDC由两个子模型组成:onset(生成音符的时机)和sym(决定音符类型,例如tap或slide)
目前使用的AI模型在所有困难的分数上都取得了不错的成绩,研究人员也期待将该技术扩展到其他领域的可能性。
论文链接:
KLab应用深度生成模型来合成乐谱并改进乐谱制作流程游戏素材,将业务成本削减一半。 该研究阐释了如何借助节拍等克服挑战,并使用 GenéLive!(一种专门用于节奏动作的新多尺度模型)来克服挑战,并使用 KLab 的生产和开放数据集进行评估。
方法
此前,KLab 分数生成工作流程的开发并未考虑自动化,也很少有明确的规则或数学优化目标。 因此,本研究选择使用监督机器学习。 截至 2019 年底,KLab 已发布了数百首歌曲的音频序列和相应的人类生成的乐谱。
一方面,这个项目需要快速交付和协助; 另一方面,该项目的目标具有挑战性,旨在改进SOTA深度生成模型。 通常,研究新的神经网络架构需要大量的试验和错误,这个过程可能需要六个月或更长时间。
为了解决时间问题,研究组织了模型开发团队和模型服务团队,通过与美术团队保持联系来获取反馈,反映到模型开发和服务中,尽快提供更新的模型,从而保持它们一致。
GenéLive! 的基本模型由卷积神经网络CNN层和长短期记忆网络LSTM层组成。 对于频域的信号,作者使用CNN层来捕获频率特征ai游戏引擎程序设计 pdf,对于时域的信号,使用LSTM层来完成任务。
这里,卷积堆栈(conv-stack)的主要任务是使用 CNN 层从梅尔谱图中提取特征。 卷积堆栈由具有批标准化的标准 CNN 层、最大池化层和 dropout 层组成,激活函数为 ReLU。 最后,为了标准化输出,这里使用了全连接层。
BiLSTM 用于时域,提供前一个 conv-stack 的输出作为输入。 为了实现不同的难度模式,作者将难度编码为标量(初学者为 10,中级为 20,依此类推),并将该值作为新特征附加到 convstack 的输出中。
在训练数据方面,GenéLive! 使用了数百首 LLAS 早期歌曲、《歌之王子大人》中的歌曲,以及来自音乐游戏引擎“Stepmania”的公开音乐和乐谱。
模型开发
该模型是 KLab 和九州大学之间的合作。 两个团队之间需要一个基于Web的协作平台来共享源代码、数据集、模型、实验等。具体来说,本研究中用于模型开发的系统架构如下图所示。
模型服务
为了让乐谱生成程序能够按需供艺术家使用,艺术家应该能够轻松地自行使用,而无需人工智能工程师的帮助。 而且由于该程序需要高端 GPU,因此将其安装在艺术家的本地计算机上并不是一个合适的选择。 模型服务系统架构如下图所示。
实验结果
为了测量该方法中每个组件的性能,研究人员在“Love Live! All Stars”数据集上进行了消融实验。
下表 3 中的结果表明 GenéLive! 模型优于之前的SOTA模型DDC。
为了评估节拍引导的作用,消融实验的结果如下图 9 所示。
使用未修改版本的 conv-stack 训练模型与当前 GenéLive 的结果差异! 模型如下图所示。
基因直播! 模型同时在所有难度模式上进行训练,以便看到这种训练方法的优势。 该研究将其与单独训练每种难度模式的结果进行了比较,结果如下所示。
LoveLive! 策划的活动! 包括动画、游戏和现实生活中的偶像团体。 音乐游戏《Love Live!学园偶像祭》自2013年开始运营,截至2019年9月在日本拥有超过2500万用户。新一代游戏《Love Live!学园偶像祭All Stars》目前拥有数千万用户世界各地的用户。
GenéLive! 的研究也可能让音频游戏在 AI 领域流行起来。