「点击上方"GameLook"↑↑↑,订阅微信」
以ChatGPT、Midjourney等为代表大模型AI产品在公众中的迅速走红,标志了这一轮AIGC应用的技术爆发。但这些文生图、文生文赛道的成功产品的万丈光芒之下,人们似乎忽视了另一条探索起步更早、重要性也并不逊色的AIGC赛道:音乐和音效。
人类对利用计算机作曲的技术探索源远流长。早在1960年,俄罗斯学者Rudolf Zaripov就发表了历史上首篇利用计算机算法进行谱曲的论文。2012年,西班牙马拉加大学利用仿生学技术打造了作曲计算机Iamus,随后与伦敦交响乐团合作推出了首张由AI作曲的现代古典乐专辑《Iamus》。
作曲电脑Iamus
而在大模型时代到来前,市面上早已出现多款利用深度学习、机器学习等人工智能技术赋能的商业化AI音乐生成产品。其中较为知名的包括成立于2014年的Amper Music,该公司随后并入商业媒体内容库公司Shutterstock,为其提供自定义音乐生成服务。
另一款产品AIVA则凭借出色的生成性能,在2017年被法国的作曲家权利协会SACEM认证为首个“AI作曲家”。类似产品还包括被TikTok收购的Jukedeck、拥有文生音频能力的Mubert等。
而不少AI技术公司也跃跃欲试,通过切入这条赛道。如OpenAI此前曾推出过音频产品Jukebox,谷歌也在今年1月推出专攻音乐生成的大语言模型MusicLM。这些产品目前还仅以技术原型的形式存在,但从官方演示的生成效果上来说,俨然已经有模有样。
作为结合声光效的综合型娱乐媒介,游戏公司们都在快速上马AIGC开发流程。但GameLook不禁好奇:AI究竟将何时、以何种形态落地于游戏音频开发应用层?
AIGC如何助力解决游戏音频三大需求?
要解决这个问题,我们需要梳理实际游戏开发流程中的声音需求。在游戏开发中所需使用到的声音类内容大体可以被拆分为三个主要大类:角色配音、音效与配乐。而根据类别的不同,AIGC技术可行的应用深度也不尽相同。
在眼下的角色配音领域,AIGC早已出现了不少的现成的用例,表现出了极高的应用潜力——这很大程度上得益于TTS(语音合成)技术的飞速发展。如今,AI驱动的语音合成已经很大程度上克服了分句、语调等带来的“机械味”,并可以实现较为初步的抑扬顿挫与情感表达。
玩家对《未定事件簿》AI角色“莫弈”做出的点评
如《未定事件簿》、《时空中的绘旅人》等头部产品早从去年起就上马了小部分AI声优试水。针对AI语音的实装效果,玩家们给出了普遍好评。尽管配音效果在细腻度上尚无法完全与专业声优相匹敌,但在日常语音等低权重场景,AI合成语音已然可以覆盖掉大部分需求。而像地图导航播报语音、有声书、甚至买量素材等高语音需求量的场景中,AI合成语音已然开始逐步投入应用。
而在音效方面,对音效品质要求不高的公司如今大多会购买或使用免费音效库来填充游戏声音微信游戏制作平台,另一部分厂商则采取自行制作或外包给第三方Foley团队的形式制作游戏中的音效。而随着游戏题材多元化发展,仙侠、奇幻、二次元题材中的音效往往没有现实原型。在这种情况下,想要凭借统一的大模型在兼顾高品质的情况下产出合用的音效,并非易事。
但这并不意味着这一场景无法被AI渗透。某二次元头部大厂的相关负责人在近期的研报问答中表示,目前的音效合成主要采取由调音师在音房中创作demo的形式,容易造成灵感枯竭。而该公司正在实验通过AIGC生成多种不同风格Demo的形式,为音效师提供创作灵感和原型,进而加速创作过程。
在配乐方面,随着游戏精品化趋势的铺开,如米哈游、鹰角等头部公司如今已将游戏配乐打造为稳固游戏世界观、建立情感连接、延申线下活动的重要载体,而生成式AI较为难以满足这类高价值需求。
但另一方面,如微信小游戏、超休闲这类轻叙事、低成本的品类往往对游戏配乐没有过高需求。在传统上,这类开发者会采取向商业曲库购买音轨的方式,而生成式大模型的出现,为这一类游戏配乐的创作开启了无穷的想象空间。
自然语言交互:AIGC配乐创作究竟长啥样?
相较于此前的AI技术进步,本轮生成式AI的热潮将“自然语言输入”的概念进行了广泛普及。通过自然语言prompt向AI描述自己的需求进而实现定向生成,是眼下人们与AI互动的标准形式。这意味着微信游戏制作平台,在商业曲库中逐个轨道试听,苦苦寻找与自己游戏产品调性一致的配乐的日子即将成为过去式地图场景,未来的游戏开发厂商可以将配乐场景转化为文字Prompt喂给AI,精准返回符合需求的游戏音乐。
而当前,最接近这类使用体验的AIGC音乐商业产品是提供了“文生音乐(text-to-music)”选项的Mubert。一名YouTube博主近日向我们演示了Mubert的生成功能。
如视频所见,Mubert可以被部署到谷歌的云端Google Colab云服务器中运行。用户可以在Prompt一栏指定场景内容、风格、情绪、曲风等内容。此外,用户还可设定生成出的音乐长度,并自由调整是否使其“循环”,这一功能的存在为创作游戏配乐提供了很大的便利。
谷歌在年初发布的大模型MusicLM与Mubert近似,但这款实验性的模型向我们展示了“图生音乐”、片段定制等更高级的AIGC功能,让我们一瞥更广阔的AIGC未来。
在论文中,谷歌演示了多种生成方式,其中“Story Mode”的生成方式允许用户在Prompt中通过加入时间坐标的方式,为每一段生成单独指定内容调性。此外,谷歌还尝试了将知名画作的百科词条输入模型中进行生成。如输入梵高的著名画作《星空》后创作人,MusicLM为我们带来了一段静谧的钢琴独奏,的确符合图片的整体调性。
这让GameLook不禁遐想,而在多模态大模型呼之欲出的未来,或许开发者可以连文字输入词都直接摆脱,将自己游戏场景的图片、乃至游戏的场景和剧情本身直接输入至大语言模型,一步到位地生成最为匹配的游戏配乐。又或者,游戏可以直接摆脱预设音轨的负担,由AIGC引擎根据游戏角色所在的位置和所处的情景进行“涌现式”的生成,真正实现“移步换景”,让每名玩家都能拥有最具个性化的游戏体验。