谷歌开发音频生成模型,创造似真实声音的A

目前，AI可以生成多种形式的高质量内容，包括文字（OpenAI的GPT3）、图片（谷歌的Imagen）、视频（Meta的Make-A-Video）等。

各大科技公司在生成式AI上“各显神通”，AI在内容创作上不断突破人们想象力极限，也在逐步“削弱”人类的创造力优势。

近日，谷歌又开发出一种音频生成AI。此名为AudioLM的模型只通过收听音频即可生成逼真的语音和音乐。

（来源：谷歌）

AI生成的音频其实很常见，像生活中用到的语音助手使用自然语言处理声音。OpenAI曾开发名为Jukebox的AI音乐系统也令人印象深刻。

但过去用AI生成音频，大都需要人们提前准备转录和标记基于文本的训练数据，这需要耗费极大时间和人力。

而谷歌在其官方博文中表示：“AudioLM是纯音频语言模型，无须借助文本来训练，只是从原始音频中进行学习。”

相较之前的类似系统，AudioLM生成的音频在语音语法、音乐旋律等方面，具有长时间的一致性和高保真度。

9月7日，相关论文以《AudioLM:一种实现音频生成的语言建模方法》（AudioLM:aLanguageModelingApproachtoAudioGeneration）为题提交在arXiv上。

正如音乐从单个音符构建复杂的音乐短语一样。生成逼真的音频需要以不同比例表示的建模信息。而在所有这些音阶上创建结构良好且连贯的音频序列是一项挑战。

据了解，音频语言模型AudioLM的背后利用了文本到图像模型的进步来生成音频。

近年来，在大量文本上训练的语言模型，除了对话、总结等文本任务，也在高质量图像上展示出优秀的才能，这体现了语言模型对多类型信号进行建模的能力。

但从文本语言模型转向音频语言模型，仍有一些问题需要解决。比如，文本和音频之间不是一一对应关系。同一句话可以有不同风格的呈现方式。此外，谷歌还在其