目前,AI可以生成多种形式的高质量内容,包括文字(OpenAI的GPT3)、图片(谷歌的Imagen)、视频(Meta的Make-A-Video)等。
各大科技公司在生成式AI上“各显神通”,AI在内容创作上不断突破人们想象力极限,也在逐步“削弱”人类的创造力优势。
近日,谷歌又开发出一种音频生成AI。此名为AudioLM的模型只通过收听音频即可生成逼真的语音和音乐。
(来源:谷歌)
AI生成的音频其实很常见,像生活中用到的语音助手使用自然语言处理声音。OpenAI曾开发名为Jukebox的AI音乐系统也令人印象深刻。
但过去用AI生成音频,大都需要人们提前准备转录和标记基于文本的训练数据,这需要耗费极大时间和人力。
而谷歌在其官方博文中表示:“AudioLM是纯音频语言模型,无须借助文本来训练,只是从原始音频中进行学习。”
相较之前的类似系统,AudioLM生成的音频在语音语法、音乐旋律等方面,具有长时间的一致性和高保真度。
9月7日,相关论文以《AudioLM:一种实现音频生成的语言建模方法》(AudioLM:aLanguageModelingApproachtoAudioGeneration)为题提交在arXiv上。
正如音乐从单个音符构建复杂的音乐短语一样。生成逼真的音频需要以不同比例表示的建模信息。而在所有这些音阶上创建结构良好且连贯的音频序列是一项挑战。
据了解,音频语言模型AudioLM的背后利用了文本到图像模型的进步来生成音频。
近年来,在大量文本上训练的语言模型,除了对话、总结等文本任务,也在高质量图像上展示出优秀的才能,这体现了语言模型对多类型信号进行建模的能力。
但从文本语言模型转向音频语言模型,仍有一些问题需要解决。比如,文本和音频之间不是一一对应关系。同一句话可以有不同风格的呈现方式。此外,谷歌还在其