您现在的位置:首页 > 今日国内 >
模型参数不能超过1亿吗?看看麻省理工学院的兄弟,一小部分数据就能完成高
发稿时间:2020-05-23 10:41:31   来源:网络

辛志远报道

资料来源:十五

编辑:白峰

最近,Reddit上的文本到语音应用变得流行起来。它是由一家名为15.ai的公司推出的。与传统的深层神经网络文本到语音模型不同,它不需要大量原始的语音数据。

高保真音频可以通过少量的训练数据生成

这种文本语音转换工具可以为各种文本生成44.1kHz的语音。语音是使用各种音频合成算法和定制的深层神经网络实时生成的,这种神经网络训练的数据非常少(每个字符的纯音频在30到120分钟之间)。该项目表明,克隆声音所需的音频数量显着地减少了,同时保持了角色的情感。

该工具产生的音频文件的采样率为44100Hz,而基于深度学习的文本到语音实现的大部分采样率为16000hz。因此,使用它产生的音频,声谱将更加详细(更高质量的音频),并且缺陷将更加明显。您可以使用其他音频编辑工具,例如大胆,将生成的音频降到较低的采样率,使音频看起来更人性化,尽管这样做会使音频的声音相对模糊。

如何使用此工具制作自己的音频

在未来,我们将改进这个工具,在改进之前有一个折衷方案,你可以再生成几次,因为神经网络的不确定性,每个产生的音频都会有所不同,你可以选择你最满意的。

当然,在这样一个小语料库上训练的模型也有缺陷,有些单词可能发音不准确,事实上,这也很容易理解,即使是人们,当他们遇到新单词时,他们可能无法准确发音,而传统的深度模型通常有40个小时或更多的语料库,因此错误率会更低。但是对于那些缺乏足够语料库的人来说,这个工具是有用的。

此外,作者还提到了一些技巧,可以帮助提高模型的泛化能力。例如故意添加一些拼写错误、标点符号,或故意扭曲发音,以提高模型的适用性。

不要指望在你第一次尝试的时候就能得到完美的声音。为了产生一个令人满意的发音和语调,你可能需要继续尝试。

我们可以使用这个工具的网页版本来生成我们自己的音频,随机选择一个段落或输入一段文字,一会儿点击播放按钮就可以播放了,赶快试试吧!

参考链接:

https://15.ai