在使用53,000小时的未标记数据进行了表示训练之后,发布了Facebook的wav2vec 2.0的预训练模型,该模型成为热门话题,因为它创建了仅带有10分钟标记数据的语音识别器。
表示模型中没有进行微调,10分钟,100小时和960小时微调的版本已发布。也许主要的兴趣之一是韩语的应用,但我很兴奋,因为它在没有大量数据的情况下显示出出色的性能。现在,我认为语音识别技术也将走向普及。
相关文章为“ wav2vec 2.0:语音表示的自我监督学习框架”,由以下链接共享。
wav2vec 2.0:语音表示自我监督学习的框架
我们第一次展示了从语音中学习有力的表征
仅音频,然后对转录语音进行微调,性能会优于
最佳的半监督方法,同时在概念上更简单。 wav2vec 2.0
掩盖潜在空间中的语音输入并解决对比度问题
仅音频,然后对转录语音进行微调,性能会优于
最佳的半监督方法,同时在概念上更简单。 wav2vec 2.0
掩盖潜在空间中的语音输入并解决对比度问题
基本上,表示学习是使用大量未标记的数据执行的,而语音识别器是通过稍后对少量标记的数据进行微调来完成的。据说,与现有的wav2vec相比,wav2vec 2.0通过采用变压器结构提高了性能。查看已发布的实验结果,使用53,000小时(!)的未标记数据进行表示训练,并使用10分钟(平均12.5秒x 40句子)的LibriSpeech WER 5.7(纯净值)/10.1的标记数据进行其他学习。 (嘈杂)级别。如果您读了40句话,那么语音识别器正在滴答作响,真是令人惊讶。 (使用所有LibriSpeech培训数据的WER 1.9 / 3.5)
考虑到标签是制造语音识别器的主要障碍,因此从许多方面来看,这是一项非常有意义的研究。下面的链接分别是来自Wav2Vec 2.0 github和VectureBeat的文章。
Facebook声称wav2vec 2.0拥有10分钟的标记数据,可在语音识别性能方面达到最高
Facebook研究人员在一份新论文中详细描述了wav2vec 2.0,表面上实现了最先进的语音识别性能。