以其集成的自然语言处理程序包而闻名的HuggingFace增加了语音识别。以下是相关链接:
具体来说,添加了Facebook开发的Wav2Vec 2.0,该技术以首先使用大量未标记数据的无监督学习而著称,以及仅使用少量标记数据的学习方法。这是Wav2Vec 2.0的简介:
Wav2Vec 2.0公开-创建具有10分钟语音的ASR
在使用53,000小时的无标签数据进行了表示训练之后,发布了针对Facebook的wav2vec 2.0的预训练模型,该模型成为热门话题,因为它创建了仅带有10分钟标签数据的语音识别器。表示模型中没有进行微调,10分钟,100小时和960小时微调的版本已发布。可能最主要的担忧之一是韩语的应用,但可以预期的是,在没有大量数据的情况下,其出色的性能就会显现出来。
Kakao Brain最近发布的Pororo是一个集成软件包,它同时支持自然语言任务和语音识别任务。这是Pororo的简介:
KakaoBrain集成的自然语言框架的Pororo
在Kakao Brain中,Pororo是一个能够响应各种自然语言任务的集成自然语言框架,已作为开源发布。 Pororo代表自然语言处理的神经模型平台,您可以将其视为与HuggingFace相似的目的。 Pororo的优势不仅是针对韩文任务进行了优化,而且还支持诸如语音识别之类的音频处理。这是使用Pororo的简单韩国MRC。
前段时间,宣布了基于变形器执行图像识别和预测任务的示例,并对未来是否会整合自然语言和图像处理方法进行了预测。我个人认为自然语言和声音之间的相似性远高于自然语言和图像。自然语言和语音具有许多共同的元素,因为它们仅在文本和音频形式上有所不同,但最终,它们是表达语言时间序列的方式。 (书面语言与口头语言)因此,我想知道技术融合是否是一种自然选择。