Lip2Wav:仅通过嘴唇移动即可生成语音信号
我听说过一些故事,如果您接受了特殊的培训,您就可以通过嘴唇的移动来知道您在说什么,但是链接中的研究是通过AI实现的。
TensorflowTTS是基于Tensorflow 2的开源,它支持几种最新的TTS模型,例如Tacotron2,MelGan,FastSpeech等,终于开始支持Microsoft FastSpeech2。 FastSpeech2表现出与Transformer系列TTS类似的性能,但是学习时间却超过两倍。
麻省理工学院的Speech2Face是一项通过语音信号生成说话者面部的研究。但是,它不使用一种模型执行语音到面对面的转换,而是将现有研究的结果用于不同目的进行组合以产生令人印象深刻的结果。 (第一作者现在是...
由Google推出的MixIT AI是一项技术,该技术从混合了多个声源的单声道音频中获得单独的声源。它可以看作是盲目的源分离任务,并且与现有技术不同,它具有在无监督(!)的情况下提供出色性能的功能。
在对53,000小时的未标记数据进行了表示训练之后,发布了Facebook的wav2vec 2.0的预训练模型,该模型成为热门话题,因为它创建了仅带有10分钟标记数据的语音识别器。表示模型没有微调,...