言语

视觉效果言语码数据

Lip2Wav：仅通过嘴唇移动即可生成语音信号

Lip2Wav：仅通过嘴唇移动即可生成语音信号

视觉效果, 言语, 码, 数据

我听说过一些故事，如果您接受了特殊的培训，您就可以通过嘴唇的移动来知道您在说什么，但是链接中的研究是通过AI实现的。

Lip2Wav：仅通过嘴唇移动即可生成语音信号

FastSpeech2开源

TensorflowTTS是基于Tensorflow 2的开源，它支持几种最新的TTS模型，例如Tacotron2，MelGan，FastSpeech等，终于开始支持Microsoft FastSpeech2。 FastSpeech2表现出与Transformer系列TTS类似的性能，但是学习时间却超过两倍。

视觉效果言语码

Lip2Wav：仅通过嘴唇移动即可生成语音信号

Speech2根据语音信号进行人脸预测

视觉效果, 言语, 码

麻省理工学院的Speech2Face是一项通过语音信号生成说话者面部的研究。但是，它不使用一种模型执行语音到面对面的转换，而是将现有研究的结果用于不同目的进行组合以产生令人印象深刻的结果。（第一作者现在是...

Lip2Wav：仅通过嘴唇移动即可生成语音信号

Google MixIT AI-无监督学习声源的分离

由Google推出的MixIT AI是一项技术，该技术从混合了多个声源的单声道音频中获得单独的声源。它可以看作是盲目的源分离任务，并且与现有技术不同，它具有在无监督（！）的情况下提供出色性能的功能。

Lip2Wav：仅通过嘴唇移动即可生成语音信号

Wav2Vec 2.0公开-创建具有10分钟语音的ASR

在对53,000小时的未标记数据进行了表示训练之后，发布了Facebook的wav2vec 2.0的预训练模型，该模型成为热门话题，因为它创建了仅带有10分钟标记数据的语音识别器。表示模型没有微调，...

视觉效果言语相互作用数据

Lip2Wav：仅通过嘴唇移动即可生成语音信号

RAVDESS-多模态情感数据

视觉效果, 言语, 相互作用, 数据

有许多复杂的人类情感感知和表达方式（例如，愤怒的情感会影响面部表情，声音和语言），这是一个开放的数据集，其中音频视频捆绑在一起并进行了情感标记。瑞尔森...