DensePhrases-近实时Wikipedia开放域问答
DensePhrases是高丽大学的Jinjinuk Lee创建的一种开放域问答技术,已发表为题为“大规模学习短语的密集表示”的论文。这是该论文的链接:提出问题时,近600亿个Wikipedia段落中最合适的段落…
DensePhrases是高丽大学的Jinjinuk Lee创建的一种开放域问答技术,已发表为题为“大规模学习短语的密集表示”的论文。这是该论文的链接:提出问题时,近600亿个Wikipedia段落中最合适的段落…
以其集成的自然语言处理程序包而闻名的HuggingFace增加了语音识别。以下是相关链接:具体来说,添加了由Facebook开发的Wav2Vec 2.0,Wav2Vec 2.0首先使用大量未标记的数据来进行无监督学习,并且非常…
通过单张照片创建3D模型的技术已经以MeInGame的名称公开。查看上传到公共存储库的结果,如果没有设计者的工作,它还不足以应用于服务,但是它将大大减少初始建模工作……
Paperswithcode提供有关AI,链接的开源和SOTA领域的各种论文的信息,并提供了3,000多个有用数据集的链接。其中,有851个文本数据集,仅限于韩语...
在Kakao Brain中,Pororo是一个能够响应各种自然语言任务的集成自然语言框架,已作为开源发布。 Pororo代表自然语言处理的神经模型平台,您可以将其视为与HuggingFace相似的目的。 Pororo ...
建立允许人类与虚拟代理进行自然对话的对话系统在自然语言处理中是一项艰巨的任务,并且是进行大量研究的基础。 Ubuntu Dialogue Corpus解决了与Ubuntu相关的各种问题…
自从由多层卷积层组成的AlexNet问世以来,已有许多关于深度学习模型结构的研究。例如,Google Inception使用具有不同内核大小的卷积层,例如3×3、5×5和7×7…
随着深度学习模型的参数数量显着增加,训练所需的内存也随之增加。 OpenAI的GPT-2由1.5B参数组成,而Google的mT5也具有13B参数。另外,OpenAI的GPT-3的参数数量...
随着深度学习模型的规模呈指数增长,不再难于通过一台机器实现可用的学习时间。 GPT-2是一种著名的会话模型,具有约1.5B的参数和800万个...
SuperGLUE是一项挑战,需要针对各种自然语言理解任务评估AI技术的性能。与现有的GLUE相比,它具有较高的难度,并且微软最近宣布的DeBERTa模型实现了SOTA(最先进)并进行了评估。
KoChat是由Hyunwoong Ko发布的韩国开源聊天机器人框架。这是KoChat github存储库:在谈论聊天机器人时,人们通常只想到对话模型,但实际上,从产品的角度来看,它是聊天机器人,机器学习算法仅占其中的一小部分。
Facebook AI Research(FAIR)发布的一项技术FrankMocap负责从单个图像或视频中提取3D模型的姿态。特别是它的特点是不仅可以估计身体,而且可以估计手的形状。
由于最近的深度学习技术,为给定问题生成适当答案的QA任务获得了许多性能提升。众所周知的SQuAD就是这样的任务之一。顺便说一下,该模型是针对每个任务训练的。
问题通常被称为问答任务,旨在从成对记录问题和答案的数据集中学习,以便在提出问题时生成适当的答案。您可以想到一个聊天机器人,但问题的产生与本段不同...
StudioGAN是由浦项大学CVLab康敏国发布的基于pytorch的开源库,并且实现了各种GAN算法。包含的GAN算法包括许多主要算法,例如DCGAN,LSGAN,WGAN等。
毫不夸张地说扑克是一种心理游戏,因此它与围棋或国际象棋不同。我认为Facebook这次发布的ReBeL在这方面非常出色。特别是,它的特点是像RAG一样,一起使用强化学习和搜索。
多模式EmotionLines数据集(MELD)是EmotionLines(一种带有情感标签的对话数据集)的多模式扩展。 MELD包含EmotionLines中可用的相同对话框实例,但是音频和视觉形式以及文本…
MindMeld是旨在确保可服务质量的开源交互式AI平台。它是用Python编写的,包括最新的NLP技术和基于知识的问答引擎。这是MindMeld平台的大致架构:…
我们共享去噪器github的链接,这是在INTERSPEech 2020上宣布的Facebook实时降噪技术。它实现为Pytorch,原始论文的标题是“波形域中的实时语音增强”。如标题所示…
通常,问答系统使用文本回答问题。这样的任务是Squad任务,它为您提供一段解释事实并提出问题并生成适当答案的段落。相比之下,用视觉质量检查代替文字…
为了实现类似人类的AI的可视化部分,有必要考虑如何创建和移动3D人类模型,现有的方法有很多种,其中一种是从Max Planck ETH Center到CVPR 2020 ...
为了将以前主要以英语研究的语言模型和翻译模型扩展为多种语言,人们进行了许多尝试。 Google的mT5是一项研究,旨在将现有的T5(文本到文本转换转换器)扩展为多语言语料库,包括总共101种语言...
将多个网络模型组合在一起可以提高性能,但现实情况是,由于总网络规模和推理时间也会增加,因此在实际应用中存在许多困难。通过对抗学习(MEAL)的多模型合奏解决了这个问题...
Huggingface数据集库的第一个稳定版本1.0已发布,使使用NLP数据集和评估指标变得容易。当前,支持约100个数据集和每个数据集的评估指标(约10个)。
可以自然地看到虚拟角色并按照物理定律(即类人定律)合理地运动,这是游戏和计算机图形学领域长期研究的主题。 Facebook Jungdam Won作为第一作者的项目“ A可扩展……”
LipGAN是一种使用语音信号生成脸部图像的嘴唇形状的技术,当将其实际应用于视频时,在视觉伪像和运动自然度方面有些令人失望。为了改善这一点,鉴别器不是单个帧,而是多个连续的…
基于Transformer的语言模型显示出的性能改进令人惊讶,但是随着模型大小的成倍增长,对服务成本的关注也变得越来越重要。 Bert-base或GPT-2具有大约1亿个参数,因此模型大小,内存带宽,...
国立韩国语学院已经大规模发布了用于人工智能学习的韩国语材料(13种18亿个单词)。它是通过解决版权问题而构建的,据说任何人只要编写在线协议并获得“所有人的语料库”网站的批准,便可以下载和使用该文件。这次…
在日常对话研究中脱颖而出的Scatterlab(https://scatterlab.co.kr/)是Ping-Pong团队博客上的一篇文章,我分享了它,因为它似乎与GPT-3案例的故事井井有条。我仍然将GPT-3视为“疑惑之眼”,但是当我再次看到它时,这很好奇...
Bryandlee的github拥有使用深层生成模型进行图像翻译的结果,并且在冷静的人的后期研究中将相关研究制成了网络漫画。该研究的标题也是“冷却的生成模型学习者”。我喜欢这个机智!看一下过程,webtoon…
已经进行了许多尝试以一种编程语言编写的代码转换为另一种编程语言,并且有许多类型的商业工具。使用的主要目的是确保兼容性,例如FORTRAN或BASIC,或...
我听说过一些故事,如果您接受了特殊的培训,您就可以通过嘴唇的移动来知道您在说什么,但是链接中的研究是通过AI实现的。
在大规模语言模型的情况下,总是会遇到困难,因为没有朝鲜语模型,继SKT的KoBERT之后,Naver发行了KcBERT,该模型是从头开始学习的,其数据反映了Naver注释数据和新单词。不仅训练有素的模型……
基于深度学习的超分辨率技术在NVidia的最新GPU中采用了DLSS(深度学习超级采样)的名称,并成为消费者的一项真正的服务技术。为了降低4K游戏市场中4K渲染的成本,2K…
LipGan是一项根据语音信号创建嘴形的研究。这是一种对创建虚拟角色的嘴部动画有用的技术,但是在实际应用中,局限性很明显,因为只有站立的角色的嘴唇仍在移动。实际上,人类...
可视对话框任务是一种多模式任务,可将图像添加到由问答组成的Q&A任务中。例如,如果您一起给一只白色的猫和一只黑色的狗拍照,然后问:“猫旁边的动物是什么颜色?”,您回答“黑色” ...
在游戏制作方面,我们共享一个指向经常使用的Adobe Mixamo网站的链接。输入时,将上载121个3D字符和2484个字符动作,并且可以以称为(Autodesk)FBX的3D格式下载它们。这种格式...
TensorflowTTS是基于Tensorflow 2的开源,它支持几种最新的TTS模型,例如Tacotron2,MelGan,FastSpeech等,终于开始支持Microsoft FastSpeech2。 FastSpeech2表现出与Transformer系列TTS类似的性能,但是学习时间却超过两倍。
文本到SQL是自动将自然语言转换为SQL的任务。我在底部分享的帖子是由Microsoft的Aerin Kim撰写的,它是关于Text-to-SQL的良好组织。在世界上,很多数据都是作为关系数据库构建的,在这个数据库中...
麻省理工学院的Speech2Face是一项通过语音信号生成说话者面部的研究。但是,它不使用一种模型执行语音到面对面的转换,而是将现有研究的结果用于不同目的进行组合以产生令人印象深刻的结果。 (第一作者现在是...
在对53,000小时的未标记数据进行了表示训练之后,发布了Facebook的wav2vec 2.0的预训练模型,该模型成为热门话题,因为它创建了仅带有10分钟标记数据的语音识别器。表示模型没有微调,...
这是DriveSeg的数据集,用于研究道路状况(用于自动驾驶汽车等)。对于视频的每一帧,整个图像都是逐像素的语义标记。标签是“车辆,行人,道路,人行道,自行车,摩托车,建筑物,...
迄今为止提出的许多MRC模型在各种任务和数据集中都显示出超越人类能力的评估值,但我认为在被问到时很难轻易说是,您是否比人类更了解给定的背景?优先,…
摇滚明星(Rockstars)于2011年拍摄的电影《洛杉矶黑色》(Los Angeles Noir)使面部动画效果远胜于其他游戏,许多人对此感到惊讶。这时使用的技术称为MotionScan,基本上,演员在一个房间里,精心地放置了多个摄像头...
它是GANimation的代码存储库,该技术可通过输入单个图像来创建可更改面部表情的动画。基本上,它是一个有条件的GAN,它使用FACS(面部动作编码系统)来描述面部的解剖运动。根据FACS,我们…
介绍Danbooru 2019版本链接,这是一个动画角色图像数据库。大约有370万张图像,每个图像附有约29个标签。标签的示例包括“ 1girl”,“ solo”,“ long_hair”,“ highres”,“ smile”和“ open_mouth”…
有许多复杂的人类情感感知和表达方式(例如,愤怒的情感会影响面部表情,声音和语言),这是一个开放的数据集,其中音频视频捆绑在一起并进行了情感标记。瑞尔森...