JAVA Deeplearning4j library로 딥러닝 해보기
[분석AI서비스팀 전소희] AI 기술이 나날이 진화함에 따라 엔터테인먼트, 미디어, 전자상거래, 의료, 교육, 제조 등 다양한 산업군에 계속해서 AI 활용도가 증가하고 있습니다. 웹서비스 개발자로써 그동안 java를 백엔드 언어로 사용해왔는데, 현재 가장…
[분석AI서비스팀 전소희] AI 기술이 나날이 진화함에 따라 엔터테인먼트, 미디어, 전자상거래, 의료, 교육, 제조 등 다양한 산업군에 계속해서 AI 활용도가 증가하고 있습니다. 웹서비스 개발자로써 그동안 java를 백엔드 언어로 사용해왔는데, 현재 가장…
[분석AI서비스팀 이현정] 관리해야 할 AI모델과 데이터가 많아지고 그 용량이 커지면서 필자가 관심을 가지게 된 Ceph에 대해 간략히 소개해 보고자 합니다. Ceph 이란?Ceph은 단일 분산 컴퓨터 클러스터에 오브젝트 스토리지를 구현하는 오픈…
[선행AI기술팀 김윤혜] 2023년 IT 분야를 휩쓸었던 가장 핫한 이슈는 단연 ChatGPT입니다. ChatGPT는 모두가 쉽게 사용할 수 있는 대화형 거대 언어 인공지능 챗봇으로, 글로벌 사회에 생성형 AI에 대한 큰 임팩트와 유행을…
[분석AI서비스팀 전소희] 이번 글에서는 노코드로 알람 메시지 내용을 구성한 방법에 대해 이야기 해보도록 하겠습니다. 실제 AI 분석 포탈에서 알람 메시지 전송 비즈니스를 구현하기 위해 사용한 방법입니다. 요구사항 보내야 할 알람 메시지가…
[가상생명연구팀 김석겸] 이 글에서 소개 드릴 프로젝트의 주제는 “파일 번역” 입니다. 번역 모델을 개발하기 앞서 기존에 서비스 중인 번역 서비스들을 살펴 보았습니다. 그 중에 눈에 띈 것이 “파일 번역” 입니다.…
[분석지능개발팀 박효주] 딥러닝 기술의 발전으로 AI 모델의 성능은 점점 향상되고 있고 있습니다. 하지만 그만큼 모델의 크기는 점점 거대해지고 추론 속도는 느려지고 있습니다. 더 좋은 GPU를 사용하면 효과를 볼 수 있지만…
[가상생명연구팀 양승무 주임] ChatGPT의 시대가 도래하고 있습니다. AI 업계를 비롯한 다양한 산업과 분야에서도 ChatGPT의 우수성과 실용성이 인정되어, 많은 기업들이 ChatGPT의 적용을 추진하고 있습니다. 이러한 추세는 OpenAI와 같은 주요 기업들 뿐만…
[뉴미디어 서비스팀 윤형진 책임] 본 포스팅에서는 ChatGPT와 DreamTexture를 활용하여 3D 모델링과 텍스쳐 생성을 어떻게 할 수 있는지에 대해 설명하고, 이 기술의 가능성과 한계점에 대해 이야기해보겠습니다. 1. ChatGPT로 생성한 파이썬 코드로…
[분석지능개발팀 박효주] ML 모델의 Lifecycle은 연구 및 테스트를 진행하는 Research 단계와 실제 서비스화하는 Production 단계로 나눌 수 있습니다. Research 단계에서는 문제 정의부터 모델 선정, 성능을 높이기 위한 다양한 실험 등을…
[분석지능개발팀 임창대] What is Feature?ML(Machine Learning) 은 과거의 예시 데이터를 학습한 모델을 기반으로 새로운 데이터 예측을 수행합니다.ML 모델 학습에서 표 형태의 2차원 데이터를 사용하였을 때 행이 예시이고 열이 해당 예시를…
[생성지능개발팀 정택현] ㅤ MobileFaceSwap은 AAAI 2022에서 공개된 오픈소스 Face swap 모델로, 기존 Simswap, FaceShifter 모델을 Distillation 기반의 경량화를 적용하여 연산 속도의 측면에서 SOTA(State-of-the-art)를 달성한 것으로 알려져 있습니다. 실제로 Original Simswap이 107M Parameter와…
[생성지능개발팀 정택현] ㅤ 최근 YOLOv7 알고리즘이 공개되며 컴퓨터 비전 및 각종 관련 커뮤니티에서 큰 주목을 받고 있습니다. 논문에 따르면, YOLOv7은 현재까지의 모든 Object detection 기술들보다 속도와 정확성 모두에서 더욱 뛰어난…
[분석지능개발팀 박효주] 데이터 과학자들은 다양한 실험을 통해 학습된 모델의 성능을 검증하고 배포합니다. 이 검증 과정은 Accuracy, Precision, Recall, IOU, PSNR 등 적절한 지표를 사용해서 수치로 검증하는데, 이 수치만 가지고는 실측…
[AI Lab 김무성] 스탠포드의 CS25 : Transformers United 강좌 동영상이 최근 공개 되었습니다. [1] 강좌[2] 자체는 작년 하반기입니다만, 그간 슬라이드만 공개하고 있었습니다. 그런데 이번에 동영상도 유튜브를 통해 공유했습니다. 슬라이드 자료도…
[생성지능개발팀 김성현] 저희 센터의 인공지능 연구 모토는 ‘Human-like AI’ & ‘Fun AI’ 입니다. 그렇다면, 단순히 날씨나 뉴스를 알려주는 챗봇을 넘어, 친근하고, ‘사람 같은’ 인공지능은 어떻게 만들 수 있을까요?저희는 그러한 요소를…
[분석지능개발팀 박효주] DeepMind가 경쟁 프로그래밍 대회에서 사용 가능한 수준의 프로그래밍이 가능한 AlphaCode를 공개했습니다. AlphaCode는 Transformer 기반 언어 모델을 사용하여 대량의 코드들을 생성한 뒤 가장 적합한 코드를 필터링해서 사용하는 방식으로 프로그래밍합니다.…
[분석지능개발팀 이현정] 마이크로소프트(Microsoft)가 노코드(no-code) 기반의 AI가 작성한 프로그램 코드를 검사하는 도구 ‘직소(Jigsaw)’를 발표했습니다. 노코드란 간단한 사용자 인터페이스 방식의 틀을 이용해서 복잡하고 어려운 코딩 과정 없이 어플리케이션과 응용 프로그램을 개발 및…
[가상인간연구팀 황준선] NVIDIA NeMo는 간단한 Python 인터페이스를 사용하여 GPU 가속 음성 및 자연어 이해 모델을 구축, training 및 fine-tuning하기 위한 오픈소스 프레임워크입니다. NeMo를 활용하면 실시간 자동 음성 인식, 자연어 처리,…
[서비스개발팀 임용택] 2015년 6월, 미국 브루클린의 한 흑인 프로그래머는 여자친구와 찍은 사진을 보려던 중 깜짝 놀랄 일을 경험합니다. 구글 포토에 본인들의 사진이 “고릴라” 로 오토 태깅된 것을 보았기 때문입니다. 구글은…
[Service Development Team Jeon Jeon-jun] Facebook AI 于上个月 28 日推出了可在真实和虚拟环境中使用的机器人开发 Droidlet 平台。
[Jihyun Song 前期研究团队] 对 Open Domain chatbot 感兴趣并接触 Blender 1.0 和 Meena 的论文已经有 2 年多了。当时,他们进行了长时间的持续对话,他们声称将来会克服,而且他们……
[之前的研究团队,Jeongwoo Lee] 长期以来,我们一直在使用游戏(围棋、国际象棋、雅达利游戏等)来验证强化学习算法的性能。随着算法的发展,在强化学习领域,和其他图像、自然语言领域一样,有...
[Service Development Team Jeon Jeon-jun] Unity 推出的 ML-Agents 是一款开源工具,可为游戏环境创建虚拟角色。您可以创建游戏环境,并通过强化学习等算法学习可以在环境中运行的NPC角色(Agents)。...
[先前的研究团队,Ji-Hyun Song] MIT 研究团队开发的 TadGAN 算法在通过分析时间序列数据来检测异常方面的性能比之前已知的模型具有更好的性能。目前,很多研究异常检测的公司都在
OpenAI的GPT-3是一种大型语言模型,参数计数高达175B。尽管GPT-3取得了令人惊讶的结果,但它不是开源的,因此,如果您要尝试它,可以尝试AI Dungeon(https://play.aidungeon.io/main/landing)或Philosopher AI(https:/ /philosopherai.com/)。)通过诸如...的网站
作为基于深度学习的图像生成方法,GAN产生了许多惊人的结果。特别是,由于潜在向量可以在学习后进行更改,因此有可能具有多种有意义的含义进行更改,因此潜在空间只是随机的...
Tensorflow Lite是一个软件包,其中包含一些工具,这些工具允许使用Tensorflow训练的AI模型在移动设备上运行。据说它现在在超过40亿个设备上运行。基本上,训练后的模型将转换为Tensorflow Lite…
Jina由Jina.AI开源,是使用深度学习技术的多模式数据搜索引擎。它不仅实现了一些搜索功能,还包括可以轻松应用于服务的整个系统,而不仅仅是文本……
Avatarify是一个将实时头像动画功能添加到各种视频通信程序(例如Zoom,Team,Hangout和Skype)的程序,并且是开源的。它以替换视频通信程序的摄像机输入的形式开发,并且该算法使用一阶运动模型。
DensePhrases是高丽大学的Jinjinuk Lee创建的一种开放域问答技术,已发表为题为“大规模学习短语的密集表示”的论文。这是该论文的链接:提出问题时,近600亿个Wikipedia段落中最合适的段落…
以其集成的自然语言处理程序包而闻名的HuggingFace增加了语音识别。以下是相关链接:具体来说,添加了由Facebook开发的Wav2Vec 2.0,Wav2Vec 2.0首先使用大量未标记的数据来进行无监督学习,并且非常…
通过单张照片创建3D模型的技术已经以MeInGame的名称公开。查看上传到公共存储库的结果,如果没有设计者的工作,它还不足以应用于服务,但是它将大大减少初始建模工作……
Paperswithcode提供有关AI,链接的开源和SOTA领域的各种论文的信息,并提供了3,000多个有用数据集的链接。其中,有851个文本数据集,仅限于韩语...
在Kakao Brain中,Pororo是一个能够响应各种自然语言任务的集成自然语言框架,已作为开源发布。 Pororo代表自然语言处理的神经模型平台,您可以将其视为与HuggingFace相似的目的。 Pororo ...
建立允许人类与虚拟代理进行自然对话的对话系统在自然语言处理中是一项艰巨的任务,并且是进行大量研究的基础。 Ubuntu Dialogue Corpus解决了与Ubuntu相关的各种问题…
自从由多层卷积层组成的AlexNet问世以来,已有许多关于深度学习模型结构的研究。例如,Google Inception使用具有不同内核大小的卷积层,例如3×3、5×5和7×7…
随着深度学习模型的参数数量显着增加,训练所需的内存也随之增加。 OpenAI的GPT-2由1.5B参数组成,而Google的mT5也具有13B参数。另外,OpenAI的GPT-3的参数数量...
SuperGLUE是一项挑战,需要针对各种自然语言理解任务评估AI技术的性能。与现有的GLUE相比,它具有较高的难度,并且微软最近宣布的DeBERTa模型实现了SOTA(最先进)并进行了评估。
KoChat是由Hyunwoong Ko发布的韩国开源聊天机器人框架。这是KoChat github存储库:在谈论聊天机器人时,人们通常只想到对话模型,但实际上,从产品的角度来看,它是聊天机器人,机器学习算法仅占其中的一小部分。
Facebook AI Research(FAIR)发布的一项技术FrankMocap负责从单个图像或视频中提取3D模型的姿态。特别是它的特点是不仅可以估计身体,而且可以估计手的形状。
由于最近的深度学习技术,为给定问题生成适当答案的QA任务获得了许多性能提升。众所周知的SQuAD就是这样的任务之一。顺便说一下,该模型是针对每个任务训练的。
StudioGAN是由浦项大学CVLab康敏国发布的基于pytorch的开源库,并且实现了各种GAN算法。包含的GAN算法包括许多主要算法,例如DCGAN,LSGAN,WGAN等。
毫不夸张地说扑克是一种心理游戏,因此它与围棋或国际象棋不同。我认为Facebook这次发布的ReBeL在这方面非常出色。特别是,它的特点是像RAG一样,一起使用强化学习和搜索。
多模式EmotionLines数据集(MELD)是EmotionLines(一种带有情感标签的对话数据集)的多模式扩展。 MELD包含EmotionLines中可用的相同对话框实例,但是音频和视觉形式以及文本…
MindMeld是旨在确保可服务质量的开源交互式AI平台。它是用Python编写的,包括最新的NLP技术和基于知识的问答引擎。这是MindMeld平台的大致架构:…
我们共享去噪器github的链接,这是在INTERSPEech 2020上宣布的Facebook实时降噪技术。它实现为Pytorch,原始论文的标题是“波形域中的实时语音增强”。如标题所示…
通常,问答系统使用文本回答问题。这样的任务是Squad任务,它为您提供一段解释事实并提出问题并生成适当答案的段落。相比之下,用视觉质量检查代替文字…
为了实现类似人类的AI的可视化部分,有必要考虑如何创建和移动3D人类模型,现有的方法有很多种,其中一种是从Max Planck ETH Center到CVPR 2020 ...
为了将以前主要以英语研究的语言模型和翻译模型扩展为多种语言,人们进行了许多尝试。 Google的mT5是一项研究,旨在将现有的T5(文本到文本转换转换器)扩展为多语言语料库,包括总共101种语言...
将多个网络模型组合在一起可以提高性能,但现实情况是,由于总网络规模和推理时间也会增加,因此在实际应用中存在许多困难。通过对抗学习(MEAL)的多模型合奏解决了这个问题...
Huggingface数据集库的第一个稳定版本1.0已发布,使使用NLP数据集和评估指标变得容易。当前,支持约100个数据集和每个数据集的评估指标(约10个)。
可以自然地看到虚拟角色并按照物理定律(即类人定律)合理地运动,这是游戏和计算机图形学领域长期研究的主题。 Facebook Jungdam Won作为第一作者的项目“ A可扩展……”
LipGAN是一种使用语音信号生成脸部图像的嘴唇形状的技术,当将其实际应用于视频时,在视觉伪像和运动自然度方面有些令人失望。为了改善这一点,鉴别器不是单个帧,而是多个连续的…
基于Transformer的语言模型显示出的性能改进令人惊讶,但是随着模型大小的成倍增长,对服务成本的关注也变得越来越重要。 Bert-base或GPT-2具有大约1亿个参数,因此模型大小,内存带宽,...
国立韩国语学院已经大规模发布了用于人工智能学习的韩国语材料(13种18亿个单词)。它是通过解决版权问题而构建的,据说任何人只要编写在线协议并获得“所有人的语料库”网站的批准,便可以下载和使用该文件。这次…
在日常对话研究中脱颖而出的Scatterlab(https://scatterlab.co.kr/)是Ping-Pong团队博客上的一篇文章,我分享了它,因为它似乎与GPT-3案例的故事井井有条。我仍然将GPT-3视为“疑惑之眼”,但是当我再次看到它时,这很好奇...
Bryandlee的github拥有使用深层生成模型进行图像翻译的结果,并且在冷静的人的后期研究中将相关研究制成了网络漫画。该研究的标题也是“冷却的生成模型学习者”。我喜欢这个机智!看一下过程,webtoon…
已经进行了许多尝试以一种编程语言编写的代码转换为另一种编程语言,并且有许多类型的商业工具。使用的主要目的是确保兼容性,例如FORTRAN或BASIC,或...
在大规模语言模型的情况下,总是会遇到困难,因为没有朝鲜语模型,继SKT的KoBERT之后,Naver发行了KcBERT,该模型是从头开始学习的,其数据反映了Naver注释数据和新单词。不仅训练有素的模型……
基于深度学习的超分辨率技术在NVidia的最新GPU中采用了DLSS(深度学习超级采样)的名称,并成为消费者的一项真正的服务技术。为了降低4K游戏市场中4K渲染的成本,2K…
LipGan是一项根据语音信号创建嘴形的研究。这是一种对创建虚拟角色的嘴部动画有用的技术,但是在实际应用中,局限性很明显,因为只有站立的角色的嘴唇仍在移动。实际上,人类...
可视对话框任务是一种多模式任务,可将图像添加到由问答组成的Q&A任务中。例如,如果您一起给一只白色的猫和一只黑色的狗拍照,然后问:“猫旁边的动物是什么颜色?”,您回答“黑色” ...
在游戏制作方面,我们共享一个指向经常使用的Adobe Mixamo网站的链接。输入时,将上载121个3D字符和2484个字符动作,并且可以以称为(Autodesk)FBX的3D格式下载它们。这种格式...
TensorflowTTS是基于Tensorflow 2的开源,它支持几种最新的TTS模型,例如Tacotron2,MelGan,FastSpeech等,终于开始支持Microsoft FastSpeech2。 FastSpeech2表现出与Transformer系列TTS类似的性能,但是学习时间却超过两倍。
文本到SQL是自动将自然语言转换为SQL的任务。我在底部分享的帖子是由Microsoft的Aerin Kim撰写的,它是关于Text-to-SQL的良好组织。在世界上,很多数据都是作为关系数据库构建的,在这个数据库中...
麻省理工学院的Speech2Face是一项通过语音信号生成说话者面部的研究。但是,它不使用一种模型执行语音到面对面的转换,而是将现有研究的结果用于不同目的进行组合以产生令人印象深刻的结果。 (第一作者现在是...
在对53,000小时的未标记数据进行了表示训练之后,发布了Facebook的wav2vec 2.0的预训练模型,该模型成为热门话题,因为它创建了仅带有10分钟标记数据的语音识别器。表示模型没有微调,...
这是DriveSeg的数据集,用于研究道路状况(用于自动驾驶汽车等)。对于视频的每一帧,整个图像都是逐像素的语义标记。标签是“车辆,行人,道路,人行道,自行车,摩托车,建筑物,...
迄今为止提出的许多MRC模型在各种任务和数据集中都显示出超越人类能力的评估值,但我认为在被问到时很难轻易说是,您是否比人类更了解给定的背景?优先,…
摇滚明星(Rockstars)于2011年拍摄的电影《洛杉矶黑色》(Los Angeles Noir)使面部动画效果远胜于其他游戏,许多人对此感到惊讶。这时使用的技术称为MotionScan,基本上,演员在一个房间里,精心地放置了多个摄像头...
它是GANimation的代码存储库,该技术可通过输入单个图像来创建可更改面部表情的动画。基本上,它是一个有条件的GAN,它使用FACS(面部动作编码系统)来描述面部的解剖运动。根据FACS,我们…
介绍Danbooru 2019版本链接,这是一个动画角色图像数据库。大约有370万张图像,每个图像附有约29个标签。标签的示例包括“ 1girl”,“ solo”,“ long_hair”,“ highres”,“ smile”和“ open_mouth”…
有许多复杂的人类情感感知和表达方式(例如,愤怒的情感会影响面部表情,声音和语言),这是一个开放的数据集,其中音频视频捆绑在一起并进行了情感标记。瑞尔森...