JAVA Deeplearning4j library로 딥러닝 해보기
[분석AI서비스팀 전소희] AI 기술이 나날이 진화함에 따라 엔터테인먼트, 미디어, 전자상거래, 의료, 교육, 제조 등 다양한 산업군에 계속해서 AI 활용도가 증가하고 있습니다. 웹서비스 개발자로써 그동안 java를 백엔드 언어로 사용해왔는데, 현재 가장…
[분석AI서비스팀 전소희] AI 기술이 나날이 진화함에 따라 엔터테인먼트, 미디어, 전자상거래, 의료, 교육, 제조 등 다양한 산업군에 계속해서 AI 활용도가 증가하고 있습니다. 웹서비스 개발자로써 그동안 java를 백엔드 언어로 사용해왔는데, 현재 가장…
[분석AI서비스팀 이현정] 관리해야 할 AI모델과 데이터가 많아지고 그 용량이 커지면서 필자가 관심을 가지게 된 Ceph에 대해 간략히 소개해 보고자 합니다. Ceph 이란?Ceph은 단일 분산 컴퓨터 클러스터에 오브젝트 스토리지를 구현하는 오픈…
[선행AI기술팀 김윤혜] 2023년 IT 분야를 휩쓸었던 가장 핫한 이슈는 단연 ChatGPT입니다. ChatGPT는 모두가 쉽게 사용할 수 있는 대화형 거대 언어 인공지능 챗봇으로, 글로벌 사회에 생성형 AI에 대한 큰 임팩트와 유행을…
[분석AI서비스팀 전소희] 이번 글에서는 노코드로 알람 메시지 내용을 구성한 방법에 대해 이야기 해보도록 하겠습니다. 실제 AI 분석 포탈에서 알람 메시지 전송 비즈니스를 구현하기 위해 사용한 방법입니다. 요구사항 보내야 할 알람 메시지가…
[가상생명연구팀 김석겸] 이 글에서 소개 드릴 프로젝트의 주제는 “파일 번역” 입니다. 번역 모델을 개발하기 앞서 기존에 서비스 중인 번역 서비스들을 살펴 보았습니다. 그 중에 눈에 띈 것이 “파일 번역” 입니다.…
[분석지능개발팀 박효주] 딥러닝 기술의 발전으로 AI 모델의 성능은 점점 향상되고 있고 있습니다. 하지만 그만큼 모델의 크기는 점점 거대해지고 추론 속도는 느려지고 있습니다. 더 좋은 GPU를 사용하면 효과를 볼 수 있지만…
[가상생명연구팀 양승무 주임] ChatGPT의 시대가 도래하고 있습니다. AI 업계를 비롯한 다양한 산업과 분야에서도 ChatGPT의 우수성과 실용성이 인정되어, 많은 기업들이 ChatGPT의 적용을 추진하고 있습니다. 이러한 추세는 OpenAI와 같은 주요 기업들 뿐만…
[가상생명연구팀 황준선] ChatGPT와 Bard 등, 요즘 대화형태의 대형 언어 모델(LLM)이 우후죽순 발표되고 있다. 하지만, LLM만 있다면 학습한 데이터 안에서만 적절한 문장을 생성해낼 것이다. 그래서 Bard는 구글 검색 엔진을 추가하여 최근…
[뉴미디어 서비스팀 윤형진 책임] 본 포스팅에서는 ChatGPT와 DreamTexture를 활용하여 3D 모델링과 텍스쳐 생성을 어떻게 할 수 있는지에 대해 설명하고, 이 기술의 가능성과 한계점에 대해 이야기해보겠습니다. 1. ChatGPT로 생성한 파이썬 코드로…
[분석지능개발팀 박효주] ML 모델의 Lifecycle은 연구 및 테스트를 진행하는 Research 단계와 실제 서비스화하는 Production 단계로 나눌 수 있습니다. Research 단계에서는 문제 정의부터 모델 선정, 성능을 높이기 위한 다양한 실험 등을…
[분석지능개발팀 임창대] What is Feature?ML(Machine Learning) 은 과거의 예시 데이터를 학습한 모델을 기반으로 새로운 데이터 예측을 수행합니다.ML 모델 학습에서 표 형태의 2차원 데이터를 사용하였을 때 행이 예시이고 열이 해당 예시를…
[생성지능개발팀 정택현] ㅤ MobileFaceSwap은 AAAI 2022에서 공개된 오픈소스 Face swap 모델로, 기존 Simswap, FaceShifter 모델을 Distillation 기반의 경량화를 적용하여 연산 속도의 측면에서 SOTA(State-of-the-art)를 달성한 것으로 알려져 있습니다. 실제로 Original Simswap이 107M Parameter와…
[생성지능개발팀 정택현] ㅤ 최근 YOLOv7 알고리즘이 공개되며 컴퓨터 비전 및 각종 관련 커뮤니티에서 큰 주목을 받고 있습니다. 논문에 따르면, YOLOv7은 현재까지의 모든 Object detection 기술들보다 속도와 정확성 모두에서 더욱 뛰어난…
[분석지능개발팀 박효주] 데이터 과학자들은 다양한 실험을 통해 학습된 모델의 성능을 검증하고 배포합니다. 이 검증 과정은 Accuracy, Precision, Recall, IOU, PSNR 등 적절한 지표를 사용해서 수치로 검증하는데, 이 수치만 가지고는 실측…
[AI Lab 김무성] 스탠포드의 CS25 : Transformers United 강좌 동영상이 최근 공개 되었습니다. [1] 강좌[2] 자체는 작년 하반기입니다만, 그간 슬라이드만 공개하고 있었습니다. 그런데 이번에 동영상도 유튜브를 통해 공유했습니다. 슬라이드 자료도…
[생성지능개발팀 김성현] 저희 센터의 인공지능 연구 모토는 ‘Human-like AI’ & ‘Fun AI’ 입니다. 그렇다면, 단순히 날씨나 뉴스를 알려주는 챗봇을 넘어, 친근하고, ‘사람 같은’ 인공지능은 어떻게 만들 수 있을까요?저희는 그러한 요소를…
[분석지능개발팀 박효주] DeepMind가 경쟁 프로그래밍 대회에서 사용 가능한 수준의 프로그래밍이 가능한 AlphaCode를 공개했습니다. AlphaCode는 Transformer 기반 언어 모델을 사용하여 대량의 코드들을 생성한 뒤 가장 적합한 코드를 필터링해서 사용하는 방식으로 프로그래밍합니다.…
[분석지능개발팀 이현정] 마이크로소프트(Microsoft)가 노코드(no-code) 기반의 AI가 작성한 프로그램 코드를 검사하는 도구 ‘직소(Jigsaw)’를 발표했습니다. 노코드란 간단한 사용자 인터페이스 방식의 틀을 이용해서 복잡하고 어려운 코딩 과정 없이 어플리케이션과 응용 프로그램을 개발 및…
[가상인간연구팀 황준선] NVIDIA NeMo는 간단한 Python 인터페이스를 사용하여 GPU 가속 음성 및 자연어 이해 모델을 구축, training 및 fine-tuning하기 위한 오픈소스 프레임워크입니다. NeMo를 활용하면 실시간 자동 음성 인식, 자연어 처리,…
[서비스개발팀 임용택] 2015년 6월, 미국 브루클린의 한 흑인 프로그래머는 여자친구와 찍은 사진을 보려던 중 깜짝 놀랄 일을 경험합니다. 구글 포토에 본인들의 사진이 “고릴라” 로 오토 태깅된 것을 보았기 때문입니다. 구글은…
[서비스개발팀 전동준] Facebook AI 에서 실제 환경과 가상 환경에서 사용할 수 있는 로봇 개발을 위한 Droidlet 플랫폼을 지난달 28일에 공개했습니다.
[선행연구팀 송지현] Open Domain chatbot에 관심을 갖고 Blender 1.0과 Meena에 관한 논문을 접한지 벌써 2년이 넘었습니다. 그 당시엔 그들이 향후 극복하겠다고 주장한 일관성 있게 롱 턴의 대화를 하고, 지식에 관한…
[선행연구팀 이정우] 오랜 시간 동안 강화학습 알고리즘들의 성능을 검증하기 위해 게임 (바둑, 장기, 아타리 게임 등)을 사용해 왔습니다. 알고리즘의 발전에 따라, 강화학습 분야에서도 다른 이미지, 자연어 분야와 마찬가지로 현실에 존재하는…
[서비스개발팀 황준선] 기계학습 모델을 지도 학습할 때 라벨간 데이터의 개수가 불균형한 데이터셋을 훈련 데이터로 삼을 경우, 비율이 작은 라벨에 속한 샘플들에 대한 학습이 잘 이루어지지 않는 현상을 겪게 됩니다. 단순히…
[서비스개발팀 이경환] 우리는 보통 모델을 학습하는 과정에서 라벨이 없는 데이터 뭉치를 마주하게 되고, Data Annotation 문제에 종종 부딪히고는 합니다. 라벨이 없는 모든 데이터를 일일이 라벨링 하기에는 시간과 비용이 너무 많이…
[서비스개발팀 전동준] Unity에서 공개한 ML-Agents는 게임 환경의 가상 캐릭터를 만드는 오픈소스 툴 입니다. 게임 환경을 만들고 환경에서 작동할 수 있는 NPC 캐릭터(Agents)를 강화 학습등의 알고리즘을 통해 학습 할 수 있습니다.…
[선행연구팀 송지현] MIT 연구팀이 개발한 TadGAN 알고리즘은 시계열 데이터를 분석하여 이상탐지를 하는데에 있어 기존에 알려진 모델들에 비해 좋은 성능을 내는 것으로 알려져 있습니다. 현재 많은 이상탐지를 연구하는 업체들이 다양한 분야(금융…
[서비스개발팀 전동준] 코로나19로 인해 가속화된 기업들의 디지털 트랜스포메이션(Digital Transformation)은 데이터의 가치를 계속해서 상승 시키고 있습니다. 전문 IT 기업 뿐만 아니라 다양한 산업에서의 변화의 필요성은 데이터 전문 기업들의 몸값도 불리고 있습니다.…
OpenAI의 GPT-3는 175B에 달하는 파라미터 수를 가지는 거대 언어 모델입니다. GPT-3가 보여주는 놀라운 결과물들에도 불구하고 오픈소스로 공개되어 있지 않기 때문에 사용해 보려면 AI Dungeon(https://play.aidungeon.io/main/landing)이나 Philosopher AI(https://philosopherai.com/)와 같은 사이트를 통해야 합니다.…
딥러닝 기반의 이미지 생성 방법으로서 GAN은 놀라운 결과들을 많이 만들어내고 있습니다. 특히 학습 후 latent vector를 변경함으로써 다수의 유의미한 의미를 갖는 변화를 만들 수 있기 때문에, latent space가 단순히 랜덤한…
Tensorflow Lite는 Tensorflow로 학습된 AI 모델들을 모바일 기기에서 동작시킬 수 있도록 해 주는 도구들을 포함하고 있는 소프트웨어 패키지입니다. 현재 40억개 이상의 기기에서 동작하고 있다고 합니다. 기본적으로 학습된 모델을 Tensorflow Lite…
Jina.AI에서 오픈소스로 공개하고 있는 Jina는 딥러닝 기술을 이용한 멀티모달 데이터 검색 엔진입니다. 검색을 위한 일부 기능만을 구현한 것이 아니라 서비스에 쉽게 적용이 가능한 전체 시스템을 포함하고 있으며 텍스트 뿐 아니라…
Avatarify는 Zoom, Teams, Hangout, Skype등 다양한 화상통신 프로그램에 실시간 아바타 애니메이션 기능을 추가해주는 프로그램으로, 오픈소스로 공개되어 있습니다. 화상통신 프로그램의 카메라 입력을 대치하는 형태로 개발되어 있으며, 알고리즘은 first-order motion model을 사용합니다.…
DensePhrases는 고려대학교 이진혁님이 만든 오픈도메인 Q&A 기술로, “Learning Dense Representations of Phrases at Scale”라는 제목의 논문으로 발표되었습니다. 다음은 논문 링크입니다: 질문이 주어지면 약 600억개에 달하는 위키피디아의 문단들로부터 가장 적합한 문단을…
통합 자연어 처리 패키지로 유명한 HuggingFace에 음성 인식 기능이 추가되었습니다. 다음은 관련 링크입니다: 구체적으로 Facebook이 개발한 Wav2Vec 2.0이 추가되었는데, Wav2Vec 2.0은 대량의 라벨링 없는 데이터로 unsupervised learning을 먼저 하고, 매우…
한 장의 사진에서 3D 모델을 만들 수 있는 기술이 MeInGame이라는 이름으로 공개되었습니다. 공개 저장소에 올라온 결과를 보면 아직 디자이너의 작업 없이 서비스에 적용되기에는 부족하지만 초기 모델링 노력을 상당 부분 절감시킬…
AI 분야의 다양한 논문들 및 연계된 오픈 소스, 그리고 SOTA에 대한 정보를 제공하는 paperswithcode에서는 3천개가 넘는 유용한 데이터셋 링크를 함께 제공하고 있습니다. 이 중 텍스트에 대한 데이터셋은 851종이며, 한국어로 한정할…
카카오브레인에서 다양한 자연어 태스크에 대응 가능한 통합된 형태의 자연어 프레임워크인 Pororo를 오픈소스로 공개했습니다. Pororo는 Platform Of neuRal mOdels for natuRal language prOcessing의 약자이며 HuggingFace와 유사한 목적이라고 생각할 수 있습니다. Pororo는…
인간이 가상 에이전트와 자연스러운 느낌의 대화를 할 수 있는 대화 시스템을 구축하는 것은 자연어 처리에서 어려운 작업이며 많은 지속적인 연구의 기반이 됩니다. Ubuntu Dialogue Corpus는 다양한 Ubuntu 관련 문제에 대한…
다수의 convolution layer로 구성된 AlexNet이 등장한 이래 딥러닝 모델의 구조에 대한 많은 연구들이 있어 왔습니다. 예를 들어, Google Inception은 3×3, 5×5, 7×7 등 서로 다른 커널 크기를 갖는 convolution layer를…
딥러닝 모델의 파라미터수가 크게 증가함에 따라 학습에 필요한 메모리도 함께 늘어나고 있습니다. OpenAI의 GPT-2는 1.5B개의 파라미터들로 구성되며 Google의 mT5도 13B에 이르는 파라미터 수를 가지고 있습니다. 또한 OpenAI의 GPT-3의 파라미터 수는…
딥러닝 모델들의 크기가 기하급수적으로 증가하면서 더 이상 하나의 머신으로는 활용 가능한 수준의 학습 시간을 달성하기가 어려워지고 있습니다. 잘 알려진 대화 모델인 GPT-2는 약 1.5B개의 파라미터를 가지고 있으며 학습을 위해 8백만개의…
SuperGLUE는 다양한 자연어 이해 task에 대해 AI 기술의 성능을 평가하는 챌린지입니다. 기존 GLUE에 비해 상대적으로 난이도가 높은 task들로 구성되어 있는 것이 특징인데, 최근 Microsoft에서 발표한 DeBERTa 모델이 SOTA(state-of-the-arts)를 달성했으며, 평가…
KoChat은 고현웅님이 공개한 한국어 오픈소스 챗봇 프레임워크입니다. 다음은 KoChat github 저장소입니다: 흔히 챗봇이라고 하면 대화 모델만을 생각하는 경우가 많지만, 사실 챗봇이라는 제품 관점에서 보면 머신러닝 알고리즘이 차지하는 부분은 일부분에 불과합니다.…
FrankMocap은 Facebook AI Research(FAIR)에서 공개한 기술로서 한 장의 이미지, 혹은 동영상에서 3D 모델을 위한 포즈를 추출해내는 역할을 합니다. 특히, 바디 뿐 아니라 손 모양까지 함께 추정할 수 있다는 것이 특징이라고…
조준희님이 수집하여 라벨링한 한국어 욕설 데이터 세트를 공유합니다. 여러 커뮤니티에서 수집된 것으로서, 실세계 데이터에 대한 평가용으로 적합한 것 같습니다. 아래는 데이터 세트에 대한 설명입니다: Data Description 문장의 욕설 여부를 분류한…
주어진 질문에 대해 적합한 답변을 생성하는 QA Task는 최근 딥러닝 기술로 인해 많은 성능 향상이 이루어져 왔습니다. 잘 알려진 SQuAD도 이런 Task 중 하나입니다. 그런데, 각 Task 별로 모델이 학습되다보니…
흔히 Q&A task라고 부르는 문제는 질문과 대답을 pair로 기록한 데이터 세트로부터 학습하여 질문을 던졌을 때 적절한 대답이 나오도록 하는 것을 목표로 합니다. 챗봇을 생각하면 되는데, question generation은 이와는 달리 문단을…
StudioGAN은 포항공대 CVLab 강민국님께서 공개하신 pytorch 기반의 오픈소스 라이브러리로서 다양한 GAN 알고리즘들이 구현되어 있습니다. 포함되어 있는 GAN 알고리즘에는 DCGAN, LSGAN, WGAN 등 주요 알고리즘들이 다수 포함되어 있어 상호 성능 비교 등…
포커는 반이 심리전이라고 해도 과언이 아닐 만큼 바둑이나 체스와는 또 다른 게임입니다. 이번에 페이스북이 공개한 ReBeL은 이런 점에서 주목할 만하다고 생각합니다. 특히, 강화학습과 검색을 함께 사용한 것이 특징인데, RAG와 같이…
Multimodal EmotionLines Dataset(MELD)은 감성 라벨링이 되어 있는 대화 데이터 세트인 EmotionLines를 멀티모달로 확장한 것입니다. MELD는 EmotionLines에서 사용할 수 있는 것과 동일한 대화 인스턴스를 포함하지만 텍스트와 함께 오디오 및 시각적 양식도…
MindMeld는 서비스 가능한 수준의 품질 확보를 목적으로 만들어진 오픈소스 대화형 AI 플랫폼입니다. Python으로 작성되어 있으며 최신 NLP 기술 및 지식 기반 Q&A 엔진을 포함하고 있습니다. 다음은 MindMeld 플랫폼의 대략적 아키텍처입니다:…
Interspeech 2020에 발표되었던 Facebook의 실시간 잡음 제거 기술인 denoiser의 github 링크를 공유합니다. Pytorch로 구현되어 있으며 원 논문 제목은 “Real Time Speech Enhancement in the Waveform Domain”입니다. 제목에서 알 수 있듯이…
일반적으로 Q&A 시스템은 텍스트를 사용해서 질의 응답을 수행합니다. 이런 방식의 태스크로는 어떤 사실을 설명한 문단을 주고 질문을 던지면 적당한 대답을 생성하는 Squad task가 있습니다. 이에 비해, Visual QA는 텍스트 대신…
Human-Like AI의 시각화 부분을 구현하기 위해서는 3D 휴먼 모델을 어떻게 만들고, 움직일 것인가에 대한 고민이 필요한데 기존 다양한 접근 방법이 있지만, 그 중 하나로 Max Planck ETH Center에서 CVPR 2020에…
기존 영어 위주로 연구되던 언어 모델 및 번역 모델을 다국어로 확장하려는 시도가 많이 이루어지고 있습니다. Google의 mT5는 기존 T5 (text-to-text transfer transformer)를 다국어 코퍼스로 확장한 연구로서, 총 101개국 언어를 포함한…
여러 네트워크 모델을 앙상블로 결합하면 성능이 오르는데, 총 네트워크의 크기와 추론 시간도 함께 증가하기 때문에 실제로 적용할 때는 어려움이 많은 것이 현실입니다. MEAL(Multi-model Ensemble via Adversarial Learning)은 이러한 점을 해결하기…
NLP Dataset과 Evaluation metric을 쉽게 사용할 수 있게 해 주는 Huggingface Datasets 라이브러리의 첫 번째 stable version 1.0이 공개되었습니다. 현재 약 100개의 Dataset과 각 Dataset에 맞는 Evaluation metric(약 10개)을 지원합니다.…
가상 캐릭터를 보기에도 자연스럽고 물리 법칙 측면에서도 합리적으로, 즉 Human-Like하게 움직이는 것은 게임 분야는 물론 컴퓨터 그래픽스 전반에 걸쳐 오랜 연구 주제였습니다. Facebook 원정담님이 제 1저자로 참여하신 프로젝트인 “A Scalable…
LipGAN은 음성 신호를 이용하여 얼굴 이미지의 입술 모양을 생성하는 기술인데, 실제로 동영상에 적용해보니 visual artifact나 움직임의 자연성 측면에서 다소 아쉬움이 있었습니다. 이를 개선하기 위해서 Discriminator에서 단일 frame이 아니라 복수개의 연속된…
Transformer 기반의 언어 모델들이 보여주는 성능적 향상은 놀랍지만 모델 크기가 기하급수적으로 늘어나면서 서비스 비용에 대한 고민도 중요해지고 있습니다. Bert-base나 GPT-2의 경우 약 1억개의 파라미터를 가지고 있어서 모델 크기, 메모리 대역폭,…
국립국어원이 인공지능 학습용 한국어 자료를 대규모(13종 18억 어절)로 공개했습니다. 저작권 문제를 해결하여 구축한 것이며 ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성, 승인을 받으면 누구나 파일을 내려받아 사용할 수 있다고 합니다. 이번에…
일상 대화 연구에서 두각을 나타내고 있는 스캐터랩(https://scatterlab.co.kr/) 핑퐁팀 블로그에 있는 글인데 GPT-3 사례에 대해서 스토리있게 잘 정리된 것 같아서 공유합니다. 저는 GPT-3를 아직은 ‘의심의 눈초리’로 보고 있습니다만 다시 봐도 신기한…
bryandlee님 github에 deep generative model을 이용한 image translation 적용 결과와, 침착맨 이말년 웹툰으로 만든 관련 연구가 있어서 공유합니다. 연구 제목도 “침착한 생성모델 학습기”입니다. 전 이런 위트가 좋더라구요! 과정을 보면, 웹툰…
하나의 프로그래밍 언어로 쓰여진 코드를 다른 프로그래밍 언어로 바꾸고자 하는 시도는 그 동안 많이 있어왔고, 상용 툴도 여러 종류가 있습니다. 주된 사용 목적은 호환성 확보인데, 예를 들어 FORTRAN이나 BASIC, 혹은…
특수 훈련을 받으면 입술 움직임만으로 무슨 말 하는지 알 수 있다고 하는 이야기를 들은 적이 있는데요, 링크글의 연구는 이것을 AI로 실현한 것입니다^^ Lip2Wav라고 불리는 이 기술은 이미지로부터 ConvNet을 이용하여 feature를…
대규모 언어 모델의 경우 한국어 모델이 없어 항상 어려운 점이 있었는데 SKT의 KoBERT에 이어 Naver에서 네이버 댓글 데이터, 신조어 등을 반영한 데이터로 바닥부터 학습한 KcBERT를 공개했습니다. 학습된 모델 뿐 아니라…
딥러닝 기반의 super resolution 기술은 NVidia의 최신 GPU에서 DLSS(deep learning super sampling)라는 이름으로 채용되어 consumer 대상으로 실 서비스되는 기술이 되었는데요, 주로 4K 게이밍 시장에서 4K 렌더링의 비용을 낮추기 위해 2K…
LipGan은 음성 신호로부터 입 모양을 생성하는 연구입니다. 가상 캐릭터의 입 애니메이션을 만들어내는데 유용하게 사용될 수 있는 기술이지만, 실제로 적용해 보면 가만히 있는 캐릭터의 입술만 움직이기 때문에 한계가 명확합니다. 실제로 인간이…
Visual Dialog task는 질의 응답으로 이루어지는 Q&A task에 이미지를 추가한 멀티모달 task입니다. 예를 들어 흰색 고양이와 검은색 강아지가 함께 있는 사진을 주고 “고양이 옆 동물은 무슨 색이야?”라고 물어보면 “검은색”하고 대답하는…
게임 제작 쪽에서는 이미 많이 활용하고 있는 Adobe Mixamo 사이트 링크 공유합니다. 들어가보면 3D 캐릭터 121개와 캐릭터 모션 2484개가 올라와 있고, (Autodesk) FBX라는 3D 포맷으로 다운받을 수 있습니다. 이 포맷은…
Tacotron2, MelGan, FastSpeech등 여러 최신 TTS 모델을 지원하는 Tensorflow 2 기반의 오픈소스인 TensorflowTTS가 드디어 Microsoft FastSpeech2를 지원하기 시작했습니다. FastSpeech2는 Transformer 계열의 TTS와 유사한 성능을 보이지만 학습에 걸리는 시간이 2배 이상…
Text-to-SQL은 자연어를 SQL로 자동 변환하는 Task입니다. 하단에 공유한 글은 Microsoft 소속의 Aerin Kim이 작성한 글인데, Text-to-SQL에 대해서 잘 정리되어 있습니다. 세상에는 수 많은 데이터들이 Relational Database로 구축되어 있고, 이 Database에서…
MIT의 Speech2Face는 음성신호로부터 화자의 얼굴을 생성해내는 연구입니다. 다만 하나의 모델로 speech to face transform을 수행하는 것이 아니며, 다른 목적의 기존 연구 결과들을 잘 조합하여 인상적인 결과를 만들어냅니다. (제1 저자는 현재…
53,000시간의 라벨링 없는 데이터로 representation training을 한 후, 10분 분량의 라벨링 된 데이터만으로 음성인식기를 만들어낸다고 해서 화제가 되었던 Facebook의 wav2vec 2.0에 대한 pre-trained model이 공개가 되었습니다. Representation model에 no fine-tuning,…
(자율주행차 등에 사용될) 도로 상황 인식 연구를 위해 만들어진 데이터셋 DriveSeg입니다. 동영상의 각 프레임에 대해, 이미지 전체를 pixel-by-pixel로 semantic labeling 한 것입니다. Label은 “vehicle, pedestrian, road, sidewalk, bicycle, motorcycle, building,…
현재까지 제안된 많은 MRC 모델들이 다양한 Task와 Dataset에서 인간의 능력을 넘어선 평가값을 보여주고 있지만, 주어진 context에 대해서 인간보다 더 잘 이해하는 것인가?라는 질문을 받는다면 쉽게 YES라고 말하기 어렵다고 생각합니다. 우선,…
락스타에서 만든 2011년작인 LA 느와르는 다른 게임보다 훨씬 우월한 수준의 얼굴 애니메이션이 적용되어 많은 사람들을 놀라게 했습니다. 이때 사용된 기술은 MotionScan이라고 불리는데, 기본적으로 여러대의 카메라가 정교하게 배치된 방 안에 배우가…
이미지 한장을 입력으로 얼굴 표정을 바꾸는 애니메이션을 만들어주는 기술인 GANimation의 코드 저장소입니다. 기본적으로는 conditional GAN인데, 얼굴의 해부학적 움직임을 기술하기 위한 방법론인 FACS (facial action coding system)를 활용하였습니다. FACS에 따르면 우리…
애니메이션 캐릭터 이미지 데이터베이스인 Danbooru 2019 버전 링크를 소개합니다. 약 3.7백만개의 이미지가 있고 이미지당 약 29개의 tag가 붙어 있습니다. Tag의 예제로는 “1girl”, “solo”, “long_hair”, “highres”, “smile”, “open_mouth”와 같은 것들이 있어서…
인간의 감정 인지나 표현은 복합적인 것이 많은데 (예: 화내는 감정은 표정, 목소리, 언어에 모두 영향을 줌) 오디오-비디오가 함께 묶여 있으면서 감성 라벨링이 되어 있는 오픈 데이터셋을 하나 소개합니다. The Ryerson…
AI 챗봇이 주로 하는 일은 상품 정보 설명, 스케줄 알려주기, 날씨 확인 등 질의 응답이라고 할 수 있습니다. 아마도 이러한 기술이 극대화 되면 ‘지식’이라는 인간의 일부 분야에 대해서 ‘Super Human…