OpenAI DALL-E: 텍스트로부터 이미지 생성
OpenAI가 발표한 DALL-E는 자연어 텍스트로부터 이미지를 생성하는 기술입니다. 기존에도 StackGAN이나 OP-GAN 등 같은 목적의 기술들이 있었지만 DALL-E는 초대규모 언어 모델인 GPT-3 기반으로 만들어져서 최종 결과물의 품질이 월등히 우수하다는 장점이 있습니다.…
OpenAI가 발표한 DALL-E는 자연어 텍스트로부터 이미지를 생성하는 기술입니다. 기존에도 StackGAN이나 OP-GAN 등 같은 목적의 기술들이 있었지만 DALL-E는 초대규모 언어 모델인 GPT-3 기반으로 만들어져서 최종 결과물의 품질이 월등히 우수하다는 장점이 있습니다.…
SuperGLUE는 다양한 자연어 이해 task에 대해 AI 기술의 성능을 평가하는 챌린지입니다. 기존 GLUE에 비해 상대적으로 난이도가 높은 task들로 구성되어 있는 것이 특징인데, 최근 Microsoft에서 발표한 DeBERTa 모델이 SOTA(state-of-the-arts)를 달성했으며, 평가…
2012년 딥러닝이 본격적으로 등장한 이후 많은 분야에서 AI 기술은 기존 기술의 성능을 훌쩍 뛰어넘는 성과를 거두어 왔습니다. 제한된 환경이기는 하지만 아타리 게임은 2015년, 이미지 인식과 바둑은 2016년에, 피부암 진단과 음성…
최근 정식 버전이 릴리즈된 스캐터랩(https://scatterlab.co.kr/)의 “루다”는 수십억건의 카카오톡 대화 데이터를 기반으로 학습된 오픈도메인 챗봇으로 누구나 페이스북 메신저를 통해 대화를 나눠볼 수 있도록 개발되었습니다. DEVIEW 2020에서 스캐터랩 김종윤 CEO가 발표한 동영상은…
일상 생활에 지장을 줄 정도로 뇌의 기능이 크게 저하되는 현상을 통틀어 치매라고 하는데, 알츠하이머는 치매 중 60%-80% 가량을 차지하는 가장 큰 원인 중 하나입니다. Stevens Institute of Technology에서는, 알츠하이머를 빠르게…
KoChat은 고현웅님이 공개한 한국어 오픈소스 챗봇 프레임워크입니다. 다음은 KoChat github 저장소입니다: 흔히 챗봇이라고 하면 대화 모델만을 생각하는 경우가 많지만, 사실 챗봇이라는 제품 관점에서 보면 머신러닝 알고리즘이 차지하는 부분은 일부분에 불과합니다.…
FrankMocap은 Facebook AI Research(FAIR)에서 공개한 기술로서 한 장의 이미지, 혹은 동영상에서 3D 모델을 위한 포즈를 추출해내는 역할을 합니다. 특히, 바디 뿐 아니라 손 모양까지 함께 추정할 수 있다는 것이 특징이라고…
Digital Human Platform은 인간형 외모를 가진 아바타에 다양한 AI 기술을 접목한 형태입니다. AI 대화 기술 및 시각화 기술의 발전에 힘입어 현재 다수의 Digital Human Platform 업체가 등장하고 있는데, 그 중…
AI 트렌드 및 게임 업체들의 AI 기술 적용 사례들을 정리한 보고서입니다. 대략적 목차는 다음과 같습니다: AI is… AI 마켓과 주요 플레이어 기술과 서비스 게임 특화 접근 게임 적용 사례
조준희님이 수집하여 라벨링한 한국어 욕설 데이터 세트를 공유합니다. 여러 커뮤니티에서 수집된 것으로서, 실세계 데이터에 대한 평가용으로 적합한 것 같습니다. 아래는 데이터 세트에 대한 설명입니다: Data Description 문장의 욕설 여부를 분류한…
BERT로 대표되는 딥러닝 기반의 대규모 언어 모델은 Q&A, 문서 요약, 문서 생성, 대화 등 자연어 관련한 다양한 task에서 뛰어난 성능을 보이고 있으며 특히 최근 등장한 GPT-3의 경우 인공 일반 지능(AGI)에…
Gather Town은 Zoom이나 Teams와 같은 화상미팅 솔루션의 일종이지만, 가상 공간과 아바타를 적극적으로 도입한 것이 특징입니다. 예를 들어 “Office”라는 가상 공간을 만들고, 각 참여자들은 고유한 아바타와 가상 공간 내 “자리”를 부여받습니다.…
주어진 질문에 대해 적합한 답변을 생성하는 QA Task는 최근 딥러닝 기술로 인해 많은 성능 향상이 이루어져 왔습니다. 잘 알려진 SQuAD도 이런 Task 중 하나입니다. 그런데, 각 Task 별로 모델이 학습되다보니…
흔히 Q&A task라고 부르는 문제는 질문과 대답을 pair로 기록한 데이터 세트로부터 학습하여 질문을 던졌을 때 적절한 대답이 나오도록 하는 것을 목표로 합니다. 챗봇을 생각하면 되는데, question generation은 이와는 달리 문단을…
StudioGAN은 포항공대 CVLab 강민국님께서 공개하신 pytorch 기반의 오픈소스 라이브러리로서 다양한 GAN 알고리즘들이 구현되어 있습니다. 포함되어 있는 GAN 알고리즘에는 DCGAN, LSGAN, WGAN 등 주요 알고리즘들이 다수 포함되어 있어 상호 성능 비교 등…
포커는 반이 심리전이라고 해도 과언이 아닐 만큼 바둑이나 체스와는 또 다른 게임입니다. 이번에 페이스북이 공개한 ReBeL은 이런 점에서 주목할 만하다고 생각합니다. 특히, 강화학습과 검색을 함께 사용한 것이 특징인데, RAG와 같이…
위처 시리즈로 유명한 CD PROJEKT RED 스튜디오에서 2020년 말 출시할 Cyberpunk 2077에는 JaliResearch의 얼굴 애니메이션 기술이 사용되었습니다. 주 목적은, 3D 캐릭터가 다양한 표정을 지을 수 있도록 하고, 다국어 음성에 맞게…
MindMeld는 서비스 가능한 수준의 품질 확보를 목적으로 만들어진 오픈소스 대화형 AI 플랫폼입니다. Python으로 작성되어 있으며 최신 NLP 기술 및 지식 기반 Q&A 엔진을 포함하고 있습니다. 다음은 MindMeld 플랫폼의 대략적 아키텍처입니다:…
최근 AI 분야에서 있었던 여러 변화들을 분석한 리포트인 State of AI Report 2020입니다. 이 보고서는 AI 투자자 Nathan Benaich 와 Ian Hogarth가 매년 작성하고 있으며 올해가 3년째입니다. 아래와 같은 다섯…
디비전2는 매시브 엔터테인먼트가 개발하고 유비소프트가 퍼블리싱한 온라인 액션 RPG로서 천연두가 유행하는 워싱턴 DC를 배경으로 하고 있습니다. 게이머는 정부 요원과 함께 도시를 새로 세우는 역할을 맡아 수행하게 됩니다. 매시브 엔터테인먼트의 수석…
아바타는 AI 기술이 등장하기 오래 전 부터 SNS, 고객 응대, 게임 내 캐릭터 표현 등 여러 가지 형태로 활용되어 왔습니다. 관련한 그래픽 기술의 발전에 힘 입어, 다양한 시도들이 이루어져 왔는데,…
Unity의 ArtEngine은 AI 기반의 기술을 이용해서 고품질의 그래픽 리소스들을 쉽게 만들 수 있도록 도와주는 도구입니다. Unity에서는 이러한 기술들을 AI-assisted artistry라고 부르는데, 상세히 사용해 본 것은 아니지만 상당히 유용해 보이는 기능들이…
Interspeech 2020에 발표되었던 Facebook의 실시간 잡음 제거 기술인 denoiser의 github 링크를 공유합니다. Pytorch로 구현되어 있으며 원 논문 제목은 “Real Time Speech Enhancement in the Waveform Domain”입니다. 제목에서 알 수 있듯이…
IDC 예측 보고서에 따르면 2020년 AI 마켓 규모는 약 157B$로 예측된다고 합니다. 물론 이 수치는 AI와 관련된 다양한 업종, 즉 하드웨어와 클라우드 서비스, 소프트웨어를 모두 합한 것입니다. 또한, 이 보고서에서는…
일반적으로 Q&A 시스템은 텍스트를 사용해서 질의 응답을 수행합니다. 이런 방식의 태스크로는 어떤 사실을 설명한 문단을 주고 질문을 던지면 적당한 대답을 생성하는 Squad task가 있습니다. 이에 비해, Visual QA는 텍스트 대신…
UneeQ가 Digital Human Creator라는 디지털 휴먼 플랫폼을 출시했습니다. 서비스 가격이 다소 부담스럽긴 하지만, free trial을 제공하고 있어서 간단한 테스트를 해 보기에는 부족함이 없습니다. 시각적 측면에서는 기존에 많이 나왔던 3D 아바타들을…
Human-Like AI의 시각화 부분을 구현하기 위해서는 3D 휴먼 모델을 어떻게 만들고, 움직일 것인가에 대한 고민이 필요한데 기존 다양한 접근 방법이 있지만, 그 중 하나로 Max Planck ETH Center에서 CVPR 2020에…
기존 영어 위주로 연구되던 언어 모델 및 번역 모델을 다국어로 확장하려는 시도가 많이 이루어지고 있습니다. Google의 mT5는 기존 T5 (text-to-text transfer transformer)를 다국어 코퍼스로 확장한 연구로서, 총 101개국 언어를 포함한…
코로나19가 전세계적으로 아직 진정될 기미를 보이지 않고 있습니다. MIT에서는 핸드폰으로 녹음한 기침소리로부터 코로나19 감염 여부를 확인할 수 있는 AI 모델을 학습하였고, 이에 대한 방법론과 실험 결과를 논문으로 발표하였습니다. 실험 결과에…
Adobe에서 neural filter라고 불리는 AI 기반의 편집 도구들을 발표했습니다. 일부는 이미 Photoshop 최신 버전에 포함되었다고 하네요. 예시로 든 기능에는 사진의 하늘을 통째로 다른 하늘로 변경하는 것 (맑은 하늘, 구름이 있는…
2020년은 미디어 압축 분야에서 AI 기술 적용이 본격적으로 고려되는 원년이 될 것 같습니다. 올해 있었던 4가지 이벤트를 간략하게 살펴보면 다음과 같습니다. (1) 차세대 영상 표준에서 딥러닝 기술이 빠지다 먼저, 7월에는…
핑퐁 블로그에 “슈퍼휴먼 AI를 꿈꾸는 루다의 대화 구성”이라는 글이 올라왔는데, 오픈 도메인 챗봇을 설계함에 있어서 고민해야 할 부분들이 여러 가지 들어 있어서 공유합니다. 이루다는 일상 대화 기술을 고도화하고 있는 스캐터랩이…
AI 기술을 이용한 코로나19 관련 연구들이 다수 등장하고 있습니다. 아래에 공유한 논문은 Nature지에 게재된 Fraunhofer HHI의 연구로서, Bluetooth Low Energy(BLE)로부터 측정한 수치들을 머신러닝 기법으로 분석하여 확진자와 접촉한 사람들 중 위험군들을…
NVidia에서 Maxine이라는 클라우드 기반 화상 통신 플랫폼을 공개했습니다. Maxine의 특징은 AI 기술을 전면적으로 도입한 것인데, 구체적으로 얼굴 영상을 H.264와 같은 영상 코딩 기술로 압축해서 보내는 방식이 아니라 facial landmark를 detection하여…
마음이 참 짠했던 사진입니다. 저화질로만 남아 있는 유관순 열사의 사진을 고화질로 복원하고 미소를 덧붙인 것인데, 딥러닝 기반의 얼굴 편집 기술이 들어간 Faceapp을 사용했다고 합니다. Faceapp에 정확히 어떤 기술이 들어갔는지는 알…
최근 사람의 모션에서 움직임을 추출하여 새로운 모션을 생성하는 기술들이 많은 것 같습니다. (vid2vid, vid2game, pose2pose) Vid2Player는 Stanford 대학에서 연구한 내용인데, 실제 테니스 랠리 영상 데이터를 이용하여 공이 위치하는 곳에 따라…
여러 네트워크 모델을 앙상블로 결합하면 성능이 오르는데, 총 네트워크의 크기와 추론 시간도 함께 증가하기 때문에 실제로 적용할 때는 어려움이 많은 것이 현실입니다. MEAL(Multi-model Ensemble via Adversarial Learning)은 이러한 점을 해결하기…
NLP Dataset과 Evaluation metric을 쉽게 사용할 수 있게 해 주는 Huggingface Datasets 라이브러리의 첫 번째 stable version 1.0이 공개되었습니다. 현재 약 100개의 Dataset과 각 Dataset에 맞는 Evaluation metric(약 10개)을 지원합니다.…
가상 캐릭터를 보기에도 자연스럽고 물리 법칙 측면에서도 합리적으로, 즉 Human-Like하게 움직이는 것은 게임 분야는 물론 컴퓨터 그래픽스 전반에 걸쳐 오랜 연구 주제였습니다. Facebook 원정담님이 제 1저자로 참여하신 프로젝트인 “A Scalable…
LipGAN은 음성 신호를 이용하여 얼굴 이미지의 입술 모양을 생성하는 기술인데, 실제로 동영상에 적용해보니 visual artifact나 움직임의 자연성 측면에서 다소 아쉬움이 있었습니다. 이를 개선하기 위해서 Discriminator에서 단일 frame이 아니라 복수개의 연속된…
Transformer 기반의 언어 모델들이 보여주는 성능적 향상은 놀랍지만 모델 크기가 기하급수적으로 늘어나면서 서비스 비용에 대한 고민도 중요해지고 있습니다. Bert-base나 GPT-2의 경우 약 1억개의 파라미터를 가지고 있어서 모델 크기, 메모리 대역폭,…
링크는 Sony와 ETH Zurich에서 발표한 논문에 대한 리뷰글인데, 유명 자동차 게임인 Gran Turismo를 대상으로 reinforcement learning을 적용해서 인간 기록을 넘는 결과를 냈다는 내용입니다. 사용된 기술 자체는 이미 잘 알려져 있는…
일상 대화 연구에서 두각을 나타내고 있는 스캐터랩(https://scatterlab.co.kr/) 핑퐁팀 블로그에 있는 글인데 GPT-3 사례에 대해서 스토리있게 잘 정리된 것 같아서 공유합니다. 저는 GPT-3를 아직은 ‘의심의 눈초리’로 보고 있습니다만 다시 봐도 신기한…
bryandlee님 github에 deep generative model을 이용한 image translation 적용 결과와, 침착맨 이말년 웹툰으로 만든 관련 연구가 있어서 공유합니다. 연구 제목도 “침착한 생성모델 학습기”입니다. 전 이런 위트가 좋더라구요! 과정을 보면, 웹툰…
하나의 프로그래밍 언어로 쓰여진 코드를 다른 프로그래밍 언어로 바꾸고자 하는 시도는 그 동안 많이 있어왔고, 상용 툴도 여러 종류가 있습니다. 주된 사용 목적은 호환성 확보인데, 예를 들어 FORTRAN이나 BASIC, 혹은…
Imagenet-1K(1000개 클래스 이미지 분류 문제)는 CNN의 발전과 더불어 수많은 최적화가 이루어져온 Task입니다. 딥러닝 시대의 개막을 알린 AlexNet의 TOP-5 에러는 약 17%인데, 이 당시 기존 최고 기술(SIFT+FV)의 TOP-5 에러가 약 26%였던…
Iskander Utebayev라는 디자이너가 만든 AR Glass 컨셉 영상입니다. 컨셉영상인 것을 감안하더라도 상당히 Fancy하고 일단 구현만 된다면 스마트기기를 사용하는 Human-Machine Interface를 크게 바꿀 수 있는 잠재력이 있다고 생각합니다. AI 기술을 적용할…
특수 훈련을 받으면 입술 움직임만으로 무슨 말 하는지 알 수 있다고 하는 이야기를 들은 적이 있는데요, 링크글의 연구는 이것을 AI로 실현한 것입니다^^ Lip2Wav라고 불리는 이 기술은 이미지로부터 ConvNet을 이용하여 feature를…
대규모 언어 모델의 경우 한국어 모델이 없어 항상 어려운 점이 있었는데 SKT의 KoBERT에 이어 Naver에서 네이버 댓글 데이터, 신조어 등을 반영한 데이터로 바닥부터 학습한 KcBERT를 공개했습니다. 학습된 모델 뿐 아니라…
딥러닝 기반의 super resolution 기술은 NVidia의 최신 GPU에서 DLSS(deep learning super sampling)라는 이름으로 채용되어 consumer 대상으로 실 서비스되는 기술이 되었는데요, 주로 4K 게이밍 시장에서 4K 렌더링의 비용을 낮추기 위해 2K…
일반적으로 이미지에서 사용되는 convolution은 3D operation입니다. (KxKxC; K=커널크기, C=채널수) 이것을 KxKx1의 2D operation 복수개로 분할하여 적용한 후, 채널 방향으로 1x1xC 크기로 convolution을 적용하는 depthwise separable convolution은 파라미터 수를 엄청나게 감소시킵니다.…
LipGan은 음성 신호로부터 입 모양을 생성하는 연구입니다. 가상 캐릭터의 입 애니메이션을 만들어내는데 유용하게 사용될 수 있는 기술이지만, 실제로 적용해 보면 가만히 있는 캐릭터의 입술만 움직이기 때문에 한계가 명확합니다. 실제로 인간이…
최근 비대면 화상 미팅이 일상화 되면서 Zoom을 사용해서 다자간 화상 회의를 하는 일이 많아졌습니다. Zoom fatigue라고 불리는 현상도 더불어 주목받고 있는데요, 이 것은 사각형으로 각 사람을 가득 채운 UX로 장시간…
(ISO MPEG) VVC 혹은 (ITU-T) H.266이라는 이름을 갖는 신규 영상 코덱의 국제 표준안이 릴리즈 되었습니다. 관련 기사 공유합니다. 딥러닝 기술이 등장하기 전에 대부분의 기술이 완성되었던 HEVC와는 달리 VVC의 경우 딥러닝…
각종 통계를 보면 AI 관련 major conference 참가자의 수는 5년간 6배가 증가했으며 AI 스타트업의 수는 비 AI 스타트업이 4년간 28% 증가하는 동안 113% 증가했습니다. 벤처 투자액은 비 AI 분야에서 5년간…
Visual Dialog task는 질의 응답으로 이루어지는 Q&A task에 이미지를 추가한 멀티모달 task입니다. 예를 들어 흰색 고양이와 검은색 강아지가 함께 있는 사진을 주고 “고양이 옆 동물은 무슨 색이야?”라고 물어보면 “검은색”하고 대답하는…
최근 재미있게 읽은 글 공유합니다. 이 글에서는 인간과 AI가 각자 잘하는 분야가 다르고, 어느 한 쪽이 다른 쪽을 대치하기 보다는 함께 협업하는 형태를 소개합니다. 집단 지성(collective intelligence)은 한 개인의 지적…
SIGGRAPH 2019에서 발표된 논문인 “Learning Character-Agnostic Motion for Motion Retargeting in 2D”의 프로젝트 페이지 공유합니다. 이 논문은 (서로 달라도 되는) 영상 3개로부터 각각 motion, skeleton, camera angle을 추출한 후에 이들을…
게임 제작 쪽에서는 이미 많이 활용하고 있는 Adobe Mixamo 사이트 링크 공유합니다. 들어가보면 3D 캐릭터 121개와 캐릭터 모션 2484개가 올라와 있고, (Autodesk) FBX라는 3D 포맷으로 다운받을 수 있습니다. 이 포맷은…
Tacotron2, MelGan, FastSpeech등 여러 최신 TTS 모델을 지원하는 Tensorflow 2 기반의 오픈소스인 TensorflowTTS가 드디어 Microsoft FastSpeech2를 지원하기 시작했습니다. FastSpeech2는 Transformer 계열의 TTS와 유사한 성능을 보이지만 학습에 걸리는 시간이 2배 이상…
링크글은 Intelligence와 Automation의 차이에 대한 많은 고민이 들게 만드는 글입니다. Artificial Intelligence는 1960년대 신경망이 등장하면서 쓰이게 된 용어로 알려져 있는데요, 이후 컴퓨팅 파워나 데이터 확보 등에서 어려움을 겪으면서 특별한 진전을…
영상이나 이미지로부터 감정을 인식하는 시도들은 다양하게 있어 왔습니다. 클라우드 API에서도 제공되고 SNS에서도 화제가 될 만큼 (기쁨 95% 등등) 많이 알려진 응용 분야입니다. 아래 링크한 논문은 영상으로부터 감정을 인식함에 있어서, 얼굴…
동영상 압축 분야에서도 무어의 법칙(트랜지스터의 수가 2년에 2배씩 증가)과 같은 것이 있는데, 1993년 MPEG-1, 2003년 MPEG-4/AVC (H.264), 2013년 MPEG-H/HEVC (H.265)로 이어지는 10년 2배 압축률 증가 경향입니다. 참고로 이미지 압축의 경우,…
Text-to-SQL은 자연어를 SQL로 자동 변환하는 Task입니다. 하단에 공유한 글은 Microsoft 소속의 Aerin Kim이 작성한 글인데, Text-to-SQL에 대해서 잘 정리되어 있습니다. 세상에는 수 많은 데이터들이 Relational Database로 구축되어 있고, 이 Database에서…
딥러닝 알고리즘을 학습할 때는 GPU가 필수적이라고 생각되지만, 모델 학습이 완료되고 난 후 서빙을 하는 경우에는 GPU 대신 CPU를 쓰는 경우가 많이 있습니다. 예를 들어 어느 정도 최적화 과정을 거치고 나면…
MIT의 Speech2Face는 음성신호로부터 화자의 얼굴을 생성해내는 연구입니다. 다만 하나의 모델로 speech to face transform을 수행하는 것이 아니며, 다른 목적의 기존 연구 결과들을 잘 조합하여 인상적인 결과를 만들어냅니다. (제1 저자는 현재…
Google이 공개한 MixIT AI는 복수개 음원이 믹싱된 싱글 채널 오디오로부터 분리된 음원을 얻는 기술입니다. Blind source separation task라고 볼 수 있는데, 기존 기술들과는 달리 unsupervised(!)로 우수한 성능을 낸다는 특징이 있습니다.…
예측 분야에서, Algorithm Aversion(알고리즘 혐오)는 알고리즘이 실수할 수 있다는 것을 인지하게 되면 인간의 예측보다 우수하더라도 쓰지 않으려는 경향이 있다는 의미로 쓰입니다. 예를 들어 AI 면접, 질병 예측, 자율 주행, AI…
53,000시간의 라벨링 없는 데이터로 representation training을 한 후, 10분 분량의 라벨링 된 데이터만으로 음성인식기를 만들어낸다고 해서 화제가 되었던 Facebook의 wav2vec 2.0에 대한 pre-trained model이 공개가 되었습니다. Representation model에 no fine-tuning,…
(자율주행차 등에 사용될) 도로 상황 인식 연구를 위해 만들어진 데이터셋 DriveSeg입니다. 동영상의 각 프레임에 대해, 이미지 전체를 pixel-by-pixel로 semantic labeling 한 것입니다. Label은 “vehicle, pedestrian, road, sidewalk, bicycle, motorcycle, building,…
조금 비약이 있기는 하지만 AI 알고리즘에 물리적 장치를 추가한 것을 지능형 로봇이라고 본다면, 아마도 향후 가장 많이 보급될 지능형 로봇은 자율주행차일 수도 있다는 생각이 들었습니다. 좀 궁금해져서 자율주행차에 대한 서베이…
최근 트렌드 중 하나는 초거대 모델, 즉 파라미터의 수를 엄청나게 늘리고 기존 학습법을 적용하는 것입니다. 인간의 뇌가 보여주는 “소프트웨어적 능력”은 둘째 치고, 얼마나 늘려야 인간의 뇌의 “하드웨어적” 능력에 도달할 것인가?에…
현재까지 제안된 많은 MRC 모델들이 다양한 Task와 Dataset에서 인간의 능력을 넘어선 평가값을 보여주고 있지만, 주어진 context에 대해서 인간보다 더 잘 이해하는 것인가?라는 질문을 받는다면 쉽게 YES라고 말하기 어렵다고 생각합니다. 우선,…
IBM의 감성 로봇 나오미(Nao-mi)에 대한 영상입니다. [내용 요약] 어렵게 쌓은 탑을 무너뜨리라고 요구하는 사람과 하기 싫다고 말하는 로봇. 계속적인 요구에 로봇은 울다가 결국 무너뜨립니다. 영상을 보면서 가슴이 많이 아팠습니다. 마음을…
Few shot learning만으로 모든 자연어 task에 적용할 수 있는 가능성을 보여준 초대규모 언어 모델의 대명사 GPT-3의 학습 비용은 한화로 약 40억원으로 추산된다고 합니다. GPT-2의 경우는 약 4천만원. 아무리 재활용성이 높다고…
락스타에서 만든 2011년작인 LA 느와르는 다른 게임보다 훨씬 우월한 수준의 얼굴 애니메이션이 적용되어 많은 사람들을 놀라게 했습니다. 이때 사용된 기술은 MotionScan이라고 불리는데, 기본적으로 여러대의 카메라가 정교하게 배치된 방 안에 배우가…
디지털화가 진행되고 인터넷, 웹이 등장하면서 지식은 전세계 서버에 분산되어 저장되었고 서로 연결되고 검색 가능하게 되어 접근성과 활용성이 비약적으로 발전합니다. 책을 도서관에서 빌려서 순차적으로 읽으면서 정보를 “검색”하는 대신, 검색 엔진을 이용하여…
“Codec Avatar”라는 이름으로 진행되는 Facebook의 디지털 휴먼 프로젝트의 데모 영상이 공개되었습니다. 2019년 영상에 비해서 추가된 부분으로,아바타 외형이 좀 더 사실적으로 바뀌었고 마커 없이 몸 전체를 트래킹하는 기술을 보여줍니다. 2019년 3월…
이미지 한장을 입력으로 얼굴 표정을 바꾸는 애니메이션을 만들어주는 기술인 GANimation의 코드 저장소입니다. 기본적으로는 conditional GAN인데, 얼굴의 해부학적 움직임을 기술하기 위한 방법론인 FACS (facial action coding system)를 활용하였습니다. FACS에 따르면 우리…
일본의 Virtual Human Project인 Saya 프로젝트. 일본어로 되어 있어서 진척도를 전부 이해하지는 못했지만 비주얼적인 완성도는 상당히 높고, 표정도 자연스럽습니다. 향후 인간의 감정 추가, 행동 인식, 대화 등의 기능을 추가할 계획이라고…
애니메이션 캐릭터 이미지 데이터베이스인 Danbooru 2019 버전 링크를 소개합니다. 약 3.7백만개의 이미지가 있고 이미지당 약 29개의 tag가 붙어 있습니다. Tag의 예제로는 “1girl”, “solo”, “long_hair”, “highres”, “smile”, “open_mouth”와 같은 것들이 있어서…
Human-like AI를 탑재한 인간형 캐릭터의 완성도가 엄청나게 향상되었다고 가정해보면, 이를 컴퓨터나 스마트폰 스크린과 같은 2D 평면에 전시하고 마우스, 키보드, 터치로 상호작용을 하는 것만으로는 잠재력을 충분히 사용하지 못한다는 생각이 듭니다. 이의…
인간의 감정 인지나 표현은 복합적인 것이 많은데 (예: 화내는 감정은 표정, 목소리, 언어에 모두 영향을 줌) 오디오-비디오가 함께 묶여 있으면서 감성 라벨링이 되어 있는 오픈 데이터셋을 하나 소개합니다. The Ryerson…
최근 재미있게 읽은 인간의 능력과 신경망의 관계에 대한 글입니다. 글에도 나오지만 인간의 뇌와 신경망의 동작 방식은 유사한 구석이 있지만 같을 필요는 없다고 봅니다. 헤엄치기 위해 물고기를 따라하기 보다는 잠수함을 만들면…
유명 게임 회사인 King의 캔디크러시사가는 수 많은 레벨로 구성되어 있는 퍼즐 게임입니다. 2018년 데이터이긴 하지만 매주 약 15개의 레벨을 추가한다고 합니다. (1년에 약 3700개) 레벨의 난이도를 측정하여 밸런싱을 해야 하는데,…
AI 챗봇이 주로 하는 일은 상품 정보 설명, 스케줄 알려주기, 날씨 확인 등 질의 응답이라고 할 수 있습니다. 아마도 이러한 기술이 극대화 되면 ‘지식’이라는 인간의 일부 분야에 대해서 ‘Super Human…
“Synthetic media”라는 워딩으로 AI 기술을 미디어 마케팅에 적용하고 있는 Synthesia 블로그의 글입니다. 이 회사가 주로 하는 분야는 동영상내 모델의 얼굴 표정 및 입술 모양을 또 다른 영상으로부터 옮겨와서 합성(조정?)하는 것입니다.…
Rosebud.ai(https://rosebud.ai/)는 마케팅 캠페인을 위해 만들어진 이미지에 가상의 모델 얼굴을 생성하여 합성하는 기술로 마케팅 시장을 타게팅하고 있습니다. 만들어진 결과물은 꽤 자연스럽고, 사진을 다시 찍지 않아도 언제라도 모델 얼굴을 교체할 수 있다는…
대다수의 챗봇 시스템은 아직도 규칙 기반으로 동작하지만, 자연스러운 대화를 구현하기 위해서는 결국 BERT 등 더 복잡한 언어 모델들을 사용해야 합니다. 다만, BERT는 무겁고 복잡하다는 인식이 많은데, 게임 플랫폼 업체인 Roblox에서…
TikTok이 사람 얼굴을 애니메이션 캐릭터로 실시간 변환해주는 필터를 추가했습니다. Selfie2Anime도 그렇고 김준호님이 만든 UGatIT도 그렇고 참고할 결과들이 있긴 하지만 TikTok의 기술은 완성도 면에서 상당한 수준에 올라온 듯 합니다. 섬세한 얼굴…