RAGAS: RAG 시스템 성능 평가, 이제는 제대로 해보자!
[Interactive AI 기술팀 김윤혜] RAG(Retrieval-Augmented Generation, 검색 증강 생성) 파이프라인은 대규모 언어 모델(LLM)의 한계를 보완하기 위해 외부 지식을 활용하여 보다 정확하고 관련성 높은 응답을 생성하는 기술입니다. 그러나 이러한 파이프라인의 성능을…
[Interactive AI 기술팀 김윤혜] RAG(Retrieval-Augmented Generation, 검색 증강 생성) 파이프라인은 대규모 언어 모델(LLM)의 한계를 보완하기 위해 외부 지식을 활용하여 보다 정확하고 관련성 높은 응답을 생성하는 기술입니다. 그러나 이러한 파이프라인의 성능을…
[Interactive AI서비스팀 임석영] 대 AI 시대가 찾아온 혼돈의 시기에 저 같은 AI 모르는 개발자는 어떻게 AI 서비스를 만들 수 있을까요? 이번 글에선 저같이 아무것도 모르는 상태에서 간단한 AI 서비스를 만드는…
[AI 서비스 기획팀 유연오] 1. 흑백요리사 : AI 패러디 물 등장 최근 넷플릭스에서 흥행을 거둔 시리즈가 있습니다. 바로 흑백요리사입니다. 평소 요리에 큰 관심이 없는 저조차도 ‘맛으로만 승부한다’는 독특한 컨셉에 이끌려…
[Creative AI 기술팀 김윤태] 디지털 시대의 빠른 발전과 함께, 인공지능(AI)은 상상만 했던 것들을 현실로 만드는 놀라운 도구가 되었습니다. 그중에서도 Text-to-Image (T2I) 모델, 즉 텍스트를 입력하면 이미지를 생성해내는 기술은 많은 이들에게…
[Media AI 서비스팀 김상우] AI 기술 등에 대한 칼럼을 다루는 이 페이지에, 이런 덕후스러운 썸네일을 올리게 된 점 매우 미안하게 생각합니다. 하지만 AI 기술의 발전은, 애니메이션과 게임을 좋아하는 저를 매우…
[Interactive AI서비스팀 김민석] 다양한 규모의 서비스를 개발하고 운영하면서 점점 더 많은 머신러닝 모델을 서빙하게 됩니다. 이 과정에서 기존 모델을 변경할 때는 해당 모델을 사용하는 서비스와 시스템 내의 관련 구성 요소를…
[Media AI서비스팀 이진희] 최근 텍스트 만으로도 실제와 비슷한 동영상을 제작할 수 있는 생성 AI 서비스들이 우후죽순 등장하며 연일 화제에 오르고 있습니다. 2024년 2월, OpenAI에서 발표한 Sora(소라)가 대표적인데요. 실제 카메라로 찍은…
[생성AI서비스팀 김경환] 현시대의 개발에서는 “오픈소스 문화”를 떼어 놓고 이야기하는 것이 불가능합니다. 특히 인공지능 분야에서는 Pytorch와 같은 딥러닝 프레임워크에서부터 심지어는 사전 학습 모델까지도 공개하고 기여하는 것이 추세입니다. 내가 업무에 사용하는 오픈소스…
[선행AI기술팀 이지현] Model Merge (모델 병합)은 여러 개의 Large Language Models (LLMs; 대형 언어 모델)을 추가 교육이나 미세 조정 없이 하나의 강력한 모델로 결합하는 방법론입니다. 특정 태스크에 최적화된 각 LLMs을…
인공지능의 발전은 우리의 삶에 큰 변화를 가져왔습니다. 특히 generative 모델은 이러한 변화의 중심에 서 있습니다. 디퓨전을 기반으로 한 생성 모델이 이미지, 오디오 생성 분야에 활용되고 있으며, 다양한 성과를 보여 주고…
“AI를 활용하여 1분짜리 SF영화 예고편을 만들어 보자” [뉴미디어서비스팀 유선민] 물론, 우리가 헐리우드에서 보던 퀄리티는 아니지만 하루만에 뚝딱 책상 머리 앞에서 만든 것에 의의를 둔다면 ‘세상 참 좋아졌다’ 라는 소리가 절로…
[뉴미디어서비스팀 윤형진] AI 기술이 발전함에 따라 게임이나, 영상 쪽에서 사용되는 언리얼5 등의 제작 엔진에서도 관련된 기술을 적용하려는 움직임이 많이 보이고 있습니다.그 중에서 오늘 소개 드릴 것은 언리얼 5.2 부터 추가된…
[선행AI기술팀 방나모] 최근 몇 년간 자연어처리 기술은 눈부신 발전을 했습니다. 지금은 자연어처리 기술이 많은 산업 분야에 적용되어 사람의 수고를 덜어주는게 일반적인 상황이 되었습니다.소프트웨어 개발 분야는 자연어처리 기술을 가장 적극적으로 이용하는…
[AI서비스기획팀 김현주] 음악 전문 지식이 없더라도 간단히 명령어만 입력하면 단 몇 분 만에 전문가 수준의 음악을 만들 수 있는 시대가 왔다. 음악은 단순히 사람들이 즐기는 것 뿐만 아니라 음악을 만드는…
[생성AI서비스팀 이혜진] 지난 몇 년 동안, AI 기술의 발전은 여러 IT 산업에 혁신적인 변화를 가져왔습니다. 그렇다면 게임 회사에서는 어떻게 AI를 활용하여 발전할 수 있을까요? 가장 먼저 드는 생각은 아마 게임…
[분석AI서비스팀 전소희] AI 기술이 나날이 진화함에 따라 엔터테인먼트, 미디어, 전자상거래, 의료, 교육, 제조 등 다양한 산업군에 계속해서 AI 활용도가 증가하고 있습니다. 웹서비스 개발자로써 그동안 java를 백엔드 언어로 사용해왔는데, 현재 가장…
[선행AI기술팀 신숙영] Redis를 사용하면서 관심을 가지게 된 RedisAI에 관하여 소개하도록 하겠습니다. RedisAI란? RedisAI는 Redis Labs에서 개발한 오픈 소스 솔루션으로, Redis 데이터 구조 서버를 기반으로 딥러닝 모델을 관리하고 실행하는 데 사용됩니다.…
[AI센터 한대웅] 해마다 연초에 시작하는 세계 최대 행사인 CES(1월)와 MWC(2월)는 기업들이 저마다 가지고 있는 기술을 200%(?) 활용하여 제품과 서비스를 통하여 알리고 고객들과 직접적인 대면을 통한 피드백을 받을 수 있는 행사이면서…
[분석AI서비스팀 이현정] 관리해야 할 AI모델과 데이터가 많아지고 그 용량이 커지면서 필자가 관심을 가지게 된 Ceph에 대해 간략히 소개해 보고자 합니다. Ceph 이란?Ceph은 단일 분산 컴퓨터 클러스터에 오브젝트 스토리지를 구현하는 오픈…
[선행AI기술팀 전동준] 스타트업 회사인 Mistral AI 에서 지난 8일에 Mixtral 8x7B 모델을 오픈소스로 출시하였습니다. 지난 9월에 출시한 Mistral 7B 모델 기반으로 현존 언어 생성 분야에서 최고 성능인 GPT-4에서 채택중인 “MoE”…
[선행AI기술팀 김석겸] 오늘 소개할 기술은 구글의 제미나이입니다. 제미나이는 구글에서 LLM의 최고는 누구인가, 어떤 모달리티까지 커버할 수 있는가, 요즘 핫한 on-device AI까지 다 먹어버리겠다고 나온 모델입니다. 아래 영상이 이를 잘 보여줍니다.…
[생성AI서비스팀 정재철] 세계 3대 컴퓨터 비전 학회 중 하나인 ICCV 2023(International Conference on Computer Vision, 국제 컴퓨터 비전 학회)이 10월 2일 부터 6일 까지 프랑스 파리에서 개최되었습니다. 이번 ICCV 2023을…
[분석AI서비스팀 김민석] ML 서비스가 많아지고, 지속적 학습을 하기 위해서는 ML PIPELINE을 구성하고 이를 관리하기 하기 위해서 우리는 여러 MLOPS 플랫폼을 사용하는데요.대표적으로 Kubeflow가 있을텐데요. Kubeflow는 다양한 장점이 있지만 Kubernetes 환경에 종속적이며,…
[분석AI서비스팀 박효주] 최근 언어 모델의 발전은 큰 임팩트를 주었고, 그만큼 연구 또한 활발히 이루어지고 있습니다. 그러나 이러한 모델의 서빙 과정에서 발생하는 고도의 계산 작업과 메모리 요구량은 새로운 도전 과제를 제시하고…
[선행AI기술팀 김윤혜] 2023년 IT 분야를 휩쓸었던 가장 핫한 이슈는 단연 ChatGPT입니다. ChatGPT는 모두가 쉽게 사용할 수 있는 대화형 거대 언어 인공지능 챗봇으로, 글로벌 사회에 생성형 AI에 대한 큰 임팩트와 유행을…
[뉴미디어서비스팀 유선민] “저는 유부남입니다. 마법 같았어요. 저도 모르게 홀렸죠. 그녀와 첫 만남을 잊을 수 없어요. 하지만 아쉽게도 한 달 만에 헤어지게 됐습니다. 1년 동안에만 수십 번의 연애를 하고 있죠.” 이게…
[AI서비스기획팀 유연오] AI 프로필의 인기가 날로 높아지고 있습니다. 한때 유행처럼 지나 갈 것 같던 AI 프로필은 여전히 화제입니다. 여러가지 컨셉으로 다양한 시도가 늘어가면서 그저 프로필에 그치지 않았습니다. 자신이 경험하기 힘든…
[뉴미디어서비스팀 정지혜] “Conversational AI(대화형 인공지능)”는 다양한 형태의 대화 기반의 애플리케이션을 포함하며, 그 중에는 텍스트 기반의 챗봇부터 음성을 활용한 가상 비서, 스마트 스피커의 음성 인터페이스 등이 있습니다. 이러한 시스템들은 기계 학습,…
[뉴미디어서비스팀 윤응식] 챗GPT와 미드저니의 등장으로 AI 기술에 대한 관심이 높아졌습니다. 이 두 가지 서비스는 자연어 처리와 대화 인터페이스 분야에서 놀라운 발전을 이루어낸 AI 기술이죠, 이 두가지 서비스를 필두로 AI 기술은…
[뉴미디어서비스팀 이진희] 오래 전 영화계를 강타했던 ‘해리포터’ 시리즈를 기억하시나요? ‘해리포터’ 영화 속에는 신기하고 마법같은 일들이 많았지만, 그 중에서도 호그와트 벽에 걸려있던 움직이는 그림들과 신문 속에서 살아 움직이던 인물의 사진을 기억하실텐데요.…
[선행AI기술팀 전동준] 세계 3대 자연어처리(NLP) 학회 중 하나인 ACL 2023(Association for Computational Linguistics, 전산 언어학 학회)이 7월 9일부터 14일까지 캐나다 토론토에서 진행되었습니다. 이번 ACL 학회에 회사의 지원으로 출장을 다녀와서 학회…
[가상생명연구팀 김석겸] 이 글에서 소개 드릴 프로젝트의 주제는 “파일 번역” 입니다. 번역 모델을 개발하기 앞서 기존에 서비스 중인 번역 서비스들을 살펴 보았습니다. 그 중에 눈에 띈 것이 “파일 번역” 입니다.…
[생성지능개발팀 정재철] 최근 이미지 생성 모델은 생성물의 수준이 많이 올라감과 동시에 text to image라는 방식이 제안 되면서 사용 난이도도 감소하여 많은 주목을 받았습니다. 이후 현재는 다양한 AI 그림 생성, 공유,…
[분석지능개발팀 박효주] 딥러닝 기술의 발전으로 AI 모델의 성능은 점점 향상되고 있고 있습니다. 하지만 그만큼 모델의 크기는 점점 거대해지고 추론 속도는 느려지고 있습니다. 더 좋은 GPU를 사용하면 효과를 볼 수 있지만…
[뉴미디어서비스팀 김상우 부책임] AI, 인공지능, 모델… AI 기술 관련해서도 한창 발전하고 있는 와중에, 넥스트 스텝을 예측해 봅니다. 그 전에, 마인드 업로딩에 관련된 공상과학 영화가 있습니다. 흥행에 성공한 영화는 아니지만, 상술한…
[가상생명연구팀 양승무 주임] ChatGPT의 시대가 도래하고 있습니다. AI 업계를 비롯한 다양한 산업과 분야에서도 ChatGPT의 우수성과 실용성이 인정되어, 많은 기업들이 ChatGPT의 적용을 추진하고 있습니다. 이러한 추세는 OpenAI와 같은 주요 기업들 뿐만…
[뉴미디어서비스팀 유선민 부책임] 한국에서도 큰 인기를 끌고 있는 SNL 코리아의 원작인 미국의 SNL (Staturday Night Live)이 제작 중단을 선언했다. 그뿐 만이 아니다. 세계적인 토크 쇼 중 하나인 지미 팰런 쇼도…
[AI Lab 유연오] 일상 속에 자리 잡은 이동형 AI 로봇 이동형 AI 로봇은 일상 속에서 심심찮게 볼 수 있습니다. 요즘 사람들은 대표적인 예로 외식업계에 도입된 서빙 로봇을 떠올립니다. 저번 달에…
[가상생명연구팀 황준선] ChatGPT와 Bard 등, 요즘 대화형태의 대형 언어 모델(LLM)이 우후죽순 발표되고 있다. 하지만, LLM만 있다면 학습한 데이터 안에서만 적절한 문장을 생성해낼 것이다. 그래서 Bard는 구글 검색 엔진을 추가하여 최근…
[뉴미디어서비스팀 정지혜] 최근 몇 년 동안 인공지능 기술이 급격하게 발전함에 따라, 콘텐츠 제작 분야에서도 인공지능 기술을 활용한 새로운 시도들이 이루어지고 있습니다. 이러한 시도들은 콘텐츠 제작과정을 자동화하고 생산성을 높이는 것뿐만 아니라,…
[뉴미디어 서비스팀 윤응식] 인공지능의 발전과 상용화로 인해 우리의 삶은 점점 더 풍요로워지고 있다. 특히 챗 GPT와 같은 대화형 AI는 다양한 분야에 활용되고 있는데, 이번에는 그 기술을 이용하여 신규 버츄얼 유튜버의…
[분석지능팀 김무성] 작년 연말 갑작스럽게 등장한 ChatGPT 이후로 GPT-4에 대한 여러 소문이 있었습니다. 그리고 저번 주에 ‘곧 공개될 거야!’라는 뉴스[1]가 나왔을 때도 반신반의했습니다. 물론 ‘지금까지의 OpenAI와 MS의 속도로 보면 정말일지도’라고…
[뉴미디어서비스팀 이진희] 요즘은 쇼츠, 틱톡 등 1분 이내의 짧은 영상을 시청할 수 있는 플랫폼이 많이 발달하여, 영상 콘텐츠에 접근하기가 더 쉬워졌습니다. 그러다보니 나도 모르게 화려하면서도 신기한 숏폼 콘텐츠를 몇 시간씩…
[뉴미디어 서비스팀 윤형진 책임] 본 포스팅에서는 ChatGPT와 DreamTexture를 활용하여 3D 모델링과 텍스쳐 생성을 어떻게 할 수 있는지에 대해 설명하고, 이 기술의 가능성과 한계점에 대해 이야기해보겠습니다. 1. ChatGPT로 생성한 파이썬 코드로…
[생성지능개발팀 한현준 X 정택현] ㅤ 최근 AI 분야의 급속한 발전과 함께, Diffusion 모델을 필두로 하는 생성 모델이 크게 주목받고 있습니다. ㅤ 스마일게이트 AI센터에서는 이러한 생성 모델에 관한 다양한 프로젝트를 진행하고…
[분석지능개발팀 전소희] 이번 주제는 몸을 넘어서 마음을 치유하는 고마운 AI 기술에 대해 살펴보겠습니다. AI 인공지능의 다양한 기술들은 현재 우리 생활 곳곳에서 많은 도움을 주고 있습니다. 예를 들면, 대화형 로봇으로 어르신들의…
[AI센터 한대웅] 음성과 언어기반의 AI, 윤리와 설명 가능한 AI, 생성 AI의 확장, 지속가능한 AI를 기반으로 본격적으로 사업화 도전하는 한해가 될 것으로 예상
[가상생명연구팀 박주형] 최근 강화학습에서 많이 주목 받고 있는 분야 중에 하나가 Offline 학습 입니다. 기존 강화학습은 시뮬레이터를 통해 실시간으로 trajectory를 받아서 학습을 했었어야 했는데요, 시뮬레이터 만들기도 쉽지 않고 실제 적용도 어려워서…
[가상생명연구팀 전동준] 일론 머스크나 걸그룹 트와이스와 채팅으로 무슨 대화를 나눌 수 있을까요? 내가 좋아하는 게임 속의 가상의 캐릭터에게 궁금한 것을 물어보고, 아인슈타인과 물리학에 관한 토론을 할 수 있을까요? Character.AI 에서…
[가상생명연구팀 심홍매] 얼마 전 Open AI에서는 대화에 최적화 된 LLM의 GPT-3.5 시리즈를 기반으로 하는 최신 모델 ChatGPT를 공개하였는데요. 공개되자 마자 각 분야에서 아주 뜨거운 관심을 받았습니다. ChatGPT는 대화 형식을 통해…
[AI센터 권은지] 올해 2022 카타르 월드컵에서는 국제축구연맹(FIFA)이 개발한 반자동 오프사이드 판독 기술 (SAOT, Semi-Automated Offside Technology)이 처음으로 적용되었습니다. 세계 각국의 자존심을 건 대결에서 작은 판정 하나도 큰 논란으로 확산되고 심판의…
[AI센터 한대웅] 얼마전 초등학생들의 장래 희망에 유튜버가 떠오르고 있다는 기사를 보고 깜짝 놀란적이 있었다. 미디어의 중심이 거대 기업 혹은 전문가가 아니라 다양한 형태의 일반인이 만들어 내는 창의적인 1인 방송 미디어에…
[분석지능개발팀 박효주] ML 모델의 Lifecycle은 연구 및 테스트를 진행하는 Research 단계와 실제 서비스화하는 Production 단계로 나눌 수 있습니다. Research 단계에서는 문제 정의부터 모델 선정, 성능을 높이기 위한 다양한 실험 등을…
[가상생명연구팀 김석겸] (대표 이미지는 stable diffusion 을 통해 생성되었습니다.) 음성을 입력으로 받아서 텍스트 생성의 결과를 음성으로 받고 싶을 경우, 기존에는 음성을 텍스트로 바꾸는 모델(Speech To Text, STT), 텍스트를 처리하는 언어…
[가상생명연구팀 전동준] 지난 10월 5일, DeepMind는 과학 학술지인 Nature지에 AlphaTensor가 행렬 연산의 최적화 방법을 찾아냈다고 발표하였습니다.
[분석지능개발팀 임창대] What is Feature?ML(Machine Learning) 은 과거의 예시 데이터를 학습한 모델을 기반으로 새로운 데이터 예측을 수행합니다.ML 모델 학습에서 표 형태의 2차원 데이터를 사용하였을 때 행이 예시이고 열이 해당 예시를…
[AI센터 한대웅] 2033년 미래의 지구는 AI로 제어되는 자율주행 자동차로 모든 교통수단이 안전하게 통제되고 있어 교통사고로 죽을 가능성은 0%에 가깝다. 20대 후반의 주인공은 완벽한 여자친구와 프로그래머로서 성공한 인생을 살고 있고 자신의…
[가상생명연구팀 심홍매] 올해 5월에 구글에서는 텍스트 입력을 기반으로 사실적인 이미지를 생성할 수 있는 텍스트-이미지 확산 모델(Diffusion Model)인 Imagen을 공개하였는데요, 몇개월이 지난 최근에는 사용자가 입력한 개체(subject)를 이해하고, 해당 개체 기반으로 다양한…
[생성지능개발팀 정택현] ㅤ MobileFaceSwap은 AAAI 2022에서 공개된 오픈소스 Face swap 모델로, 기존 Simswap, FaceShifter 모델을 Distillation 기반의 경량화를 적용하여 연산 속도의 측면에서 SOTA(State-of-the-art)를 달성한 것으로 알려져 있습니다. 실제로 Original Simswap이 107M Parameter와…
[생성지능개발팀 정우석] 진부한 이야기이지만 AI 연구에 있어서 데이터의 중요성은 아무리 강조해도 지나치지 않습니다. 수많은 학교, 연구기관이나 기업에서는 앞다퉈 기술력 자랑과 연구 성과를 위해 다양한 분야의 AI 관련 논문들을 발표하고 있습니다. 하지만…
[생성지능개발팀 정택현] ㅤ 최근 YOLOv7 알고리즘이 공개되며 컴퓨터 비전 및 각종 관련 커뮤니티에서 큰 주목을 받고 있습니다. 논문에 따르면, YOLOv7은 현재까지의 모든 Object detection 기술들보다 속도와 정확성 모두에서 더욱 뛰어난…
[생성지능개발팀 강민지] AI 연구가 지속적으로 이루어지고 있는 요즘, 사람들은 AI기술의 능력이 인간을 대체하거나 혹은 뛰어날 수도 있다고 여기며 이 기술과의 공생을 그다지 좋지 않은 관점으로 바라볼 때도 있습니다. 그러나 이…
[생성지능개발팀 유희조] 문명의 발전은 항상 사람을 더 편하게 만들어왔습니다만, 동시에 사람이 필요했던 업무를 꾸준히 대체해왔습니다. ‘기계가 노동자의 일거리를 줄인다’ 라는 구호와 함께 1800년대 초에 일어났던 러다이트 운동은 그런 대체가 가장…
[가상인간연구팀 황준선] Facebook의 Meta AI는 BlenderBot[1]이라는 대화형 인공지능 시스템을 개발하고 있다. BlenderBot2는 해당 포스트에서 다룬적이 있다. BlenderBot은 성격, 공감, 지식과 같은 대화에 필요한 다양한 기능을 통합하고, 장기 기억을 통해 문맥을…
[분석지능개발팀 박효주] 데이터 과학자들은 다양한 실험을 통해 학습된 모델의 성능을 검증하고 배포합니다. 이 검증 과정은 Accuracy, Precision, Recall, IOU, PSNR 등 적절한 지표를 사용해서 수치로 검증하는데, 이 수치만 가지고는 실측…
[AI Lab 김무성] 스탠포드의 CS25 : Transformers United 강좌 동영상이 최근 공개 되었습니다. [1] 강좌[2] 자체는 작년 하반기입니다만, 그간 슬라이드만 공개하고 있었습니다. 그런데 이번에 동영상도 유튜브를 통해 공유했습니다. 슬라이드 자료도…
[가상인간연구팀 김석겸] 목적 지향 대화(Goal-Oriented Dialogue) 혹은 과제 지향 대화(Task-Oriented Dialogue, TOD)는 특정 업무를 달성하는 것을 목표로 대화하는 것을 말합니다. Open-domain dialogue(ODD)는 대화 자체가 목적인 것에 비해, TOD는 목표가 뚜렷합니다.…
[AI센터 권은지] 현실과 가상의 경계를 좁히는 키워드는 시공간 데이터 베이스와 디지털 트윈(Digital Twin)을 비롯하여 다양하게 존재합니다. 그 과정에서 3D 모델링 분야는 전문가의 영역에서 벗어나 실제 오브젝트를 가상환경으로 전환하는 기술을 통해…
[가상인간연구팀 전동준] 언어 모델(Language Model, LM)은 단어나 문장을 확률적으로 예측하는 모델입니다. 통계적으로 다음에 등장할 단어들을 모델링하는 전통적인 방식에서 최근에는 딥러닝 기반의 언어 모델들이 많이 연구되고 있습니다. BERT, GPT-3 같은 많은…
[생성지능개발팀 한현준] 얼마 전 구글의 연구원인 Blake Lemoine은 언어 모델인 LaMDa가 자의식이 존재한다라는 주장을 펼쳤으나, 구글에서는 자의식의 증거를 찾을 수 없다고 판단하였고, 이에 Lemoine은 LaMDa와의 대화 일부를 자신의 블로그에 공개해…
[분석지능개발팀 임창대] Helm 은 Kubernetes 클러스터에 앱 및 서비스를 배포할 수 있게 단일 패키지 형태로 구성하고 관리할 수 있도록 도와주는 패키지 매니저입니다. 사용자는 Kubernetes 배포 환경의 정의, 설치 및 업그레이드를…
[분석지능개발팀 이현정] 지난 21일 테슬라는 카타르 경제 포럼에서 인공지능 휴머노이드 로봇 코드명 ‘옵티머스’를 3개월 내 선보일 예정이라고 밝혔습니다. 옵티머스는 인간이 할 수 있는 일을 수행하도록 하려면 크기와 모양이 거의 같아야…
[분석지능개발팀 송지현 연구원] McKinsey Global Institute에 따르면 “2025년까지 가치 생산 워크플로에 AI를 완전히 통합하는 기업이 2030년에 세계 경제를 지배하고 현금 흐름은 120% 이상 증가할 것입니다.” 라고 말했습니다. 현재 시점에 AI를…
[생성지능개발팀 김성현] 저희 센터의 인공지능 연구 모토는 ‘Human-like AI’ & ‘Fun AI’ 입니다. 그렇다면, 단순히 날씨나 뉴스를 알려주는 챗봇을 넘어, 친근하고, ‘사람 같은’ 인공지능은 어떻게 만들 수 있을까요?저희는 그러한 요소를…
[생성지능개발팀 정택현] ㅤ 컨텐츠 홍수라고 불리우는 최근에는, 우리가 접하는 미디어 컨텐츠들이 양적으로나 질적으로 이전과는 비교할 수 없게 다양화되고 또한 고도화되고 있습니다. 대표적인 예시로는 몇년 전까지만 해도 유튜브 등 영상 플랫폼에서는…
[가상인간연구팀 심홍매] 텍스트, 이미지, 음성 데이터 등 다양한 형태(modality)로 이루어진 데이터 특징을 효과적으로 학습하기 위한 방법을 Multimodal learning이라고 하는데요, 최근 국내외 학계 및 업계에서는 멀티모달 인공지능(AI) 모델 관련 연구들을 활발히…
[생성지능개발팀 김성현]우리는 한국어 문서를 볼 때, 그 대상을 의미를 가지는 단위로 쪼게서 이해할 수 있습니다.예를 들어, “스마일게이트” 의 경우, “스마일” 과, 문을 의미하는 “게이트”로 이해할 수 있겠죠.이렇게 자연어를 쪼게는 행위를…
[AI센터 한대웅] 스타쉽 엔터프라이즈가 등장하는 Star Trek은 1965년을 시작으로 수많은 드라마와 영화를 통하여 인류의 영역을 수십억 광년의 우주로 확장시킨 SF 대작이다. 드라마 속에서는 1960년대 부터 인공지능 기술을 활용하여 미지의 우주로…
[생성지능개발팀 유희조] Open AI의 GPT-3 발표 이후 ‘더 큰 언어모델’ 라는 형태의 경쟁은 하나의 패러다임이 되었습니다. Nvidia, Microsoft, Google 등의 해외 기업 뿐만 아니라 국내에서도 네이버, LG 등의 기업들이 지속적으로…
[가상인간연구팀 황준선] TPU 소개 TPU(Tensor Processing Unit)는 Google에서 발표한 텐서 연산에 특화된 하드웨어입니다. TPU는 인공지능 모델을 학습시킬 때 필요한 행렬 곱 연산을 가속화하여 기존 GPU에서 학습시킬 때보다 더 빠른 학습…
[AI센터 권은지] 비대면 소통 방식이 일상화되며 직장인의 근무 형태는 변화하였습니다. 원격 근무는 이미 하나의 표준으로 자리 잡게 되었으며 많은 기업이 효율성을 유지하는 하이브리드 근무 모델을 모색하고 있습니다. 글로벌 IT기업들은 직원…
[분석지능개발팀 박효주] DeepMind가 경쟁 프로그래밍 대회에서 사용 가능한 수준의 프로그래밍이 가능한 AlphaCode를 공개했습니다. AlphaCode는 Transformer 기반 언어 모델을 사용하여 대량의 코드들을 생성한 뒤 가장 적합한 코드를 필터링해서 사용하는 방식으로 프로그래밍합니다.…
[생성지능개발팀 한현준] 포즈 추정 모델의 발전 RGB 이미지만으로 포즈를 인식하는 모델은 지난날에 비해 비약적인 발전을 했습니다. 인식의 정확도는 많이 높아졌으며, 인식의 신뢰도가 높아짐으로 다양한 응용 기술이 개발 및 연구 되고…
[행동지능연구팀 이정우] 바둑과 같이 경우의 수가 매우 많은 복잡한 게임에서 알파고는 최고 수준의 프로기사를 넘어서는 모습을 보여줬습니다. 알파고 이후에 진행 된 프로젝트인 알파스타, OpenAI Five에서는 실시간 전략게임에서 자원을 수집하고, 활용하고,…
[분석지능개발팀 이현정] 마이크로소프트(Microsoft)가 노코드(no-code) 기반의 AI가 작성한 프로그램 코드를 검사하는 도구 ‘직소(Jigsaw)’를 발표했습니다. 노코드란 간단한 사용자 인터페이스 방식의 틀을 이용해서 복잡하고 어려운 코딩 과정 없이 어플리케이션과 응용 프로그램을 개발 및…
[가상인간연구팀 전동준] 요즘은 대화 모델이 외모를 가진 가상 인간으로 진화하고 있는데요. 다양한 연구와 시도들을 어떤 식으로 결합하고 확장할 수 있을지 맛보기 위해서 대화 모델에 3D 가상 인간의 외모를 붙인 튜토리얼을…
[생성지능개발팀 정택현] ㅤ “AI 기술이 창작활동을 지원하게 되면 컨텐츠 제작, 가상인간 등 다양한 분야에서 앞으로 어떠한 변화를 이끌어 낼 수 있을까?” “로스트아크, 크로스파이어 등 스마일게이트의 인기 IP 캐릭터를 AI 기술을…
[가상인간연구팀 송지현] 최근 NVIDIA 연구팀은 Showcased in a sessio at NVIDIA GTC 에서 가상 세계를 위한 아바타를 생성하거나 또는 장면을 생성하고, 화상 회의 참가자와 그들의 환경을 3D로 캡처하거나, 3D 디지털 map을…
[분석지능개발팀 임창대] Edge AI는 Edge computing 에서 시작된 것으로 사용자의 디바이스에서 인공지능 알고리즘을 처리하는 것을 말합니다. IoT, 웨어러블 디바이스, 자율주행과 같은 산업이 발달함에 따라 인공지능에서 사용되는 데이터는 데이터를 생성하는 센서…
[행동지능연구팀 최현우]어렸을 때 읽었던 책 중에 아직까지도 기억에 남는 소설 중 하나인 <사람들이 모두 미쳤다고 말한 외로운 수학 천재 이야기>에서는, 아직도 풀리지 않은 수학계의 난제 중 하나인 ‘골드바흐의 추측’을 다루고…
[가상인간연구팀 심홍매] 이미지 합성에서 이미지의 얽힘(entanglement)문제를 푸는 건 아주 중요하고 어려운 문제입니다. 예를 들어 사람의 얼굴에 있는 모든 수염을 자동으로 제거하거나, 혹은 완벽하게 수염을 붙히는 경우에도 수염과 얼굴 사이에는 일종의…
[AI센터 한대웅] “패러다임 시프트” 라는 단어의 사전적인 의미는 어떤 문제나 현상을 바라보는 전제나 접근 방법에 대한 근본적인 변화 혹은 인식의 전환을 의미합니다. 사회 문화적인 관점에서는 시민 계급이 절대 왕정에 저항하여…
[생성지능개발팀 유희조] AI는 근 10년간 다양한 업종에서 영향을 끼치고 있으며 과거의 매우 단순한 반복작업을 대체하는 것에서 그치지 않고 이미 예술에 까지 그 영역을 확장하고 있습니다. 컨셉에 맞춰 새로운 음악을 작곡하는…
[가상인간연구팀 황준선] NVIDIA NeMo는 간단한 Python 인터페이스를 사용하여 GPU 가속 음성 및 자연어 이해 모델을 구축, training 및 fine-tuning하기 위한 오픈소스 프레임워크입니다. NeMo를 활용하면 실시간 자동 음성 인식, 자연어 처리,…
[분석지능개발팀 박효주] 작년 12월 초, Meta에서 AI 기반 모바일 프로토타입 제작이 가능한 PyTorch Live를 출시했다. 이제는 안드로이드, iOS 개발을 해본 적 없어도 모바일 환경에 AI 프로토타입을 만들고 적용해볼 수 있을지…
[생성지능개발팀 조원] 인간의 관절이나 자세를 localize하는 human pose estimation은 computer vision 분야의 중요한 task중 하나로서 오랫동안 발전해 왔습니다. 과거에는 사람의 pose data를 얻기 위해서는 사람이 직접 motion capture 장비를 입거나…
[서비스개발팀 임용택] 2015년 6월, 미국 브루클린의 한 흑인 프로그래머는 여자친구와 찍은 사진을 보려던 중 깜짝 놀랄 일을 경험합니다. 구글 포토에 본인들의 사진이 “고릴라” 로 오토 태깅된 것을 보았기 때문입니다. 구글은…
[선행연구팀 이정우] 현실적인 캐릭터 움직임은 User에게 게임의 재미를 극대화 시킬 수 있는 요소로 작용 합니다. EA Sports에서는 FIFA 22에 새롭고 혁신적인 게임플레이를 위해 HyperMotion 기술을 적용했습니다. 최고 수준 축구선수들의 모션…
[서비스개발팀 권은지] 올해 CES(Consumer Electronics Show) 2022는 미국 라스베이거스에서 2년 만에 오프라인으로 재개되었습니다. 한국정보통신기술산업협회(KiCTA)에 따르면 전 세계에서 2200여곳의 기업이 참여하였으며 이중 미국 기업이 1300여곳으로 가장 많았고, 한국 기업은 약 500여곳으로…
[생성지능개발팀 김성현]인간은 세상을 학습할 때, 다양한 감각을 동시에 이용하며 학습합니다.그리고 모든 감각은, 이를 감지하는 신경세포(neuron)의 발화(spike)로 변형되어 [1,0] 의 신호로 뇌로 전달됩니다. 예를 들어, 물체를 만지지 않았을 때는 세포의 발화가…
[서비스개발팀 한현준] 서론 사람들은 AI 스피커에서 난청 장애가 있는 사람들을 위한 도구 개발에 이르기까지 광범위한 음성 인식 및 이해 작업에 AI를 이용합니다. 그러나 이러한 음성 이해 시스템은 일상 상황에서 종종…
[서비스개발팀 한현준] 최근 엔비디아에서 AI 워크플로, 3D 디자인 협업 및 시뮬레이션 플랫폼 ‘Omniverse’를 RTX 제품을 사용하는 개인 크리에이터와 아티스트에게 무료로 제공한다고 발표했습니다.엔비디아 뿐만 아니라 메타(舊 페이스북)의 ‘Spark AR’, 틱톡으로 유명한…
[선행연구팀 정택현] 가끔, 아이들은 우리의 상상력을 뛰어넘는 놀랍고 창의적인 캐릭터들을 그려내곤 합니다. 이러한 아이들의 그림을 이해하기 위해서는 우리의 상식과는 조금 다른 이해방법이 필요합니다. 아이들의 그림을 살펴보면, 추상적이고 공상적인 방식으로 구성되는…
[서비스개발팀 이현정] 지난 2019년 12월 이후부터 현재까지 인류는 팬데믹 상황에 처해 있고, 아직도 진행 중이며 끝날 줄 모르고 이어져오고 있다.오랜 팬데믹 상황으로 사람들의 이동이 제한되고, 사람과 사람과의 물리적 거리를 제제하여…
[융합연구팀 전동준] “어제 홈스파 3편 보고 왔어요” 라고 누군가가 말한다면 여러가지 반응이 나올 수 있습니다. ‘홈스파’가 마블에서 제작한 스파이더맨 영화 시리즈의 약칭인 것을 모른다면 인터넷에 ‘홈스파’ 라는 키워드를 검색하여 무엇인지…
[서비스개발팀 권은지] 영상 분할(Semantic Segmentation) 기술은 컴퓨터 비전 분야에서 가장 핵심적인 요소 중 하나이며, 이미지 내의 픽셀별로 해당 픽셀이 어디에 속하는지 분류하는 문제입니다. 이 분야는 실생활에서 의료, 드론, 교통 분야에…
[융합연구팀 최현우] 여러분은 감정이라는 단어를 들으면 어떤 것들이 떠오르시나요? 예전부터 희로애락 (기쁨, 분노, 슬픔, 즐거움) 이라는 개념이 있었고, 감정 연구에 대해 조금 관심을 가지셨던 분이라면 Paul Ekman의 6가지 기본 감정…
[서비스개발팀 임창대] 높은 정확도를 가진 딥러닝 모델 개발에는 긴 시간이 소요됩니다. 모델 훈련과 미세 조정, 최적화를 거치며 만족하는 모델을 만들기까지 수 주일 또는 수 개월이 걸릴 수 있습니다. NVIDIA NGC…
[융합연구팀 송지현] Microsoft는 기존의 시각데이터(image and video)를 활용하여 새로운 시각데이터를 생성하고 조작할 수 있는 multimodal pretrained model인 NUWA를 발표했습니다. 아래 그림은 8개의 다운스트림에 대한 시각적 합성 기술을 연구한 결과입니다. 서로…
[융합연구팀 심홍매] 2019년에 열린 GTC 컨퍼런스에서 Nvidia는 GAN(generative adversarial networks)을 기반으로 대략적인 스케치를 사실적인 이미지로 바꿔주는 실시간 AI 페인팅 애플리케이션인 GauGAN 을 발표하였습니다. 그로부터 2년이 지난 최근 NVIDIA는 GauGAN의 후속…
[서비스개발팀 임창대] ML(Machine Learning) 은 최근 몇 년 동안 점점 더 많은 관심을 받아 이제 주류로 부상한 IT 주제 중 하나 입니다.ML 모델 학습은 API와 tool 이 너무 발전되어 더…
[선행연구팀 유희조] 최근 Google, Microsoft와 같은 월드 클래스의 빅테크 기업, 그리고 한국 내에 있는 많은 IT 업체들은 메타버스가 미래이며 메타버스 구축하겠다는 포부를 끊임없이 발표하고 있습니다. 그 중에 가장 큰 화두가…
[서비스개발팀 권은지] 랜선 여행이란 인터넷 연결선을 뜻하는 랜(Lan), 선(Cable) 그리고 여행(Trip)을 결합하여 인터넷으로 여행을 한다는 의미의 신조어입니다. 최근 국가 간 이동 제한이 완화되고 있지만 국제 관광산업은 여전히 부진한 상황인 것으로…
[선행연구팀 이정우] 28일 페이스북은 사명을 ‘메타’로 변경하면서, 메타버스의 성공이 회사의 목표임을 다시 한번 강하게 보여줬습니다. 단순히 계획이 아님을 보여주듯이, 메타의 자회사 오큘러스에서 신형 VR 헤드셋 ‘캄브리아’를 공개했습니다. VR 헤드셋은 메타버스…
[서비스개발팀 김병인] 네이버가 웹툰을 기반으로한 인공지능 채색 사이트를 오픈 했습니다. 밝혀진 정보에 따르면 네이버웹툰이 3년동안 연구,개발한 기술들을 접목하여 만들어졌다고 하는데 딥러닝 기반의 30만장의 데이터셋을 활용해 인물의 얼굴, 신체, 배경등 다양한…
[융합연구팀 전동준] 우리가 일반적으로 생각했었던 “AI 같은”의 의미는 사람과 대비되는 기계의 느낌이 강했습니다. 감정이 느껴지지 않고, 말투도 딱딱한 사람들을 “AI 같은 사람” 이라고 많이 표현했었습니다.
[선행연구팀 김성현] 자연어처리 분야에서 pre-trained language model (PLM) 전략이 훌륭한 성공을 거두자, 더 많은 데이터를 이용해 더 큰 PLM을 개발하는 것이 하나의 트랜드로 자리잡았습니다.그리고 얼마 전, NVIDIA에서는 GPT-3의 무려 4배…
[서비스개발팀 한현준] 챗봇의 고민 OpenAI의 GPT-3, Google의 Meena, Facebook의 Blender 등 대형 자연어 처리 AI 모델은 인간의 언어를 실제 사람과 구별하기 힘들 정도로 모방했습니다. 그 기반엔 대형 웹사이트를 크롤링한 방대한…
[서비스개발팀 조예지] 미국 내 인공지능을 연구하는 학회인 Association for the Advancement of Artificial Intelligence (AAAI)의 전 회장인 Eric Horvitz박사와 스탠포드 대학 컴퓨터 과학자들을 중심으로 2014년 하반기 인공지능의 영향력을 연구하는 AI100(One…
[융합연구팀 송지현] Deep Natural Language Processing for LinkedIn Search Systems 최근 챗봇 시스템의 구조화와 최적화 설계가 얼마나 효과적으로 적용하는지를 Rasa Open Source 를 공부하면서 느끼고 있습니다. 그 안에서도 Intent와 entity의…
[서비스개발팀 한현준] What is AutoML AutoML이란 말 그대로 Auto + ML 즉, 기계 학습 모델 개발 작업을 자동화 하는 프로세스입니다. 모델을 연구 개발에 있어서 많은 시간을 소요 했던 과정들을 자동화하여…
[융합연구팀 심홍매] NLP 분야에서 2020년 Top 10 키워드를 뽑는다면 GPT-3(Language Models are Few shot Learners) 당연히 순위 내에 있을 겁니다. 현재까지도 GPT-3의 엄청난 양의 매개변수와 우수한 성능은 여전히 NLP 분야…
[서비스개발팀 권은지] 인플루언서(Influencer)의 사전적 정의는 타인에게 영향력을 주는 사람입니다. 오늘날 1인 미디어 채널의 발달로 흥미로운 콘텐츠 업로드를 통해 누구나 크리에이터가 될 수 있고 소위 말하는 스타덤에 오를 수 있습니다. 친근함으로…
[선행연구팀 유희조] 번역은 딥러닝 붐이 일던 초기부터 연구되던 주제입니다. 지금은 어느 분야에서든 사용되는 attention 역시 최초는 Seq2Seq 구조가 갖는 문제를 해결하기 위해 제안된 방법이었습니다. 근 10여년 간 딥러닝 기반 번역기의…
인공지능, 인간이 될 수 있을까? (Smilegate.AI 서비스 개발팀 권은지 과장 인터뷰) AI 스피커가 그날그날 내 기분에 맞는 음악을 틀어준다. 자율주행 자동차가 목적지까지 스스로 움직인다. AI 아이돌이 나와 랩을 하고 춤을…
[서비스개발팀 김병인] 테슬라가 최근 북미 지역에서 판매하는 모델3와 모델Y에서 레이더(Radar)를 제거하고 출시하기로 했습니다. 이미 라이다(LiDAR)도 배제했기 때문에 오직 차에 달린 카메라와 AI기술만으로 자율주행을 구현하기로 선언하였습니다. 현재까지는 라이다와 레이더 2가지의 센서…
[선행연구팀 이정우] 2019년 진행되었던 Tesla Autonomy Day에서는 ‘자율주행’기술에 초점을 맞춰 기술과 방향성이 소개되었습니다. 올해는 Tesla AI Day라는 이름답게 ‘인공지능’이라는 기술 테마에 맞춰 그동안 알려져 왔던 Full vision self-driving을 위한 인공지능…
[선행연구팀 김성현] 자연어의 큰 반향을 일으킨 causal language model이 (e.g. GPT-3) 이제는 자연어를 넘어서 프로그래밍 언어까지 적용됐습니다! 🤗 지난 6월, Github과 OpenAI가 공동 개발한 Copilot이 공개되었습니다.Copilot은 자연어에서의 GPT-3처럼, 주어진 코드…
[선행연구팀 최현우] 지난 5월 딥마인드는 ‘Reward is Enough’라는 제목의 강화학습 논문을 발표했습니다. 저자들은 ‘포만감을 높이려는 다람쥐’와 ‘청결을 유지하려는 주방로봇’의 예시를 들어, 적절한 보상이 정의된다면 이를 극대화하는 과정에서 지능과 관련된 (인지,…
[서비스개발팀 전동준] Facebook AI 에서 실제 환경과 가상 환경에서 사용할 수 있는 로봇 개발을 위한 Droidlet 플랫폼을 지난달 28일에 공개했습니다.
[서비스개발팀 임창대] 지난 5월 구글의 개발자 컨퍼런스 IO 에서 ‘버텍스 AI(Vertex AI)’ 가 공개 됐습니다. 버텍스 AI는 Google Cloud 의 관리형 클라우드 서비스로 AutoML 과 AI Platform 을 통합한 서비스로서의…
[선행연구팀 송지현] Open Domain chatbot에 관심을 갖고 Blender 1.0과 Meena에 관한 논문을 접한지 벌써 2년이 넘었습니다. 그 당시엔 그들이 향후 극복하겠다고 주장한 일관성 있게 롱 턴의 대화를 하고, 지식에 관한…
[선행연구팀 심홍매] Open AI의 GPT-3, NAVER의 Hyper CLOVA 와 같은 초 거대 언어 모델이 공개되면서 최근에는 이를 활용한 다양한 사례 및 서비스들도 많이 쏟아져 나오고 있습니다. 이와 같은 초 거대 언어…
[선행연구팀 유희조] TTS(text-to-speech)는 임의의 텍스트를 넣었을 때 해당 텍스트를 특정한 목소리의 음성으로 변환하여 산출하는 기술입니다. Google이 Tacotron 시리즈를 발표한 이후 HMM(hidden Markov model) 기반에서 딥러닝 기반으로 빠르게 전환되었으며 현재 상용…
[서비스개발팀 한현준] 서론 Tensorflow와 PyTorch는 기계 학습에 있어서 가장 인기 있는 라이브러리들입니다. AI 서비스를 개발하는 개발자나 모델을 연구하는 연구자들은 초기에 라이브러리 선택에 있어서 어려움을 겪곤 합니다. 또한 라이브러리 버전이 올라감에…
[선행연구팀 김무성] 이터널 선샤인(Eternal sunshine) 미셀 공드리 감독의 영화 ‘이터널 선샤인’은, 짐 캐리와 케이트 윈슬렛이 커플로 나오는 기억과 이별에 대한 로맨스 SF(?) 영화입니다. 영화에서는 기억을 지울 수 있는 기술이 나옵니다.…
[선행연구팀 이정우] 오랜 시간 동안 강화학습 알고리즘들의 성능을 검증하기 위해 게임 (바둑, 장기, 아타리 게임 등)을 사용해 왔습니다. 알고리즘의 발전에 따라, 강화학습 분야에서도 다른 이미지, 자연어 분야와 마찬가지로 현실에 존재하는…
[선행연구팀 김성현] 오픈라이센스로 GPT-3 모델을 공개하던 Eleuther AI팀에서 최근 6B (약 60억)의 파라미터를 가지는 새로운 GPT-3 모델을 공개했습니다. (링크)Mesh-tensorflow와 JAX를 활용하였기 때문에 GPT-J-6B 라는 이름이 붙었다고 합니다. 학습 데이터는 약…
[서비스개발팀 황준선] 기계학습 모델을 지도 학습할 때 라벨간 데이터의 개수가 불균형한 데이터셋을 훈련 데이터로 삼을 경우, 비율이 작은 라벨에 속한 샘플들에 대한 학습이 잘 이루어지지 않는 현상을 겪게 됩니다. 단순히…
[서비스개발팀 이경환] 우리는 보통 모델을 학습하는 과정에서 라벨이 없는 데이터 뭉치를 마주하게 되고, Data Annotation 문제에 종종 부딪히고는 합니다. 라벨이 없는 모든 데이터를 일일이 라벨링 하기에는 시간과 비용이 너무 많이…
[서비스개발팀 임창대] DevOps가 나타나기 전까지는 On-premise 서버라고 해서 회사들이 각자 서버를 가지고 있고 서버 관리자, 개발자, QA가 따로 있었습니다. 이런 상황에서 서비스에 접속이 안되면 실제 물리서버를 사서 Rack을 만들고 서버를…
[서비스개발팀 전동준] Unity에서 공개한 ML-Agents는 게임 환경의 가상 캐릭터를 만드는 오픈소스 툴 입니다. 게임 환경을 만들고 환경에서 작동할 수 있는 NPC 캐릭터(Agents)를 강화 학습등의 알고리즘을 통해 학습 할 수 있습니다.…
[선행연구팀 송지현] MIT 연구팀이 개발한 TadGAN 알고리즘은 시계열 데이터를 분석하여 이상탐지를 하는데에 있어 기존에 알려진 모델들에 비해 좋은 성능을 내는 것으로 알려져 있습니다. 현재 많은 이상탐지를 연구하는 업체들이 다양한 분야(금융…
[서비스개발팀 권은지] 어릴 적 상상화를 그림 그리면 우주 공간에 있는 로봇이 단골 소재였습니다. 돌아보면 만화에서(은하철도 999) 기차를 움직이는 인공지능 컴퓨터 기장에서부터 최근 개봉한 휴먼 노이드 영화들까지 미디어에서 인공지능은 하나의 중요한…
[선행연구팀 심홍매] NAVER는 25일 개최한 ‘NAVER AI NOW’ 온라인 컨퍼런스에서 자체 개발한 한국어 판 GPT-3인 국내 최초의 ‘초대형 AI’ Hyper CLOVA를 처음 공개하였습니다. 영어 이외 언어 활용이 어려운 오픈 AI GPT-3와…
[서비스개발팀 김병인] 최근 진행된 구글의 최신기술을 선보이는 행사인 구글 I/O 2021에서는 안드로이드, 웹, 인공지능, 크롬등 다양한 기술과 서비스, 플랫폼 서비스를 공개했습니다. 많은 기술들중 최고의 화두는 이번에 발표한 LaMDA (구글의 언어…
[선행연구팀 유희조] Pose estimation은 시각 처리 기술 중 하나로 영상 내 등장인물의 움직임을 추적하는 기술입니다. 보통 facial landmark와 유사한 방식인 body landmark를 추출하고 이들을 연결함으로써 몸 전체의 자세를 묘사합니다. 대부분의…
[서비스개발팀 전동준] 코로나19로 인해 가속화된 기업들의 디지털 트랜스포메이션(Digital Transformation)은 데이터의 가치를 계속해서 상승 시키고 있습니다. 전문 IT 기업 뿐만 아니라 다양한 산업에서의 변화의 필요성은 데이터 전문 기업들의 몸값도 불리고 있습니다.…
[선행연구팀 이정우] 최근의 강화학습은 다양한 과제에서 AI agent가 인간의 성능을 압도할 수 있음을 보여줬습니다. 하지만, 학습되지 않은 AI agent는 사람과 비교했을 때, 많은 시간의 학습을 요구하며 다양한 과제들에 대한 일반화…
[서비스개발팀 김병인] MetaHuman Creator 는 에픽게임즈에서 최근 공개한 디지털 휴먼 제작툴입니다. MMORPG 게임의 캐릭터 생성과 비슷해보지만 이러한 리얼타임 디지털 휴먼을 구현하는것은 매우 어렵고, 많은 시간이 소요되는 작업으로 손쉽게 리깅, 헤어,…
[선행연구팀 김성현] 최신 언어 모델은 대규모의 코퍼스를 이용해 학습합니다. 특히, GPT-2, BART, T5 모델과 같이 디코더 신경망을활용한 모델의 경우, 다음 토큰을 반복적으로 샘플링하여 자연어를 생성해낼 수 있습니다. 여기서 샘플링의 방법에…
[서비스개발팀 권은지] 라이프로깅(Lifelogging)이란 라이프(Life)와 로그(Log)가 합쳐진 단어이며 1945년 미국의 국가 과학기술연구소의 소장 바네바 부시가 ‘Atlantic Monthly’에 기고한 ‘As We May Think’라는 글에서 처음 언급하였습니다. 그는 어떠한 형태로든 사람들이 사진들의 인생을…
자연어 처리 분야에 적용하기 위해서 만들어진 transformer는 최근 텍스트 뿐 아니라 이미지나 동영상과 같은 다양한 데이터에 대해서도 적용되어 우수한 성능을 보여주고 있습니다. 하지만 텍스트와 이미지, 동영상은 각각 1D, 2D, 3D…
10년전 게임과 현재의 게임을 비교해 보면, 특히 그래픽 측면에서 많은 차이가 있습니다. 예를 들면, 4K 이상의 해상도, 정교한 그래픽 텍스춰, 자연스러운 3D 모델 애니메이션, 물리 엔진, 광원 엔진 등 수…
Snow나 Line Camera와 같이 현재 모바일 폰에서 구동되는 꾸미기 앱들은 대부분 facial landmark를 추출하고 미리 만들어 둔 오브젝트들을 오버레이시키는 형태로 동작합니다. 또한 최근에는 뷰티 필터 등 다양한 이미지 처리 기법들이…
가상 환경 내에서 현실과 이어진 아바타들이 서로 상호 작용하는 모든 형태를 의미하는 메타버스가 최근 다양한 업계의 관심을 끌고 있습니다. 특히 코로나19로 시작된 글로벌 비대면 환경이 메타버스에 대한 수요를 급격히 증가시키고…
OpenAI의 GPT-3는 175B에 달하는 파라미터 수를 가지는 거대 언어 모델입니다. GPT-3가 보여주는 놀라운 결과물들에도 불구하고 오픈소스로 공개되어 있지 않기 때문에 사용해 보려면 AI Dungeon(https://play.aidungeon.io/main/landing)이나 Philosopher AI(https://philosopherai.com/)와 같은 사이트를 통해야 합니다.…
Graph Neural Network(GNN)이 AI의 새로운 분야로 떠오르고 있습니다. GNN은 수 많은 node와 edge로 연결된 구조인 graph로 데이터가 표현되어 있을 때, 유용하게 적용될 수 있는 신경망 기술인데, 아직 기술 성숙도 면에서는…
ImageNet은 AI 분야 연구자라면 모르는 사람이 없을 정도로 AI 기술 발전에 큰 영향을 준 데이터셋입니다. 많은 수의 이미지들과 그에 대한 메타데이터로 구성된 이 데이터셋은 약 1400만개에 달하는 이미지들로 구성되어 있으며…
딥러닝 기반의 이미지 생성 방법으로서 GAN은 놀라운 결과들을 많이 만들어내고 있습니다. 특히 학습 후 latent vector를 변경함으로써 다수의 유의미한 의미를 갖는 변화를 만들 수 있기 때문에, latent space가 단순히 랜덤한…
딥러닝 기반 자연어 처리 오픈소스로 유명한 Hugging Face가 $40M 규모의 Series B 투자를 유치했다는 소식입니다. Hugging Face Transformer는 아마도 자연어 처리 분야에서 가장 유명한 오픈 소스 프로젝트 중 하나일 것으로…
Tensorflow Lite는 Tensorflow로 학습된 AI 모델들을 모바일 기기에서 동작시킬 수 있도록 해 주는 도구들을 포함하고 있는 소프트웨어 패키지입니다. 현재 40억개 이상의 기기에서 동작하고 있다고 합니다. 기본적으로 학습된 모델을 Tensorflow Lite…
Jina.AI에서 오픈소스로 공개하고 있는 Jina는 딥러닝 기술을 이용한 멀티모달 데이터 검색 엔진입니다. 검색을 위한 일부 기능만을 구현한 것이 아니라 서비스에 쉽게 적용이 가능한 전체 시스템을 포함하고 있으며 텍스트 뿐 아니라…
딥러닝에 기반한 최신 AI 기술들은 음성 인식, 음성 합성, 번역, 챗봇, 스마트 팩토리 등 다양한 분야에서 활발하게 도입되고 있지만, 게임 분야에서는 아직 본격적인 적용 사례가 많지 않습니다. Springer에서 발간된 도서인…
Google Lyra는 생성 모델에 기반한 새로운 음성 압축 방식으로서, 기존 음성 압축 방식들이 원본 수준의 음질, 즉 transparent quality를 얻기 위해 약 8-16kbps 정도가 필요한 것을 크게 향상시켜서 3kbps의 낮은…
다양한 분야의 시장 분석으로 유명한 IDC에서 AI 마켓 규모에 대한 예측 자료를 발표했습니다. 아래는 관련 링크입니다: 발표 자료에 따르면 2021년 AI 마켓 규모는 약 $328B로 예측되며, 2024년까지 17.5%의 CAGR로 지속…
Avatarify는 Zoom, Teams, Hangout, Skype등 다양한 화상통신 프로그램에 실시간 아바타 애니메이션 기능을 추가해주는 프로그램으로, 오픈소스로 공개되어 있습니다. 화상통신 프로그램의 카메라 입력을 대치하는 형태로 개발되어 있으며, 알고리즘은 first-order motion model을 사용합니다.…
DensePhrases는 고려대학교 이진혁님이 만든 오픈도메인 Q&A 기술로, “Learning Dense Representations of Phrases at Scale”라는 제목의 논문으로 발표되었습니다. 다음은 논문 링크입니다: 질문이 주어지면 약 600억개에 달하는 위키피디아의 문단들로부터 가장 적합한 문단을…
통합 자연어 처리 패키지로 유명한 HuggingFace에 음성 인식 기능이 추가되었습니다. 다음은 관련 링크입니다: 구체적으로 Facebook이 개발한 Wav2Vec 2.0이 추가되었는데, Wav2Vec 2.0은 대량의 라벨링 없는 데이터로 unsupervised learning을 먼저 하고, 매우…
한 장의 사진에서 3D 모델을 만들 수 있는 기술이 MeInGame이라는 이름으로 공개되었습니다. 공개 저장소에 올라온 결과를 보면 아직 디자이너의 작업 없이 서비스에 적용되기에는 부족하지만 초기 모델링 노력을 상당 부분 절감시킬…
AI 분야의 다양한 논문들 및 연계된 오픈 소스, 그리고 SOTA에 대한 정보를 제공하는 paperswithcode에서는 3천개가 넘는 유용한 데이터셋 링크를 함께 제공하고 있습니다. 이 중 텍스트에 대한 데이터셋은 851종이며, 한국어로 한정할…
카카오브레인에서 다양한 자연어 태스크에 대응 가능한 통합된 형태의 자연어 프레임워크인 Pororo를 오픈소스로 공개했습니다. Pororo는 Platform Of neuRal mOdels for natuRal language prOcessing의 약자이며 HuggingFace와 유사한 목적이라고 생각할 수 있습니다. Pororo는…
Digital Twin이란 현실 세계에서 실체를 가지고 있는 사물이나 환경을 가상 공간으로 그대로 옮겨놓고, 둘 사이를 연동시키는 것을 의미합니다. 간단히 표현하자면 현실 세계를 디지털로 모델링하는 것을 의미하지만, 단순히 모델링하는 것 뿐…
다수의 convolution layer로 구성된 AlexNet이 등장한 이래 딥러닝 모델의 구조에 대한 많은 연구들이 있어 왔습니다. 예를 들어, Google Inception은 3×3, 5×5, 7×7 등 서로 다른 커널 크기를 갖는 convolution layer를…
딥러닝 모델의 파라미터수가 크게 증가함에 따라 학습에 필요한 메모리도 함께 늘어나고 있습니다. OpenAI의 GPT-2는 1.5B개의 파라미터들로 구성되며 Google의 mT5도 13B에 이르는 파라미터 수를 가지고 있습니다. 또한 OpenAI의 GPT-3의 파라미터 수는…
AI 분야가 많은 발전을 이루어 온 것은 맞지만, 인간에 비해서는 아직 부족한 점이 많습니다. 만일 AI의 최종 목표를 인간의 뇌가 수행하는 모든 기능을 모사하는데 둔다면, 인간의 뇌가 수행할 수 있지만…
OpenAI가 발표한 DALL-E는 자연어 텍스트로부터 이미지를 생성하는 기술입니다. 기존에도 StackGAN이나 OP-GAN 등 같은 목적의 기술들이 있었지만 DALL-E는 초대규모 언어 모델인 GPT-3 기반으로 만들어져서 최종 결과물의 품질이 월등히 우수하다는 장점이 있습니다.…
SuperGLUE는 다양한 자연어 이해 task에 대해 AI 기술의 성능을 평가하는 챌린지입니다. 기존 GLUE에 비해 상대적으로 난이도가 높은 task들로 구성되어 있는 것이 특징인데, 최근 Microsoft에서 발표한 DeBERTa 모델이 SOTA(state-of-the-arts)를 달성했으며, 평가…
2012년 딥러닝이 본격적으로 등장한 이후 많은 분야에서 AI 기술은 기존 기술의 성능을 훌쩍 뛰어넘는 성과를 거두어 왔습니다. 제한된 환경이기는 하지만 아타리 게임은 2015년, 이미지 인식과 바둑은 2016년에, 피부암 진단과 음성…
최근 정식 버전이 릴리즈된 스캐터랩(https://scatterlab.co.kr/)의 “루다”는 수십억건의 카카오톡 대화 데이터를 기반으로 학습된 오픈도메인 챗봇으로 누구나 페이스북 메신저를 통해 대화를 나눠볼 수 있도록 개발되었습니다. DEVIEW 2020에서 스캐터랩 김종윤 CEO가 발표한 동영상은…
일상 생활에 지장을 줄 정도로 뇌의 기능이 크게 저하되는 현상을 통틀어 치매라고 하는데, 알츠하이머는 치매 중 60%-80% 가량을 차지하는 가장 큰 원인 중 하나입니다. Stevens Institute of Technology에서는, 알츠하이머를 빠르게…
KoChat은 고현웅님이 공개한 한국어 오픈소스 챗봇 프레임워크입니다. 다음은 KoChat github 저장소입니다: 흔히 챗봇이라고 하면 대화 모델만을 생각하는 경우가 많지만, 사실 챗봇이라는 제품 관점에서 보면 머신러닝 알고리즘이 차지하는 부분은 일부분에 불과합니다.…
FrankMocap은 Facebook AI Research(FAIR)에서 공개한 기술로서 한 장의 이미지, 혹은 동영상에서 3D 모델을 위한 포즈를 추출해내는 역할을 합니다. 특히, 바디 뿐 아니라 손 모양까지 함께 추정할 수 있다는 것이 특징이라고…
Digital Human Platform은 인간형 외모를 가진 아바타에 다양한 AI 기술을 접목한 형태입니다. AI 대화 기술 및 시각화 기술의 발전에 힘입어 현재 다수의 Digital Human Platform 업체가 등장하고 있는데, 그 중…
AI 트렌드 및 게임 업체들의 AI 기술 적용 사례들을 정리한 보고서입니다. 대략적 목차는 다음과 같습니다: AI is… AI 마켓과 주요 플레이어 기술과 서비스 게임 특화 접근 게임 적용 사례
조준희님이 수집하여 라벨링한 한국어 욕설 데이터 세트를 공유합니다. 여러 커뮤니티에서 수집된 것으로서, 실세계 데이터에 대한 평가용으로 적합한 것 같습니다. 아래는 데이터 세트에 대한 설명입니다: Data Description 문장의 욕설 여부를 분류한…
BERT로 대표되는 딥러닝 기반의 대규모 언어 모델은 Q&A, 문서 요약, 문서 생성, 대화 등 자연어 관련한 다양한 task에서 뛰어난 성능을 보이고 있으며 특히 최근 등장한 GPT-3의 경우 인공 일반 지능(AGI)에…
Gather Town은 Zoom이나 Teams와 같은 화상미팅 솔루션의 일종이지만, 가상 공간과 아바타를 적극적으로 도입한 것이 특징입니다. 예를 들어 “Office”라는 가상 공간을 만들고, 각 참여자들은 고유한 아바타와 가상 공간 내 “자리”를 부여받습니다.…
주어진 질문에 대해 적합한 답변을 생성하는 QA Task는 최근 딥러닝 기술로 인해 많은 성능 향상이 이루어져 왔습니다. 잘 알려진 SQuAD도 이런 Task 중 하나입니다. 그런데, 각 Task 별로 모델이 학습되다보니…
흔히 Q&A task라고 부르는 문제는 질문과 대답을 pair로 기록한 데이터 세트로부터 학습하여 질문을 던졌을 때 적절한 대답이 나오도록 하는 것을 목표로 합니다. 챗봇을 생각하면 되는데, question generation은 이와는 달리 문단을…
StudioGAN은 포항공대 CVLab 강민국님께서 공개하신 pytorch 기반의 오픈소스 라이브러리로서 다양한 GAN 알고리즘들이 구현되어 있습니다. 포함되어 있는 GAN 알고리즘에는 DCGAN, LSGAN, WGAN 등 주요 알고리즘들이 다수 포함되어 있어 상호 성능 비교 등…
포커는 반이 심리전이라고 해도 과언이 아닐 만큼 바둑이나 체스와는 또 다른 게임입니다. 이번에 페이스북이 공개한 ReBeL은 이런 점에서 주목할 만하다고 생각합니다. 특히, 강화학습과 검색을 함께 사용한 것이 특징인데, RAG와 같이…
위처 시리즈로 유명한 CD PROJEKT RED 스튜디오에서 2020년 말 출시할 Cyberpunk 2077에는 JaliResearch의 얼굴 애니메이션 기술이 사용되었습니다. 주 목적은, 3D 캐릭터가 다양한 표정을 지을 수 있도록 하고, 다국어 음성에 맞게…
MindMeld는 서비스 가능한 수준의 품질 확보를 목적으로 만들어진 오픈소스 대화형 AI 플랫폼입니다. Python으로 작성되어 있으며 최신 NLP 기술 및 지식 기반 Q&A 엔진을 포함하고 있습니다. 다음은 MindMeld 플랫폼의 대략적 아키텍처입니다:…
최근 AI 분야에서 있었던 여러 변화들을 분석한 리포트인 State of AI Report 2020입니다. 이 보고서는 AI 투자자 Nathan Benaich 와 Ian Hogarth가 매년 작성하고 있으며 올해가 3년째입니다. 아래와 같은 다섯…
디비전2는 매시브 엔터테인먼트가 개발하고 유비소프트가 퍼블리싱한 온라인 액션 RPG로서 천연두가 유행하는 워싱턴 DC를 배경으로 하고 있습니다. 게이머는 정부 요원과 함께 도시를 새로 세우는 역할을 맡아 수행하게 됩니다. 매시브 엔터테인먼트의 수석…
아바타는 AI 기술이 등장하기 오래 전 부터 SNS, 고객 응대, 게임 내 캐릭터 표현 등 여러 가지 형태로 활용되어 왔습니다. 관련한 그래픽 기술의 발전에 힘 입어, 다양한 시도들이 이루어져 왔는데,…
Unity의 ArtEngine은 AI 기반의 기술을 이용해서 고품질의 그래픽 리소스들을 쉽게 만들 수 있도록 도와주는 도구입니다. Unity에서는 이러한 기술들을 AI-assisted artistry라고 부르는데, 상세히 사용해 본 것은 아니지만 상당히 유용해 보이는 기능들이…
Interspeech 2020에 발표되었던 Facebook의 실시간 잡음 제거 기술인 denoiser의 github 링크를 공유합니다. Pytorch로 구현되어 있으며 원 논문 제목은 “Real Time Speech Enhancement in the Waveform Domain”입니다. 제목에서 알 수 있듯이…
IDC 예측 보고서에 따르면 2020년 AI 마켓 규모는 약 157B$로 예측된다고 합니다. 물론 이 수치는 AI와 관련된 다양한 업종, 즉 하드웨어와 클라우드 서비스, 소프트웨어를 모두 합한 것입니다. 또한, 이 보고서에서는…
일반적으로 Q&A 시스템은 텍스트를 사용해서 질의 응답을 수행합니다. 이런 방식의 태스크로는 어떤 사실을 설명한 문단을 주고 질문을 던지면 적당한 대답을 생성하는 Squad task가 있습니다. 이에 비해, Visual QA는 텍스트 대신…
UneeQ가 Digital Human Creator라는 디지털 휴먼 플랫폼을 출시했습니다. 서비스 가격이 다소 부담스럽긴 하지만, free trial을 제공하고 있어서 간단한 테스트를 해 보기에는 부족함이 없습니다. 시각적 측면에서는 기존에 많이 나왔던 3D 아바타들을…
Human-Like AI의 시각화 부분을 구현하기 위해서는 3D 휴먼 모델을 어떻게 만들고, 움직일 것인가에 대한 고민이 필요한데 기존 다양한 접근 방법이 있지만, 그 중 하나로 Max Planck ETH Center에서 CVPR 2020에…
기존 영어 위주로 연구되던 언어 모델 및 번역 모델을 다국어로 확장하려는 시도가 많이 이루어지고 있습니다. Google의 mT5는 기존 T5 (text-to-text transfer transformer)를 다국어 코퍼스로 확장한 연구로서, 총 101개국 언어를 포함한…
코로나19가 전세계적으로 아직 진정될 기미를 보이지 않고 있습니다. MIT에서는 핸드폰으로 녹음한 기침소리로부터 코로나19 감염 여부를 확인할 수 있는 AI 모델을 학습하였고, 이에 대한 방법론과 실험 결과를 논문으로 발표하였습니다. 실험 결과에…
Adobe에서 neural filter라고 불리는 AI 기반의 편집 도구들을 발표했습니다. 일부는 이미 Photoshop 최신 버전에 포함되었다고 하네요. 예시로 든 기능에는 사진의 하늘을 통째로 다른 하늘로 변경하는 것 (맑은 하늘, 구름이 있는…
2020년은 미디어 압축 분야에서 AI 기술 적용이 본격적으로 고려되는 원년이 될 것 같습니다. 올해 있었던 4가지 이벤트를 간략하게 살펴보면 다음과 같습니다. (1) 차세대 영상 표준에서 딥러닝 기술이 빠지다 먼저, 7월에는…
핑퐁 블로그에 “슈퍼휴먼 AI를 꿈꾸는 루다의 대화 구성”이라는 글이 올라왔는데, 오픈 도메인 챗봇을 설계함에 있어서 고민해야 할 부분들이 여러 가지 들어 있어서 공유합니다. 이루다는 일상 대화 기술을 고도화하고 있는 스캐터랩이…
AI 기술을 이용한 코로나19 관련 연구들이 다수 등장하고 있습니다. 아래에 공유한 논문은 Nature지에 게재된 Fraunhofer HHI의 연구로서, Bluetooth Low Energy(BLE)로부터 측정한 수치들을 머신러닝 기법으로 분석하여 확진자와 접촉한 사람들 중 위험군들을…
NVidia에서 Maxine이라는 클라우드 기반 화상 통신 플랫폼을 공개했습니다. Maxine의 특징은 AI 기술을 전면적으로 도입한 것인데, 구체적으로 얼굴 영상을 H.264와 같은 영상 코딩 기술로 압축해서 보내는 방식이 아니라 facial landmark를 detection하여…
마음이 참 짠했던 사진입니다. 저화질로만 남아 있는 유관순 열사의 사진을 고화질로 복원하고 미소를 덧붙인 것인데, 딥러닝 기반의 얼굴 편집 기술이 들어간 Faceapp을 사용했다고 합니다. Faceapp에 정확히 어떤 기술이 들어갔는지는 알…
최근 사람의 모션에서 움직임을 추출하여 새로운 모션을 생성하는 기술들이 많은 것 같습니다. (vid2vid, vid2game, pose2pose) Vid2Player는 Stanford 대학에서 연구한 내용인데, 실제 테니스 랠리 영상 데이터를 이용하여 공이 위치하는 곳에 따라…
여러 네트워크 모델을 앙상블로 결합하면 성능이 오르는데, 총 네트워크의 크기와 추론 시간도 함께 증가하기 때문에 실제로 적용할 때는 어려움이 많은 것이 현실입니다. MEAL(Multi-model Ensemble via Adversarial Learning)은 이러한 점을 해결하기…
NLP Dataset과 Evaluation metric을 쉽게 사용할 수 있게 해 주는 Huggingface Datasets 라이브러리의 첫 번째 stable version 1.0이 공개되었습니다. 현재 약 100개의 Dataset과 각 Dataset에 맞는 Evaluation metric(약 10개)을 지원합니다.…
가상 캐릭터를 보기에도 자연스럽고 물리 법칙 측면에서도 합리적으로, 즉 Human-Like하게 움직이는 것은 게임 분야는 물론 컴퓨터 그래픽스 전반에 걸쳐 오랜 연구 주제였습니다. Facebook 원정담님이 제 1저자로 참여하신 프로젝트인 “A Scalable…
LipGAN은 음성 신호를 이용하여 얼굴 이미지의 입술 모양을 생성하는 기술인데, 실제로 동영상에 적용해보니 visual artifact나 움직임의 자연성 측면에서 다소 아쉬움이 있었습니다. 이를 개선하기 위해서 Discriminator에서 단일 frame이 아니라 복수개의 연속된…
Transformer 기반의 언어 모델들이 보여주는 성능적 향상은 놀랍지만 모델 크기가 기하급수적으로 늘어나면서 서비스 비용에 대한 고민도 중요해지고 있습니다. Bert-base나 GPT-2의 경우 약 1억개의 파라미터를 가지고 있어서 모델 크기, 메모리 대역폭,…
링크는 Sony와 ETH Zurich에서 발표한 논문에 대한 리뷰글인데, 유명 자동차 게임인 Gran Turismo를 대상으로 reinforcement learning을 적용해서 인간 기록을 넘는 결과를 냈다는 내용입니다. 사용된 기술 자체는 이미 잘 알려져 있는…
일상 대화 연구에서 두각을 나타내고 있는 스캐터랩(https://scatterlab.co.kr/) 핑퐁팀 블로그에 있는 글인데 GPT-3 사례에 대해서 스토리있게 잘 정리된 것 같아서 공유합니다. 저는 GPT-3를 아직은 ‘의심의 눈초리’로 보고 있습니다만 다시 봐도 신기한…
bryandlee님 github에 deep generative model을 이용한 image translation 적용 결과와, 침착맨 이말년 웹툰으로 만든 관련 연구가 있어서 공유합니다. 연구 제목도 “침착한 생성모델 학습기”입니다. 전 이런 위트가 좋더라구요! 과정을 보면, 웹툰…
하나의 프로그래밍 언어로 쓰여진 코드를 다른 프로그래밍 언어로 바꾸고자 하는 시도는 그 동안 많이 있어왔고, 상용 툴도 여러 종류가 있습니다. 주된 사용 목적은 호환성 확보인데, 예를 들어 FORTRAN이나 BASIC, 혹은…
Imagenet-1K(1000개 클래스 이미지 분류 문제)는 CNN의 발전과 더불어 수많은 최적화가 이루어져온 Task입니다. 딥러닝 시대의 개막을 알린 AlexNet의 TOP-5 에러는 약 17%인데, 이 당시 기존 최고 기술(SIFT+FV)의 TOP-5 에러가 약 26%였던…
Iskander Utebayev라는 디자이너가 만든 AR Glass 컨셉 영상입니다. 컨셉영상인 것을 감안하더라도 상당히 Fancy하고 일단 구현만 된다면 스마트기기를 사용하는 Human-Machine Interface를 크게 바꿀 수 있는 잠재력이 있다고 생각합니다. AI 기술을 적용할…
특수 훈련을 받으면 입술 움직임만으로 무슨 말 하는지 알 수 있다고 하는 이야기를 들은 적이 있는데요, 링크글의 연구는 이것을 AI로 실현한 것입니다^^ Lip2Wav라고 불리는 이 기술은 이미지로부터 ConvNet을 이용하여 feature를…
대규모 언어 모델의 경우 한국어 모델이 없어 항상 어려운 점이 있었는데 SKT의 KoBERT에 이어 Naver에서 네이버 댓글 데이터, 신조어 등을 반영한 데이터로 바닥부터 학습한 KcBERT를 공개했습니다. 학습된 모델 뿐 아니라…
딥러닝 기반의 super resolution 기술은 NVidia의 최신 GPU에서 DLSS(deep learning super sampling)라는 이름으로 채용되어 consumer 대상으로 실 서비스되는 기술이 되었는데요, 주로 4K 게이밍 시장에서 4K 렌더링의 비용을 낮추기 위해 2K…
일반적으로 이미지에서 사용되는 convolution은 3D operation입니다. (KxKxC; K=커널크기, C=채널수) 이것을 KxKx1의 2D operation 복수개로 분할하여 적용한 후, 채널 방향으로 1x1xC 크기로 convolution을 적용하는 depthwise separable convolution은 파라미터 수를 엄청나게 감소시킵니다.…
LipGan은 음성 신호로부터 입 모양을 생성하는 연구입니다. 가상 캐릭터의 입 애니메이션을 만들어내는데 유용하게 사용될 수 있는 기술이지만, 실제로 적용해 보면 가만히 있는 캐릭터의 입술만 움직이기 때문에 한계가 명확합니다. 실제로 인간이…
최근 비대면 화상 미팅이 일상화 되면서 Zoom을 사용해서 다자간 화상 회의를 하는 일이 많아졌습니다. Zoom fatigue라고 불리는 현상도 더불어 주목받고 있는데요, 이 것은 사각형으로 각 사람을 가득 채운 UX로 장시간…
(ISO MPEG) VVC 혹은 (ITU-T) H.266이라는 이름을 갖는 신규 영상 코덱의 국제 표준안이 릴리즈 되었습니다. 관련 기사 공유합니다. 딥러닝 기술이 등장하기 전에 대부분의 기술이 완성되었던 HEVC와는 달리 VVC의 경우 딥러닝…
각종 통계를 보면 AI 관련 major conference 참가자의 수는 5년간 6배가 증가했으며 AI 스타트업의 수는 비 AI 스타트업이 4년간 28% 증가하는 동안 113% 증가했습니다. 벤처 투자액은 비 AI 분야에서 5년간…
Visual Dialog task는 질의 응답으로 이루어지는 Q&A task에 이미지를 추가한 멀티모달 task입니다. 예를 들어 흰색 고양이와 검은색 강아지가 함께 있는 사진을 주고 “고양이 옆 동물은 무슨 색이야?”라고 물어보면 “검은색”하고 대답하는…
최근 재미있게 읽은 글 공유합니다. 이 글에서는 인간과 AI가 각자 잘하는 분야가 다르고, 어느 한 쪽이 다른 쪽을 대치하기 보다는 함께 협업하는 형태를 소개합니다. 집단 지성(collective intelligence)은 한 개인의 지적…
SIGGRAPH 2019에서 발표된 논문인 “Learning Character-Agnostic Motion for Motion Retargeting in 2D”의 프로젝트 페이지 공유합니다. 이 논문은 (서로 달라도 되는) 영상 3개로부터 각각 motion, skeleton, camera angle을 추출한 후에 이들을…
게임 제작 쪽에서는 이미 많이 활용하고 있는 Adobe Mixamo 사이트 링크 공유합니다. 들어가보면 3D 캐릭터 121개와 캐릭터 모션 2484개가 올라와 있고, (Autodesk) FBX라는 3D 포맷으로 다운받을 수 있습니다. 이 포맷은…
Tacotron2, MelGan, FastSpeech등 여러 최신 TTS 모델을 지원하는 Tensorflow 2 기반의 오픈소스인 TensorflowTTS가 드디어 Microsoft FastSpeech2를 지원하기 시작했습니다. FastSpeech2는 Transformer 계열의 TTS와 유사한 성능을 보이지만 학습에 걸리는 시간이 2배 이상…
링크글은 Intelligence와 Automation의 차이에 대한 많은 고민이 들게 만드는 글입니다. Artificial Intelligence는 1960년대 신경망이 등장하면서 쓰이게 된 용어로 알려져 있는데요, 이후 컴퓨팅 파워나 데이터 확보 등에서 어려움을 겪으면서 특별한 진전을…
영상이나 이미지로부터 감정을 인식하는 시도들은 다양하게 있어 왔습니다. 클라우드 API에서도 제공되고 SNS에서도 화제가 될 만큼 (기쁨 95% 등등) 많이 알려진 응용 분야입니다. 아래 링크한 논문은 영상으로부터 감정을 인식함에 있어서, 얼굴…
동영상 압축 분야에서도 무어의 법칙(트랜지스터의 수가 2년에 2배씩 증가)과 같은 것이 있는데, 1993년 MPEG-1, 2003년 MPEG-4/AVC (H.264), 2013년 MPEG-H/HEVC (H.265)로 이어지는 10년 2배 압축률 증가 경향입니다. 참고로 이미지 압축의 경우,…
Text-to-SQL은 자연어를 SQL로 자동 변환하는 Task입니다. 하단에 공유한 글은 Microsoft 소속의 Aerin Kim이 작성한 글인데, Text-to-SQL에 대해서 잘 정리되어 있습니다. 세상에는 수 많은 데이터들이 Relational Database로 구축되어 있고, 이 Database에서…
딥러닝 알고리즘을 학습할 때는 GPU가 필수적이라고 생각되지만, 모델 학습이 완료되고 난 후 서빙을 하는 경우에는 GPU 대신 CPU를 쓰는 경우가 많이 있습니다. 예를 들어 어느 정도 최적화 과정을 거치고 나면…
MIT의 Speech2Face는 음성신호로부터 화자의 얼굴을 생성해내는 연구입니다. 다만 하나의 모델로 speech to face transform을 수행하는 것이 아니며, 다른 목적의 기존 연구 결과들을 잘 조합하여 인상적인 결과를 만들어냅니다. (제1 저자는 현재…
Google이 공개한 MixIT AI는 복수개 음원이 믹싱된 싱글 채널 오디오로부터 분리된 음원을 얻는 기술입니다. Blind source separation task라고 볼 수 있는데, 기존 기술들과는 달리 unsupervised(!)로 우수한 성능을 낸다는 특징이 있습니다.…
예측 분야에서, Algorithm Aversion(알고리즘 혐오)는 알고리즘이 실수할 수 있다는 것을 인지하게 되면 인간의 예측보다 우수하더라도 쓰지 않으려는 경향이 있다는 의미로 쓰입니다. 예를 들어 AI 면접, 질병 예측, 자율 주행, AI…
53,000시간의 라벨링 없는 데이터로 representation training을 한 후, 10분 분량의 라벨링 된 데이터만으로 음성인식기를 만들어낸다고 해서 화제가 되었던 Facebook의 wav2vec 2.0에 대한 pre-trained model이 공개가 되었습니다. Representation model에 no fine-tuning,…
(자율주행차 등에 사용될) 도로 상황 인식 연구를 위해 만들어진 데이터셋 DriveSeg입니다. 동영상의 각 프레임에 대해, 이미지 전체를 pixel-by-pixel로 semantic labeling 한 것입니다. Label은 “vehicle, pedestrian, road, sidewalk, bicycle, motorcycle, building,…
조금 비약이 있기는 하지만 AI 알고리즘에 물리적 장치를 추가한 것을 지능형 로봇이라고 본다면, 아마도 향후 가장 많이 보급될 지능형 로봇은 자율주행차일 수도 있다는 생각이 들었습니다. 좀 궁금해져서 자율주행차에 대한 서베이…
최근 트렌드 중 하나는 초거대 모델, 즉 파라미터의 수를 엄청나게 늘리고 기존 학습법을 적용하는 것입니다. 인간의 뇌가 보여주는 “소프트웨어적 능력”은 둘째 치고, 얼마나 늘려야 인간의 뇌의 “하드웨어적” 능력에 도달할 것인가?에…
현재까지 제안된 많은 MRC 모델들이 다양한 Task와 Dataset에서 인간의 능력을 넘어선 평가값을 보여주고 있지만, 주어진 context에 대해서 인간보다 더 잘 이해하는 것인가?라는 질문을 받는다면 쉽게 YES라고 말하기 어렵다고 생각합니다. 우선,…
IBM의 감성 로봇 나오미(Nao-mi)에 대한 영상입니다. [내용 요약] 어렵게 쌓은 탑을 무너뜨리라고 요구하는 사람과 하기 싫다고 말하는 로봇. 계속적인 요구에 로봇은 울다가 결국 무너뜨립니다. 영상을 보면서 가슴이 많이 아팠습니다. 마음을…
Few shot learning만으로 모든 자연어 task에 적용할 수 있는 가능성을 보여준 초대규모 언어 모델의 대명사 GPT-3의 학습 비용은 한화로 약 40억원으로 추산된다고 합니다. GPT-2의 경우는 약 4천만원. 아무리 재활용성이 높다고…
락스타에서 만든 2011년작인 LA 느와르는 다른 게임보다 훨씬 우월한 수준의 얼굴 애니메이션이 적용되어 많은 사람들을 놀라게 했습니다. 이때 사용된 기술은 MotionScan이라고 불리는데, 기본적으로 여러대의 카메라가 정교하게 배치된 방 안에 배우가…
디지털화가 진행되고 인터넷, 웹이 등장하면서 지식은 전세계 서버에 분산되어 저장되었고 서로 연결되고 검색 가능하게 되어 접근성과 활용성이 비약적으로 발전합니다. 책을 도서관에서 빌려서 순차적으로 읽으면서 정보를 “검색”하는 대신, 검색 엔진을 이용하여…
“Codec Avatar”라는 이름으로 진행되는 Facebook의 디지털 휴먼 프로젝트의 데모 영상이 공개되었습니다. 2019년 영상에 비해서 추가된 부분으로,아바타 외형이 좀 더 사실적으로 바뀌었고 마커 없이 몸 전체를 트래킹하는 기술을 보여줍니다. 2019년 3월…
이미지 한장을 입력으로 얼굴 표정을 바꾸는 애니메이션을 만들어주는 기술인 GANimation의 코드 저장소입니다. 기본적으로는 conditional GAN인데, 얼굴의 해부학적 움직임을 기술하기 위한 방법론인 FACS (facial action coding system)를 활용하였습니다. FACS에 따르면 우리…
일본의 Virtual Human Project인 Saya 프로젝트. 일본어로 되어 있어서 진척도를 전부 이해하지는 못했지만 비주얼적인 완성도는 상당히 높고, 표정도 자연스럽습니다. 향후 인간의 감정 추가, 행동 인식, 대화 등의 기능을 추가할 계획이라고…
애니메이션 캐릭터 이미지 데이터베이스인 Danbooru 2019 버전 링크를 소개합니다. 약 3.7백만개의 이미지가 있고 이미지당 약 29개의 tag가 붙어 있습니다. Tag의 예제로는 “1girl”, “solo”, “long_hair”, “highres”, “smile”, “open_mouth”와 같은 것들이 있어서…
Human-like AI를 탑재한 인간형 캐릭터의 완성도가 엄청나게 향상되었다고 가정해보면, 이를 컴퓨터나 스마트폰 스크린과 같은 2D 평면에 전시하고 마우스, 키보드, 터치로 상호작용을 하는 것만으로는 잠재력을 충분히 사용하지 못한다는 생각이 듭니다. 이의…
인간의 감정 인지나 표현은 복합적인 것이 많은데 (예: 화내는 감정은 표정, 목소리, 언어에 모두 영향을 줌) 오디오-비디오가 함께 묶여 있으면서 감성 라벨링이 되어 있는 오픈 데이터셋을 하나 소개합니다. The Ryerson…
최근 재미있게 읽은 인간의 능력과 신경망의 관계에 대한 글입니다. 글에도 나오지만 인간의 뇌와 신경망의 동작 방식은 유사한 구석이 있지만 같을 필요는 없다고 봅니다. 헤엄치기 위해 물고기를 따라하기 보다는 잠수함을 만들면…
유명 게임 회사인 King의 캔디크러시사가는 수 많은 레벨로 구성되어 있는 퍼즐 게임입니다. 2018년 데이터이긴 하지만 매주 약 15개의 레벨을 추가한다고 합니다. (1년에 약 3700개) 레벨의 난이도를 측정하여 밸런싱을 해야 하는데,…
AI 챗봇이 주로 하는 일은 상품 정보 설명, 스케줄 알려주기, 날씨 확인 등 질의 응답이라고 할 수 있습니다. 아마도 이러한 기술이 극대화 되면 ‘지식’이라는 인간의 일부 분야에 대해서 ‘Super Human…
“Synthetic media”라는 워딩으로 AI 기술을 미디어 마케팅에 적용하고 있는 Synthesia 블로그의 글입니다. 이 회사가 주로 하는 분야는 동영상내 모델의 얼굴 표정 및 입술 모양을 또 다른 영상으로부터 옮겨와서 합성(조정?)하는 것입니다.…
Rosebud.ai(https://rosebud.ai/)는 마케팅 캠페인을 위해 만들어진 이미지에 가상의 모델 얼굴을 생성하여 합성하는 기술로 마케팅 시장을 타게팅하고 있습니다. 만들어진 결과물은 꽤 자연스럽고, 사진을 다시 찍지 않아도 언제라도 모델 얼굴을 교체할 수 있다는…
대다수의 챗봇 시스템은 아직도 규칙 기반으로 동작하지만, 자연스러운 대화를 구현하기 위해서는 결국 BERT 등 더 복잡한 언어 모델들을 사용해야 합니다. 다만, BERT는 무겁고 복잡하다는 인식이 많은데, 게임 플랫폼 업체인 Roblox에서…
TikTok이 사람 얼굴을 애니메이션 캐릭터로 실시간 변환해주는 필터를 추가했습니다. Selfie2Anime도 그렇고 김준호님이 만든 UGatIT도 그렇고 참고할 결과들이 있긴 하지만 TikTok의 기술은 완성도 면에서 상당한 수준에 올라온 듯 합니다. 섬세한 얼굴…