RAGAS: RAG 시스템 성능 평가, 이제는 제대로 해보자!
[Interactive AI 기술팀 김윤혜] RAG(Retrieval-Augmented Generation, 검색 증강 생성) 파이프라인은 대규모 언어 모델(LLM)의 한계를 보완하기 위해 외부 지식을 활용하여 보다 정확하고 관련성 높은 응답을 생성하는 기술입니다. 그러나 이러한 파이프라인의 성능을…
[Interactive AI 기술팀 김윤혜] RAG(Retrieval-Augmented Generation, 검색 증강 생성) 파이프라인은 대규모 언어 모델(LLM)의 한계를 보완하기 위해 외부 지식을 활용하여 보다 정확하고 관련성 높은 응답을 생성하는 기술입니다. 그러나 이러한 파이프라인의 성능을…
[Interactive AI서비스팀 임석영] 대 AI 시대가 찾아온 혼돈의 시기에 저 같은 AI 모르는 개발자는 어떻게 AI 서비스를 만들 수 있을까요? 이번 글에선 저같이 아무것도 모르는 상태에서 간단한 AI 서비스를 만드는…
[AI 서비스 기획팀 유연오] 1. 흑백요리사 : AI 패러디 물 등장 최근 넷플릭스에서 흥행을 거둔 시리즈가 있습니다. 바로 흑백요리사입니다. 평소 요리에 큰 관심이 없는 저조차도 ‘맛으로만 승부한다’는 독특한 컨셉에 이끌려…
[Creative AI 기술팀 김윤태] 디지털 시대의 빠른 발전과 함께, 인공지능(AI)은 상상만 했던 것들을 현실로 만드는 놀라운 도구가 되었습니다. 그중에서도 Text-to-Image (T2I) 모델, 즉 텍스트를 입력하면 이미지를 생성해내는 기술은 많은 이들에게…
[Media AI 서비스팀 김상우] AI 기술 등에 대한 칼럼을 다루는 이 페이지에, 이런 덕후스러운 썸네일을 올리게 된 점 매우 미안하게 생각합니다. 하지만 AI 기술의 발전은, 애니메이션과 게임을 좋아하는 저를 매우…
[Interactive AI서비스팀 김민석] 다양한 규모의 서비스를 개발하고 운영하면서 점점 더 많은 머신러닝 모델을 서빙하게 됩니다. 이 과정에서 기존 모델을 변경할 때는 해당 모델을 사용하는 서비스와 시스템 내의 관련 구성 요소를…
[Media AI서비스팀 이진희] 최근 텍스트 만으로도 실제와 비슷한 동영상을 제작할 수 있는 생성 AI 서비스들이 우후죽순 등장하며 연일 화제에 오르고 있습니다. 2024년 2월, OpenAI에서 발표한 Sora(소라)가 대표적인데요. 실제 카메라로 찍은…
[생성AI서비스팀 김경환] 현시대의 개발에서는 “오픈소스 문화”를 떼어 놓고 이야기하는 것이 불가능합니다. 특히 인공지능 분야에서는 Pytorch와 같은 딥러닝 프레임워크에서부터 심지어는 사전 학습 모델까지도 공개하고 기여하는 것이 추세입니다. 내가 업무에 사용하는 오픈소스…
[선행AI기술팀 이지현] Model Merge (모델 병합)은 여러 개의 Large Language Models (LLMs; 대형 언어 모델)을 추가 교육이나 미세 조정 없이 하나의 강력한 모델로 결합하는 방법론입니다. 특정 태스크에 최적화된 각 LLMs을…
인공지능의 발전은 우리의 삶에 큰 변화를 가져왔습니다. 특히 generative 모델은 이러한 변화의 중심에 서 있습니다. 디퓨전을 기반으로 한 생성 모델이 이미지, 오디오 생성 분야에 활용되고 있으며, 다양한 성과를 보여 주고…
“AI를 활용하여 1분짜리 SF영화 예고편을 만들어 보자” [뉴미디어서비스팀 유선민] 물론, 우리가 헐리우드에서 보던 퀄리티는 아니지만 하루만에 뚝딱 책상 머리 앞에서 만든 것에 의의를 둔다면 ‘세상 참 좋아졌다’ 라는 소리가 절로…
[뉴미디어서비스팀 윤형진] AI 기술이 발전함에 따라 게임이나, 영상 쪽에서 사용되는 언리얼5 등의 제작 엔진에서도 관련된 기술을 적용하려는 움직임이 많이 보이고 있습니다.그 중에서 오늘 소개 드릴 것은 언리얼 5.2 부터 추가된…
[선행AI기술팀 방나모] 최근 몇 년간 자연어처리 기술은 눈부신 발전을 했습니다. 지금은 자연어처리 기술이 많은 산업 분야에 적용되어 사람의 수고를 덜어주는게 일반적인 상황이 되었습니다.소프트웨어 개발 분야는 자연어처리 기술을 가장 적극적으로 이용하는…
[AI서비스기획팀 김현주] 음악 전문 지식이 없더라도 간단히 명령어만 입력하면 단 몇 분 만에 전문가 수준의 음악을 만들 수 있는 시대가 왔다. 음악은 단순히 사람들이 즐기는 것 뿐만 아니라 음악을 만드는…
[생성AI서비스팀 이혜진] 지난 몇 년 동안, AI 기술의 발전은 여러 IT 산업에 혁신적인 변화를 가져왔습니다. 그렇다면 게임 회사에서는 어떻게 AI를 활용하여 발전할 수 있을까요? 가장 먼저 드는 생각은 아마 게임…
[분석AI서비스팀 전소희] AI 기술이 나날이 진화함에 따라 엔터테인먼트, 미디어, 전자상거래, 의료, 교육, 제조 등 다양한 산업군에 계속해서 AI 활용도가 증가하고 있습니다. 웹서비스 개발자로써 그동안 java를 백엔드 언어로 사용해왔는데, 현재 가장…
[선행AI기술팀 신숙영] Redis를 사용하면서 관심을 가지게 된 RedisAI에 관하여 소개하도록 하겠습니다. RedisAI란? RedisAI는 Redis Labs에서 개발한 오픈 소스 솔루션으로, Redis 데이터 구조 서버를 기반으로 딥러닝 모델을 관리하고 실행하는 데 사용됩니다.…
[AI센터 한대웅] 해마다 연초에 시작하는 세계 최대 행사인 CES(1월)와 MWC(2월)는 기업들이 저마다 가지고 있는 기술을 200%(?) 활용하여 제품과 서비스를 통하여 알리고 고객들과 직접적인 대면을 통한 피드백을 받을 수 있는 행사이면서…
[분석AI서비스팀 이현정] 관리해야 할 AI모델과 데이터가 많아지고 그 용량이 커지면서 필자가 관심을 가지게 된 Ceph에 대해 간략히 소개해 보고자 합니다. Ceph 이란?Ceph은 단일 분산 컴퓨터 클러스터에 오브젝트 스토리지를 구현하는 오픈…
[선행AI기술팀 전동준] 스타트업 회사인 Mistral AI 에서 지난 8일에 Mixtral 8x7B 모델을 오픈소스로 출시하였습니다. 지난 9월에 출시한 Mistral 7B 모델 기반으로 현존 언어 생성 분야에서 최고 성능인 GPT-4에서 채택중인 “MoE”…
[선행AI기술팀 김석겸] 오늘 소개할 기술은 구글의 제미나이입니다. 제미나이는 구글에서 LLM의 최고는 누구인가, 어떤 모달리티까지 커버할 수 있는가, 요즘 핫한 on-device AI까지 다 먹어버리겠다고 나온 모델입니다. 아래 영상이 이를 잘 보여줍니다.…
[생성AI서비스팀 정재철] 세계 3대 컴퓨터 비전 학회 중 하나인 ICCV 2023(International Conference on Computer Vision, 국제 컴퓨터 비전 학회)이 10월 2일 부터 6일 까지 프랑스 파리에서 개최되었습니다. 이번 ICCV 2023을…
[분석AI서비스팀 김민석] ML 서비스가 많아지고, 지속적 학습을 하기 위해서는 ML PIPELINE을 구성하고 이를 관리하기 하기 위해서 우리는 여러 MLOPS 플랫폼을 사용하는데요.대표적으로 Kubeflow가 있을텐데요. Kubeflow는 다양한 장점이 있지만 Kubernetes 환경에 종속적이며,…
[분석AI서비스팀 박효주] 최근 언어 모델의 발전은 큰 임팩트를 주었고, 그만큼 연구 또한 활발히 이루어지고 있습니다. 그러나 이러한 모델의 서빙 과정에서 발생하는 고도의 계산 작업과 메모리 요구량은 새로운 도전 과제를 제시하고…
[선행AI기술팀 김윤혜] 2023년 IT 분야를 휩쓸었던 가장 핫한 이슈는 단연 ChatGPT입니다. ChatGPT는 모두가 쉽게 사용할 수 있는 대화형 거대 언어 인공지능 챗봇으로, 글로벌 사회에 생성형 AI에 대한 큰 임팩트와 유행을…
[뉴미디어서비스팀 유선민] “저는 유부남입니다. 마법 같았어요. 저도 모르게 홀렸죠. 그녀와 첫 만남을 잊을 수 없어요. 하지만 아쉽게도 한 달 만에 헤어지게 됐습니다. 1년 동안에만 수십 번의 연애를 하고 있죠.” 이게…
[AI서비스기획팀 유연오] AI 프로필의 인기가 날로 높아지고 있습니다. 한때 유행처럼 지나 갈 것 같던 AI 프로필은 여전히 화제입니다. 여러가지 컨셉으로 다양한 시도가 늘어가면서 그저 프로필에 그치지 않았습니다. 자신이 경험하기 힘든…
[뉴미디어서비스팀 정지혜] “Conversational AI(대화형 인공지능)”는 다양한 형태의 대화 기반의 애플리케이션을 포함하며, 그 중에는 텍스트 기반의 챗봇부터 음성을 활용한 가상 비서, 스마트 스피커의 음성 인터페이스 등이 있습니다. 이러한 시스템들은 기계 학습,…
[뉴미디어서비스팀 윤응식] 챗GPT와 미드저니의 등장으로 AI 기술에 대한 관심이 높아졌습니다. 이 두 가지 서비스는 자연어 처리와 대화 인터페이스 분야에서 놀라운 발전을 이루어낸 AI 기술이죠, 이 두가지 서비스를 필두로 AI 기술은…
[뉴미디어서비스팀 이진희] 오래 전 영화계를 강타했던 ‘해리포터’ 시리즈를 기억하시나요? ‘해리포터’ 영화 속에는 신기하고 마법같은 일들이 많았지만, 그 중에서도 호그와트 벽에 걸려있던 움직이는 그림들과 신문 속에서 살아 움직이던 인물의 사진을 기억하실텐데요.…
[선행AI기술팀 전동준] 세계 3대 자연어처리(NLP) 학회 중 하나인 ACL 2023(Association for Computational Linguistics, 전산 언어학 학회)이 7월 9일부터 14일까지 캐나다 토론토에서 진행되었습니다. 이번 ACL 학회에 회사의 지원으로 출장을 다녀와서 학회…
[가상생명연구팀 김석겸] 이 글에서 소개 드릴 프로젝트의 주제는 “파일 번역” 입니다. 번역 모델을 개발하기 앞서 기존에 서비스 중인 번역 서비스들을 살펴 보았습니다. 그 중에 눈에 띈 것이 “파일 번역” 입니다.…
[생성지능개발팀 정재철] 최근 이미지 생성 모델은 생성물의 수준이 많이 올라감과 동시에 text to image라는 방식이 제안 되면서 사용 난이도도 감소하여 많은 주목을 받았습니다. 이후 현재는 다양한 AI 그림 생성, 공유,…
[분석지능개발팀 박효주] 딥러닝 기술의 발전으로 AI 모델의 성능은 점점 향상되고 있고 있습니다. 하지만 그만큼 모델의 크기는 점점 거대해지고 추론 속도는 느려지고 있습니다. 더 좋은 GPU를 사용하면 효과를 볼 수 있지만…
[뉴미디어서비스팀 김상우 부책임] AI, 인공지능, 모델… AI 기술 관련해서도 한창 발전하고 있는 와중에, 넥스트 스텝을 예측해 봅니다. 그 전에, 마인드 업로딩에 관련된 공상과학 영화가 있습니다. 흥행에 성공한 영화는 아니지만, 상술한…
[가상생명연구팀 양승무 주임] ChatGPT의 시대가 도래하고 있습니다. AI 업계를 비롯한 다양한 산업과 분야에서도 ChatGPT의 우수성과 실용성이 인정되어, 많은 기업들이 ChatGPT의 적용을 추진하고 있습니다. 이러한 추세는 OpenAI와 같은 주요 기업들 뿐만…
[뉴미디어서비스팀 유선민 부책임] 한국에서도 큰 인기를 끌고 있는 SNL 코리아의 원작인 미국의 SNL (Staturday Night Live)이 제작 중단을 선언했다. 그뿐 만이 아니다. 세계적인 토크 쇼 중 하나인 지미 팰런 쇼도…
[AI Lab 유연오] 일상 속에 자리 잡은 이동형 AI 로봇 이동형 AI 로봇은 일상 속에서 심심찮게 볼 수 있습니다. 요즘 사람들은 대표적인 예로 외식업계에 도입된 서빙 로봇을 떠올립니다. 저번 달에…
[가상생명연구팀 황준선] ChatGPT와 Bard 등, 요즘 대화형태의 대형 언어 모델(LLM)이 우후죽순 발표되고 있다. 하지만, LLM만 있다면 학습한 데이터 안에서만 적절한 문장을 생성해낼 것이다. 그래서 Bard는 구글 검색 엔진을 추가하여 최근…
[뉴미디어서비스팀 정지혜] 최근 몇 년 동안 인공지능 기술이 급격하게 발전함에 따라, 콘텐츠 제작 분야에서도 인공지능 기술을 활용한 새로운 시도들이 이루어지고 있습니다. 이러한 시도들은 콘텐츠 제작과정을 자동화하고 생산성을 높이는 것뿐만 아니라,…
[뉴미디어 서비스팀 윤응식] 인공지능의 발전과 상용화로 인해 우리의 삶은 점점 더 풍요로워지고 있다. 특히 챗 GPT와 같은 대화형 AI는 다양한 분야에 활용되고 있는데, 이번에는 그 기술을 이용하여 신규 버츄얼 유튜버의…
[분석지능팀 김무성] 작년 연말 갑작스럽게 등장한 ChatGPT 이후로 GPT-4에 대한 여러 소문이 있었습니다. 그리고 저번 주에 ‘곧 공개될 거야!’라는 뉴스[1]가 나왔을 때도 반신반의했습니다. 물론 ‘지금까지의 OpenAI와 MS의 속도로 보면 정말일지도’라고…
[뉴미디어서비스팀 이진희] 요즘은 쇼츠, 틱톡 등 1분 이내의 짧은 영상을 시청할 수 있는 플랫폼이 많이 발달하여, 영상 콘텐츠에 접근하기가 더 쉬워졌습니다. 그러다보니 나도 모르게 화려하면서도 신기한 숏폼 콘텐츠를 몇 시간씩…
[뉴미디어 서비스팀 윤형진 책임] 본 포스팅에서는 ChatGPT와 DreamTexture를 활용하여 3D 모델링과 텍스쳐 생성을 어떻게 할 수 있는지에 대해 설명하고, 이 기술의 가능성과 한계점에 대해 이야기해보겠습니다. 1. ChatGPT로 생성한 파이썬 코드로…
[생성지능개발팀 한현준 X 정택현] ㅤ 최근 AI 분야의 급속한 발전과 함께, Diffusion 모델을 필두로 하는 생성 모델이 크게 주목받고 있습니다. ㅤ 스마일게이트 AI센터에서는 이러한 생성 모델에 관한 다양한 프로젝트를 진행하고…
[분석지능개발팀 전소희] 이번 주제는 몸을 넘어서 마음을 치유하는 고마운 AI 기술에 대해 살펴보겠습니다. AI 인공지능의 다양한 기술들은 현재 우리 생활 곳곳에서 많은 도움을 주고 있습니다. 예를 들면, 대화형 로봇으로 어르신들의…
[AI센터 한대웅] 음성과 언어기반의 AI, 윤리와 설명 가능한 AI, 생성 AI의 확장, 지속가능한 AI를 기반으로 본격적으로 사업화 도전하는 한해가 될 것으로 예상
[가상생명연구팀 박주형] 최근 강화학습에서 많이 주목 받고 있는 분야 중에 하나가 Offline 학습 입니다. 기존 강화학습은 시뮬레이터를 통해 실시간으로 trajectory를 받아서 학습을 했었어야 했는데요, 시뮬레이터 만들기도 쉽지 않고 실제 적용도 어려워서…
[가상생명연구팀 전동준] 일론 머스크나 걸그룹 트와이스와 채팅으로 무슨 대화를 나눌 수 있을까요? 내가 좋아하는 게임 속의 가상의 캐릭터에게 궁금한 것을 물어보고, 아인슈타인과 물리학에 관한 토론을 할 수 있을까요? Character.AI 에서…
[가상생명연구팀 심홍매] 얼마 전 Open AI에서는 대화에 최적화 된 LLM의 GPT-3.5 시리즈를 기반으로 하는 최신 모델 ChatGPT를 공개하였는데요. 공개되자 마자 각 분야에서 아주 뜨거운 관심을 받았습니다. ChatGPT는 대화 형식을 통해…
[AI센터 권은지] 올해 2022 카타르 월드컵에서는 국제축구연맹(FIFA)이 개발한 반자동 오프사이드 판독 기술 (SAOT, Semi-Automated Offside Technology)이 처음으로 적용되었습니다. 세계 각국의 자존심을 건 대결에서 작은 판정 하나도 큰 논란으로 확산되고 심판의…
[AI센터 한대웅] 얼마전 초등학생들의 장래 희망에 유튜버가 떠오르고 있다는 기사를 보고 깜짝 놀란적이 있었다. 미디어의 중심이 거대 기업 혹은 전문가가 아니라 다양한 형태의 일반인이 만들어 내는 창의적인 1인 방송 미디어에…
[분석지능개발팀 박효주] ML 모델의 Lifecycle은 연구 및 테스트를 진행하는 Research 단계와 실제 서비스화하는 Production 단계로 나눌 수 있습니다. Research 단계에서는 문제 정의부터 모델 선정, 성능을 높이기 위한 다양한 실험 등을…
[가상생명연구팀 김석겸] (대표 이미지는 stable diffusion 을 통해 생성되었습니다.) 음성을 입력으로 받아서 텍스트 생성의 결과를 음성으로 받고 싶을 경우, 기존에는 음성을 텍스트로 바꾸는 모델(Speech To Text, STT), 텍스트를 처리하는 언어…
[가상생명연구팀 전동준] 지난 10월 5일, DeepMind는 과학 학술지인 Nature지에 AlphaTensor가 행렬 연산의 최적화 방법을 찾아냈다고 발표하였습니다.
[분석지능개발팀 임창대] What is Feature?ML(Machine Learning) 은 과거의 예시 데이터를 학습한 모델을 기반으로 새로운 데이터 예측을 수행합니다.ML 모델 학습에서 표 형태의 2차원 데이터를 사용하였을 때 행이 예시이고 열이 해당 예시를…
[AI센터 한대웅] 2033년 미래의 지구는 AI로 제어되는 자율주행 자동차로 모든 교통수단이 안전하게 통제되고 있어 교통사고로 죽을 가능성은 0%에 가깝다. 20대 후반의 주인공은 완벽한 여자친구와 프로그래머로서 성공한 인생을 살고 있고 자신의…
[가상생명연구팀 심홍매] 올해 5월에 구글에서는 텍스트 입력을 기반으로 사실적인 이미지를 생성할 수 있는 텍스트-이미지 확산 모델(Diffusion Model)인 Imagen을 공개하였는데요, 몇개월이 지난 최근에는 사용자가 입력한 개체(subject)를 이해하고, 해당 개체 기반으로 다양한…
[생성지능개발팀 정택현] ㅤ MobileFaceSwap은 AAAI 2022에서 공개된 오픈소스 Face swap 모델로, 기존 Simswap, FaceShifter 모델을 Distillation 기반의 경량화를 적용하여 연산 속도의 측면에서 SOTA(State-of-the-art)를 달성한 것으로 알려져 있습니다. 실제로 Original Simswap이 107M Parameter와…
[생성지능개발팀 정우석] 진부한 이야기이지만 AI 연구에 있어서 데이터의 중요성은 아무리 강조해도 지나치지 않습니다. 수많은 학교, 연구기관이나 기업에서는 앞다퉈 기술력 자랑과 연구 성과를 위해 다양한 분야의 AI 관련 논문들을 발표하고 있습니다. 하지만…
[생성지능개발팀 정택현] ㅤ 최근 YOLOv7 알고리즘이 공개되며 컴퓨터 비전 및 각종 관련 커뮤니티에서 큰 주목을 받고 있습니다. 논문에 따르면, YOLOv7은 현재까지의 모든 Object detection 기술들보다 속도와 정확성 모두에서 더욱 뛰어난…
[생성지능개발팀 강민지] AI 연구가 지속적으로 이루어지고 있는 요즘, 사람들은 AI기술의 능력이 인간을 대체하거나 혹은 뛰어날 수도 있다고 여기며 이 기술과의 공생을 그다지 좋지 않은 관점으로 바라볼 때도 있습니다. 그러나 이…
[생성지능개발팀 유희조] 문명의 발전은 항상 사람을 더 편하게 만들어왔습니다만, 동시에 사람이 필요했던 업무를 꾸준히 대체해왔습니다. ‘기계가 노동자의 일거리를 줄인다’ 라는 구호와 함께 1800년대 초에 일어났던 러다이트 운동은 그런 대체가 가장…
[가상인간연구팀 황준선] Facebook의 Meta AI는 BlenderBot[1]이라는 대화형 인공지능 시스템을 개발하고 있다. BlenderBot2는 해당 포스트에서 다룬적이 있다. BlenderBot은 성격, 공감, 지식과 같은 대화에 필요한 다양한 기능을 통합하고, 장기 기억을 통해 문맥을…
[분석지능개발팀 박효주] 데이터 과학자들은 다양한 실험을 통해 학습된 모델의 성능을 검증하고 배포합니다. 이 검증 과정은 Accuracy, Precision, Recall, IOU, PSNR 등 적절한 지표를 사용해서 수치로 검증하는데, 이 수치만 가지고는 실측…
[AI Lab 김무성] 스탠포드의 CS25 : Transformers United 강좌 동영상이 최근 공개 되었습니다. [1] 강좌[2] 자체는 작년 하반기입니다만, 그간 슬라이드만 공개하고 있었습니다. 그런데 이번에 동영상도 유튜브를 통해 공유했습니다. 슬라이드 자료도…
[가상인간연구팀 김석겸] 목적 지향 대화(Goal-Oriented Dialogue) 혹은 과제 지향 대화(Task-Oriented Dialogue, TOD)는 특정 업무를 달성하는 것을 목표로 대화하는 것을 말합니다. Open-domain dialogue(ODD)는 대화 자체가 목적인 것에 비해, TOD는 목표가 뚜렷합니다.…
[AI센터 권은지] 현실과 가상의 경계를 좁히는 키워드는 시공간 데이터 베이스와 디지털 트윈(Digital Twin)을 비롯하여 다양하게 존재합니다. 그 과정에서 3D 모델링 분야는 전문가의 영역에서 벗어나 실제 오브젝트를 가상환경으로 전환하는 기술을 통해…
[가상인간연구팀 전동준] 언어 모델(Language Model, LM)은 단어나 문장을 확률적으로 예측하는 모델입니다. 통계적으로 다음에 등장할 단어들을 모델링하는 전통적인 방식에서 최근에는 딥러닝 기반의 언어 모델들이 많이 연구되고 있습니다. BERT, GPT-3 같은 많은…
[생성지능개발팀 한현준] 얼마 전 구글의 연구원인 Blake Lemoine은 언어 모델인 LaMDa가 자의식이 존재한다라는 주장을 펼쳤으나, 구글에서는 자의식의 증거를 찾을 수 없다고 판단하였고, 이에 Lemoine은 LaMDa와의 대화 일부를 자신의 블로그에 공개해…
[분석지능개발팀 임창대] Helm 은 Kubernetes 클러스터에 앱 및 서비스를 배포할 수 있게 단일 패키지 형태로 구성하고 관리할 수 있도록 도와주는 패키지 매니저입니다. 사용자는 Kubernetes 배포 환경의 정의, 설치 및 업그레이드를…
[분석지능개발팀 이현정] 지난 21일 테슬라는 카타르 경제 포럼에서 인공지능 휴머노이드 로봇 코드명 ‘옵티머스’를 3개월 내 선보일 예정이라고 밝혔습니다. 옵티머스는 인간이 할 수 있는 일을 수행하도록 하려면 크기와 모양이 거의 같아야…
[분석지능개발팀 송지현 연구원] McKinsey Global Institute에 따르면 “2025년까지 가치 생산 워크플로에 AI를 완전히 통합하는 기업이 2030년에 세계 경제를 지배하고 현금 흐름은 120% 이상 증가할 것입니다.” 라고 말했습니다. 현재 시점에 AI를…
[생성지능개발팀 김성현] 저희 센터의 인공지능 연구 모토는 ‘Human-like AI’ & ‘Fun AI’ 입니다. 그렇다면, 단순히 날씨나 뉴스를 알려주는 챗봇을 넘어, 친근하고, ‘사람 같은’ 인공지능은 어떻게 만들 수 있을까요?저희는 그러한 요소를…
[생성지능개발팀 정택현] ㅤ 컨텐츠 홍수라고 불리우는 최근에는, 우리가 접하는 미디어 컨텐츠들이 양적으로나 질적으로 이전과는 비교할 수 없게 다양화되고 또한 고도화되고 있습니다. 대표적인 예시로는 몇년 전까지만 해도 유튜브 등 영상 플랫폼에서는…
[가상인간연구팀 심홍매] 텍스트, 이미지, 음성 데이터 등 다양한 형태(modality)로 이루어진 데이터 특징을 효과적으로 학습하기 위한 방법을 Multimodal learning이라고 하는데요, 최근 국내외 학계 및 업계에서는 멀티모달 인공지능(AI) 모델 관련 연구들을 활발히…
[생성지능개발팀 김성현]우리는 한국어 문서를 볼 때, 그 대상을 의미를 가지는 단위로 쪼게서 이해할 수 있습니다.예를 들어, “스마일게이트” 의 경우, “스마일” 과, 문을 의미하는 “게이트”로 이해할 수 있겠죠.이렇게 자연어를 쪼게는 행위를…
[AI센터 한대웅] 스타쉽 엔터프라이즈가 등장하는 Star Trek은 1965년을 시작으로 수많은 드라마와 영화를 통하여 인류의 영역을 수십억 광년의 우주로 확장시킨 SF 대작이다. 드라마 속에서는 1960년대 부터 인공지능 기술을 활용하여 미지의 우주로…
[생성지능개발팀 유희조] Open AI의 GPT-3 발표 이후 ‘더 큰 언어모델’ 라는 형태의 경쟁은 하나의 패러다임이 되었습니다. Nvidia, Microsoft, Google 등의 해외 기업 뿐만 아니라 국내에서도 네이버, LG 등의 기업들이 지속적으로…
[가상인간연구팀 황준선] TPU 소개 TPU(Tensor Processing Unit)는 Google에서 발표한 텐서 연산에 특화된 하드웨어입니다. TPU는 인공지능 모델을 학습시킬 때 필요한 행렬 곱 연산을 가속화하여 기존 GPU에서 학습시킬 때보다 더 빠른 학습…
[AI센터 권은지] 비대면 소통 방식이 일상화되며 직장인의 근무 형태는 변화하였습니다. 원격 근무는 이미 하나의 표준으로 자리 잡게 되었으며 많은 기업이 효율성을 유지하는 하이브리드 근무 모델을 모색하고 있습니다. 글로벌 IT기업들은 직원…
[분석지능개발팀 박효주] DeepMind가 경쟁 프로그래밍 대회에서 사용 가능한 수준의 프로그래밍이 가능한 AlphaCode를 공개했습니다. AlphaCode는 Transformer 기반 언어 모델을 사용하여 대량의 코드들을 생성한 뒤 가장 적합한 코드를 필터링해서 사용하는 방식으로 프로그래밍합니다.…
[생성지능개발팀 한현준] 포즈 추정 모델의 발전 RGB 이미지만으로 포즈를 인식하는 모델은 지난날에 비해 비약적인 발전을 했습니다. 인식의 정확도는 많이 높아졌으며, 인식의 신뢰도가 높아짐으로 다양한 응용 기술이 개발 및 연구 되고…
[행동지능연구팀 이정우] 바둑과 같이 경우의 수가 매우 많은 복잡한 게임에서 알파고는 최고 수준의 프로기사를 넘어서는 모습을 보여줬습니다. 알파고 이후에 진행 된 프로젝트인 알파스타, OpenAI Five에서는 실시간 전략게임에서 자원을 수집하고, 활용하고,…
[분석지능개발팀 이현정] 마이크로소프트(Microsoft)가 노코드(no-code) 기반의 AI가 작성한 프로그램 코드를 검사하는 도구 ‘직소(Jigsaw)’를 발표했습니다. 노코드란 간단한 사용자 인터페이스 방식의 틀을 이용해서 복잡하고 어려운 코딩 과정 없이 어플리케이션과 응용 프로그램을 개발 및…
[가상인간연구팀 전동준] 요즘은 대화 모델이 외모를 가진 가상 인간으로 진화하고 있는데요. 다양한 연구와 시도들을 어떤 식으로 결합하고 확장할 수 있을지 맛보기 위해서 대화 모델에 3D 가상 인간의 외모를 붙인 튜토리얼을…
[생성지능개발팀 정택현] ㅤ “AI 기술이 창작활동을 지원하게 되면 컨텐츠 제작, 가상인간 등 다양한 분야에서 앞으로 어떠한 변화를 이끌어 낼 수 있을까?” “로스트아크, 크로스파이어 등 스마일게이트의 인기 IP 캐릭터를 AI 기술을…
[가상인간연구팀 송지현] 최근 NVIDIA 연구팀은 Showcased in a sessio at NVIDIA GTC 에서 가상 세계를 위한 아바타를 생성하거나 또는 장면을 생성하고, 화상 회의 참가자와 그들의 환경을 3D로 캡처하거나, 3D 디지털 map을…
[분석지능개발팀 임창대] Edge AI는 Edge computing 에서 시작된 것으로 사용자의 디바이스에서 인공지능 알고리즘을 처리하는 것을 말합니다. IoT, 웨어러블 디바이스, 자율주행과 같은 산업이 발달함에 따라 인공지능에서 사용되는 데이터는 데이터를 생성하는 센서…
[행동지능연구팀 최현우]어렸을 때 읽었던 책 중에 아직까지도 기억에 남는 소설 중 하나인 <사람들이 모두 미쳤다고 말한 외로운 수학 천재 이야기>에서는, 아직도 풀리지 않은 수학계의 난제 중 하나인 ‘골드바흐의 추측’을 다루고…
[가상인간연구팀 심홍매] 이미지 합성에서 이미지의 얽힘(entanglement)문제를 푸는 건 아주 중요하고 어려운 문제입니다. 예를 들어 사람의 얼굴에 있는 모든 수염을 자동으로 제거하거나, 혹은 완벽하게 수염을 붙히는 경우에도 수염과 얼굴 사이에는 일종의…
[AI센터 한대웅] “패러다임 시프트” 라는 단어의 사전적인 의미는 어떤 문제나 현상을 바라보는 전제나 접근 방법에 대한 근본적인 변화 혹은 인식의 전환을 의미합니다. 사회 문화적인 관점에서는 시민 계급이 절대 왕정에 저항하여…
[생성지능개발팀 유희조] AI는 근 10년간 다양한 업종에서 영향을 끼치고 있으며 과거의 매우 단순한 반복작업을 대체하는 것에서 그치지 않고 이미 예술에 까지 그 영역을 확장하고 있습니다. 컨셉에 맞춰 새로운 음악을 작곡하는…
[가상인간연구팀 황준선] NVIDIA NeMo는 간단한 Python 인터페이스를 사용하여 GPU 가속 음성 및 자연어 이해 모델을 구축, training 및 fine-tuning하기 위한 오픈소스 프레임워크입니다. NeMo를 활용하면 실시간 자동 음성 인식, 자연어 처리,…
[분석지능개발팀 박효주] 작년 12월 초, Meta에서 AI 기반 모바일 프로토타입 제작이 가능한 PyTorch Live를 출시했다. 이제는 안드로이드, iOS 개발을 해본 적 없어도 모바일 환경에 AI 프로토타입을 만들고 적용해볼 수 있을지…
[생성지능개발팀 조원] 인간의 관절이나 자세를 localize하는 human pose estimation은 computer vision 분야의 중요한 task중 하나로서 오랫동안 발전해 왔습니다. 과거에는 사람의 pose data를 얻기 위해서는 사람이 직접 motion capture 장비를 입거나…
[서비스개발팀 임용택] 2015년 6월, 미국 브루클린의 한 흑인 프로그래머는 여자친구와 찍은 사진을 보려던 중 깜짝 놀랄 일을 경험합니다. 구글 포토에 본인들의 사진이 “고릴라” 로 오토 태깅된 것을 보았기 때문입니다. 구글은…
[선행연구팀 이정우] 현실적인 캐릭터 움직임은 User에게 게임의 재미를 극대화 시킬 수 있는 요소로 작용 합니다. EA Sports에서는 FIFA 22에 새롭고 혁신적인 게임플레이를 위해 HyperMotion 기술을 적용했습니다. 최고 수준 축구선수들의 모션…
[서비스개발팀 권은지] 올해 CES(Consumer Electronics Show) 2022는 미국 라스베이거스에서 2년 만에 오프라인으로 재개되었습니다. 한국정보통신기술산업협회(KiCTA)에 따르면 전 세계에서 2200여곳의 기업이 참여하였으며 이중 미국 기업이 1300여곳으로 가장 많았고, 한국 기업은 약 500여곳으로…
[생성지능개발팀 김성현]인간은 세상을 학습할 때, 다양한 감각을 동시에 이용하며 학습합니다.그리고 모든 감각은, 이를 감지하는 신경세포(neuron)의 발화(spike)로 변형되어 [1,0] 의 신호로 뇌로 전달됩니다. 예를 들어, 물체를 만지지 않았을 때는 세포의 발화가…
[서비스개발팀 한현준] 서론 사람들은 AI 스피커에서 난청 장애가 있는 사람들을 위한 도구 개발에 이르기까지 광범위한 음성 인식 및 이해 작업에 AI를 이용합니다. 그러나 이러한 음성 이해 시스템은 일상 상황에서 종종…
[서비스개발팀 한현준] 최근 엔비디아에서 AI 워크플로, 3D 디자인 협업 및 시뮬레이션 플랫폼 ‘Omniverse’를 RTX 제품을 사용하는 개인 크리에이터와 아티스트에게 무료로 제공한다고 발표했습니다.엔비디아 뿐만 아니라 메타(舊 페이스북)의 ‘Spark AR’, 틱톡으로 유명한…
[선행연구팀 정택현] 가끔, 아이들은 우리의 상상력을 뛰어넘는 놀랍고 창의적인 캐릭터들을 그려내곤 합니다. 이러한 아이들의 그림을 이해하기 위해서는 우리의 상식과는 조금 다른 이해방법이 필요합니다. 아이들의 그림을 살펴보면, 추상적이고 공상적인 방식으로 구성되는…
[서비스개발팀 이현정] 지난 2019년 12월 이후부터 현재까지 인류는 팬데믹 상황에 처해 있고, 아직도 진행 중이며 끝날 줄 모르고 이어져오고 있다.오랜 팬데믹 상황으로 사람들의 이동이 제한되고, 사람과 사람과의 물리적 거리를 제제하여…
[융합연구팀 전동준] “어제 홈스파 3편 보고 왔어요” 라고 누군가가 말한다면 여러가지 반응이 나올 수 있습니다. ‘홈스파’가 마블에서 제작한 스파이더맨 영화 시리즈의 약칭인 것을 모른다면 인터넷에 ‘홈스파’ 라는 키워드를 검색하여 무엇인지…
[서비스개발팀 권은지] 영상 분할(Semantic Segmentation) 기술은 컴퓨터 비전 분야에서 가장 핵심적인 요소 중 하나이며, 이미지 내의 픽셀별로 해당 픽셀이 어디에 속하는지 분류하는 문제입니다. 이 분야는 실생활에서 의료, 드론, 교통 분야에…
[융합연구팀 최현우] 여러분은 감정이라는 단어를 들으면 어떤 것들이 떠오르시나요? 예전부터 희로애락 (기쁨, 분노, 슬픔, 즐거움) 이라는 개념이 있었고, 감정 연구에 대해 조금 관심을 가지셨던 분이라면 Paul Ekman의 6가지 기본 감정…
[서비스개발팀 임창대] 높은 정확도를 가진 딥러닝 모델 개발에는 긴 시간이 소요됩니다. 모델 훈련과 미세 조정, 최적화를 거치며 만족하는 모델을 만들기까지 수 주일 또는 수 개월이 걸릴 수 있습니다. NVIDIA NGC…
[융합연구팀 송지현] Microsoft는 기존의 시각데이터(image and video)를 활용하여 새로운 시각데이터를 생성하고 조작할 수 있는 multimodal pretrained model인 NUWA를 발표했습니다. 아래 그림은 8개의 다운스트림에 대한 시각적 합성 기술을 연구한 결과입니다. 서로…
[융합연구팀 심홍매] 2019년에 열린 GTC 컨퍼런스에서 Nvidia는 GAN(generative adversarial networks)을 기반으로 대략적인 스케치를 사실적인 이미지로 바꿔주는 실시간 AI 페인팅 애플리케이션인 GauGAN 을 발표하였습니다. 그로부터 2년이 지난 최근 NVIDIA는 GauGAN의 후속…
[서비스개발팀 임창대] ML(Machine Learning) 은 최근 몇 년 동안 점점 더 많은 관심을 받아 이제 주류로 부상한 IT 주제 중 하나 입니다.ML 모델 학습은 API와 tool 이 너무 발전되어 더…
[선행연구팀 유희조] 최근 Google, Microsoft와 같은 월드 클래스의 빅테크 기업, 그리고 한국 내에 있는 많은 IT 업체들은 메타버스가 미래이며 메타버스 구축하겠다는 포부를 끊임없이 발표하고 있습니다. 그 중에 가장 큰 화두가…
[서비스개발팀 권은지] 랜선 여행이란 인터넷 연결선을 뜻하는 랜(Lan), 선(Cable) 그리고 여행(Trip)을 결합하여 인터넷으로 여행을 한다는 의미의 신조어입니다. 최근 국가 간 이동 제한이 완화되고 있지만 국제 관광산업은 여전히 부진한 상황인 것으로…
[선행연구팀 이정우] 28일 페이스북은 사명을 ‘메타’로 변경하면서, 메타버스의 성공이 회사의 목표임을 다시 한번 강하게 보여줬습니다. 단순히 계획이 아님을 보여주듯이, 메타의 자회사 오큘러스에서 신형 VR 헤드셋 ‘캄브리아’를 공개했습니다. VR 헤드셋은 메타버스…
[서비스개발팀 김병인] 네이버가 웹툰을 기반으로한 인공지능 채색 사이트를 오픈 했습니다. 밝혀진 정보에 따르면 네이버웹툰이 3년동안 연구,개발한 기술들을 접목하여 만들어졌다고 하는데 딥러닝 기반의 30만장의 데이터셋을 활용해 인물의 얼굴, 신체, 배경등 다양한…
[융합연구팀 전동준] 우리가 일반적으로 생각했었던 “AI 같은”의 의미는 사람과 대비되는 기계의 느낌이 강했습니다. 감정이 느껴지지 않고, 말투도 딱딱한 사람들을 “AI 같은 사람” 이라고 많이 표현했었습니다.
[선행연구팀 김성현] 자연어처리 분야에서 pre-trained language model (PLM) 전략이 훌륭한 성공을 거두자, 더 많은 데이터를 이용해 더 큰 PLM을 개발하는 것이 하나의 트랜드로 자리잡았습니다.그리고 얼마 전, NVIDIA에서는 GPT-3의 무려 4배…
[서비스개발팀 한현준] 챗봇의 고민 OpenAI의 GPT-3, Google의 Meena, Facebook의 Blender 등 대형 자연어 처리 AI 모델은 인간의 언어를 실제 사람과 구별하기 힘들 정도로 모방했습니다. 그 기반엔 대형 웹사이트를 크롤링한 방대한…
[Service Development Team Cho Ye-ji] Dr. Eric Horvitz, former president of the Association for the Advancement of Artificial Intelligence (AAAI), an association that researches artificial intelligence in the United States, and computer scientists at Stanford University are studying the influence of artificial intelligence in the second half of 2014. AI100(One…
[Convergence Research Team Ji-Hyun Song] Deep Natural Language Processing for LinkedIn Search Systems I am feeling how effectively the structuring and optimization design of a chatbot system is applied recently while studying Rasa Open Source. Even within it, the intent and entity…
[Service Development Team Han Hyun-Jun] What is AutoML AutoML literally means Auto + ML, a process that automates machine learning model development tasks. By automating the process that took a lot of time in research and development of the model…
[Convergence Research Team Hongmae Shim] If we were to pick the top 10 keywords for 2020 in the field of NLP, of course it would be in the GPT-3 (Language Models are Few shot Learners) ranking. To this day, the enormous amount of parameters and excellent performance of GPT-3 is still in the field of NLP…
[Service Development Team Lee Hyeon-jeong] The Ministry of Land, Infrastructure and Transport held a presentation on the final outcome of the development of truck platooning technology on the 9th. The contents of the presentation include an overall description of platooning technology, V2X-based platooning vehicle control technology, mobile app-based platooning service technology, and platooning commercialization…
[Service Development Team, Eunji Kwon] The dictionary definition of an influencer is a person who influences others. With the development of today's one-man media channels, anyone can become a creator and rise to so-called stardom by uploading interesting content. With friendliness…
[Prior Research Team Hee-Jo Yoo] Translation is a topic that has been studied since the early days of the deep learning boom. Attention, which is now used in any field, was also the first proposed method to solve the problem of the Seq2Seq structure. For the past 10 years, deep learning-based translator…
Can artificial intelligence become human? (Interview with Eunji Kwon, Manager of Smilegate.AI Service Development Team) The AI speaker plays music that suits my mood that day. Self-driving cars move themselves to their destinations. AI idols rap and dance with me...
[Service Development Team Kim Byung-in] Tesla recently decided to release radar from Model 3 and Model Y sold in North America. Since LiDAR has already been excluded, we have declared that autonomous driving will be implemented only with the camera and AI technology on the car. So far, there are two sensors: lidar and radar…
[Prior Research Team, Jeongwoo Lee] At Tesla Autonomy Day held in 2019, technology and direction were introduced with a focus on 'autonomous driving' technology. This year, as the name of Tesla AI Day, this year, artificial intelligence for full vision self-driving, which has been known for a long time, in line with the technology theme of 'artificial intelligence'…
[Prior Research Team Seonghyun Kim] The causal language model (eg GPT-3), which caused a great sensation in natural languages, has now been applied to programming languages beyond natural languages! 🤗 Last June, Copilot, jointly developed by Github and OpenAI, was released. Copilot is like GPT-3 in natural language, given code…
[Service Development Team Cho Ye-ji] When we define AI like a normal human, we say that it is an AI that acts like a human and thinks like a human. The shape and form of AI that each person expects is different, but in order to implement the AI that many people are aiming for, various…
[Prior Research Team Hyunwoo Choi] Last May, DeepMind published a reinforcement learning paper titled 'Reward is Enough'. The authors give examples of 'a squirrel trying to increase satiety' and 'a kitchen robot trying to maintain cleanliness', and if appropriate rewards are defined, intelligence-related (cognitive,…
[Service Development Team Jeon Jeon-jun] Facebook AI unveiled the Droidlet platform for robot development that can be used in real and virtual environments on the 28th of last month.
[Service Development Team Lim Chang-dae] 'Vertex AI' was unveiled at Google's Developer Conference IO in May. Vertex AI is a managed cloud service of Google Cloud that integrates AutoML and AI Platform.
[Prior Research Team Jihyun Song] It has been over 2 years since I was interested in Open Domain chatbot and came across papers on Blender 1.0 and Meena. At that time, they had a consistent long-ton conversation that they claimed they would overcome in the future, and about knowledge…
[Service Development Team Cho Ye-ji] NFT X Metaverse Since March of this year, NFT X Metaverse has been the hottest topic in technology and investment keywords. As the boundary between the real and the virtual world is blurring, it is naturally intangible as an extension of the metaverse…
[Prior Research Team Hongmae Shim] As super-giant language models such as Open AI's GPT-3 and NAVER's Hyper CLOVA have been released, various examples and services using them are pouring out recently. Such a giant language...
[Priority Research Team Hee-Jo Yoo] TTS (text-to-speech) is a technology that converts text into a voice of a specific voice when inputting arbitrary text. After Google announced the Tacotron series, it quickly switched from HMM (hidden Markov model)-based to deep learning-based, and is now commercially…
[Service Development Team Hyeonjun Han] Introduction Tensorflow and PyTorch are the most popular libraries for machine learning. Developers who develop AI services or researchers who study models often face difficulties in selecting a library at the beginning. Also, as the library version goes up...
[Prior Research Team Kim Moo-seong] Eternal Sunshine Director Michel Gondry's film 'Eternal Sunshine' is a romantic sci-fi film about memories and parting with Jim Carrey and Kate Winslet as a couple. In the movie, the technology to erase memories comes out...
[Prior Research Team, Jeongwoo Lee] We have been using games (Go, chess, Atari games, etc.) to verify the performance of reinforcement learning algorithms for a long time. With the development of algorithms, in the field of reinforcement learning, like other images and natural language fields, there are...
[Priority Research Team Seonghyun Kim] The Eleuther AI team, which was releasing the GPT-3 model under an open license, recently released a new GPT-3 model with 6B (about 6 billion) parameters. (Link) It is said that the name GPT-J-6B was given because Mesh-tensorflow and JAX were used. The training data is about…
[Service Development Team Hwang Jun-sun] When supervising machine learning models, when a dataset with an unbalanced number of data between labels is used as training data, the phenomenon in which learning of samples belonging to a label with a small ratio is not performed well you will experience simply…
[Service Development Team, Kyunghwan Lee] We usually encounter unlabeled data bundles in the process of learning a model, and often run into data annotation problems. Labeling all unlabeled data is too time-consuming and expensive...
[Service Development Team Lim Chang-dae] Before DevOps appeared, each company had its own server, called an on-premise server, and there were separate server administrators, developers, and QA. In this situation, if you cannot connect to the service, buy an actual physical server, make a rack, and set up the server…
[Service Development Team Jeon Jeon-Jun] ML-Agents, unveiled by Unity, is an open source tool that creates virtual characters in the game environment. You can create a game environment and learn NPC characters (Agents) that can operate in the environment through algorithms such as reinforcement learning.…
[Prior Research Team, Ji-Hyun Song] The TadGAN algorithm developed by the MIT research team is known to have better performance than previously known models in detecting anomalies by analyzing time series data. Currently, many companies researching anomaly detection are working in various fields (financial…
[Service Development Team, Eunji Kwon] When I was a child, when I was drawing imagination, robots in outer space were a favorite material. Looking back, from cartoons (Galaxy Railroad 999) to captains of artificial intelligence computers that move trains to recently released Humanoid movies, artificial intelligence is an important part of the media...
[Lead Research Team Hongmae Shim] NAVER first unveiled Korea's first'ultra-large AI' Hyper CLOVA, a Korean version of GPT-3, developed by itself at the'NAVER AI NOW' online conference held on the 25th. Open AI GPT-3, which makes it difficult to use languages other than English and…
[Service Development Team Kim Byung-in] At Google I/O 2021, an event that showcases the latest Google technologies, Android, Web, artificial intelligence, Chrome, and other technologies, services, and platform services were released. Among the many technologies, the hottest topic is LaMDA (Google's language…
[Prior Research Team Yoo Hee-jo] Pose estimation is one of the visual processing technologies that tracks the movement of characters in a video. Body landmarks, which are similar to facial landmarks, are extracted and connected to describe the posture of the entire body. Most of…
[Service Development Team Jeon Jeon Jeon] The digital transformation of companies accelerated by Corona 19 continues to increase the value of data. The need for change in various industries as well as specialized IT companies is raising ransom money for data specialists.
[Prior Research Team, Jeongwoo Lee] Recent reinforcement learning has shown that AI agents can overwhelm human performance in various tasks. However, when compared to humans, unlearned AI agents require a lot of time to learn and generalize to various tasks...
[Service Development Team Byungin Kim] MetaHuman Creator is a digital human creation tool recently released by Epic Games. It looks similar to the character creation of an MMORPG game, but it is very difficult to implement such a real-time digital human, and it is a very time-consuming task. It is easy to rig, hair,...
[Prior Research Team Sung-Hyeon Kim] The latest language model is learned using a large-scale corpus. In particular, for models using decoder neural networks such as GPT-2, BART, and T5 models, natural language can be generated by repeatedly sampling the next token. Here's how to sample…
[Service Development Team Eunji Kwon] Lifelogging is a word that combines Life and Log, and'As We May' contributed to the'Atlantic Monthly' by Baneva Bush, the director of the National Institute of Science and Technology in the United States in 1945. It was first mentioned in the article'Think'. He said that in any form, people live the life of pictures...
Transformers made to be applied to the field of natural language processing have recently been applied not only to text but also to various data such as images and videos, showing excellent performance. However, text, images, and videos are each 1D, 2D, 3D…
Comparing the games from 10 years ago to the current games, there are a lot of differences, especially in terms of graphics. For example, 4K or higher resolution, sophisticated graphic textures, natural 3D model animations, physics engines, light engines, etc...
Most decoration apps currently running on mobile phones such as Snow and Line Camera operate in the form of extracting facial landmarks and overlaying previously created objects. Also, in recent years, various image processing techniques such as beauty filters...
Metaverse, which means all forms of interaction between reality and connected avatars within a virtual environment, has recently attracted attention from various industries. In particular, the global non-face-to-face environment that started with Corona 19 dramatically increases the demand for metaverse...
OpenAI's GPT-3 is a large language model with a parameter count of up to 175B. Despite the surprising results of GPT-3, it is not open source, so if you want to try it, try AI Dungeon (https://play.aidungeon.io/main/landing) or Philosopher AI (https://philosopherai.com/). ) Through a site such as...
Graph Neural Network (GNN) is emerging as a new field of AI. GNN is a neural network technology that can be usefully applied when data is expressed in a graph, a structure connected by a number of nodes and edges, yet in terms of technology maturity...
ImageNet is a dataset that has greatly influenced the advancement of AI technology so that no one knows about AI researchers. Consisting of a large number of images and their metadata, this dataset consists of approximately 14 million images...
As a deep learning-based image generation method, GAN produces a lot of amazing results. In particular, the latent space is simply random because it is possible to make changes that have a number of meaningful meanings by changing the latent vector after learning.
It is news that Hugging Face, famous for its deep learning-based natural language processing open source, has attracted a $40M Series B investment. Hugging Face Transformer is perhaps one of the most popular open source projects in the field of natural language processing…
Tensorflow Lite is a software package that contains tools that allow AI models trained with Tensorflow to run on mobile devices. It is said to be running on over 4 billion devices now. Basically, the trained model is converted to Tensorflow Lite…
Jina, which is open sourced by Jina.AI, is a multimodal data search engine using deep learning technology. Not only does it implement some functions for search, it includes the entire system that can be easily applied to the service, and not only text…
The latest AI technologies based on deep learning are being actively introduced in various fields such as speech recognition, speech synthesis, translation, chatbots, and smart factories, but there are not many cases of full-scale application in the game field yet. A book published by Springer…
Google Lyra is a new voice compression method based on the generative model. Existing voice compression methods have greatly improved the original sound quality, that is, about 8-16kbps required to obtain transparent quality, so that 3kbps low...
IDC, renowned for its market analysis in various sectors, has published predictions about the size of the AI market. Below is the relevant link: According to the announcement data, the AI market size in 2021 is predicted to be about $328B, and until 2024, it will continue at a CAGR of 17.5%...
Avatarify is a program that adds real-time avatar animation functions to various video communication programs such as Zoom, Teams, Hangout, and Skype, and is open source. It is developed in the form of replacing the camera input of a video communication program, and the algorithm uses a first-order motion model.
DensePhrases is an open domain Q&A technology created by Jinhyuk Lee at Korea University, and was published as a paper titled “Learning Dense Representations of Phrases at Scale”. Here is a link to the paper: Given a question, the best paragraph from Wikipedia's nearly 60 billion paragraphs…
HuggingFace, famous for its integrated natural language processing package, adds speech recognition. The following is the related link: Specifically, Wav2Vec 2.0 developed by Facebook was added, which Wav2Vec 2.0 does unsupervised learning first with a large amount of unlabeled data, and very…
The technology to create 3D models from a single photo has been unveiled under the name MeInGame. Looking at the results uploaded to the public repository, it is not yet enough to be applied to the service without the designer's work, but it will significantly reduce the initial modeling effort…
Paperswithcode, which provides information on various papers in the field of AI, linked open source, and SOTA, provides links to over 3,000 useful datasets. Of these, there are 851 data sets for text, limited to Korean…
In Kakao Brain, Pororo, an integrated natural language framework capable of responding to various natural language tasks, has been released as open source. Pororo stands for Platform Of neuRal mOdels for natuRal language prOcessing and you can think of it as a similar purpose to HuggingFace. Pororo...
Digital Twin means moving an object or environment that has a substance in the real world into a virtual space and linking the two. Simply put, it means digitally modeling the real world, but simply modeling…
Since the advent of AlexNet consisting of multiple convolution layers, there have been many studies on the structure of deep learning models. For example, Google Inception uses convolution layers with different kernel sizes, such as 3×3, 5×5, and 7×7…
As the number of parameters of a deep learning model increases significantly, the memory required for training is also increasing. OpenAI's GPT-2 consists of 1.5B parameters, and Google's mT5 also has a number of parameters up to 13B. Also, the number of parameters of OpenAI's GPT-3...
It is true that the field of AI has made a lot of progress, but there are still many shortcomings compared to humans. If the final goal of AI is to mimic all the functions the human brain performs, the human brain can perform…
DALL-E, released by OpenAI, is a technology that generates images from natural language text. Previously, there were technologies for the same purpose, such as StackGAN and OP-GAN, but DALL-E has the advantage that the quality of the final result is remarkably excellent because it is made based on GPT-3, a super-scale language model.
SuperGLUE is a challenge that evaluates the performance of AI technologies for a variety of natural language understanding tasks. It is characterized by consisting of tasks with relatively high difficulty compared to the existing GLUE, and the DeBERTa model recently announced by Microsoft achieved SOTA (state-of-the-arts) and evaluated...
Since deep learning began in earnest in 2012, AI technology has surpassed the performance of existing technologies in many fields. Although it is a limited environment, Atari game in 2015, image recognition and Go in 2016, skin cancer diagnosis and voice…
“Luda” of ScatterLab (https://scatterlab.co.kr/), whose official version was recently released, is an open domain chatbot that has been learned based on billions of KakaoTalk conversation data. Anyone can chat through Facebook Messenger. Was developed to be The video released by ScatterLab CEO Jongyoon Kim at DEVIEW 2020 is...
Dementia is a phenomenon in which the brain functions so much that it interferes with daily life. Alzheimer's is one of the biggest causes of dementia, accounting for about 60%-80%. At the Stevens Institute of Technology, Alzheimer's is fast...
KoChat is a Korean open source chatbot framework released by Hyunwoong Ko. Here's the KoChat github repository: When talking about chatbots, people often only think of a conversation model, but in fact, from a product point of view as a chatbot, machine learning algorithms occupy only a fraction of the…
FrankMocap, a technology released by Facebook AI Research (FAIR), is responsible for extracting a pose for a 3D model from a single image or video. In particular, it is characterized by being able to estimate not only the body but also the shape of the hand...
The Digital Human Platform is a form that combines various AI technologies with an avatar with a humanoid appearance. With the advancement of AI dialogue technology and visualization technology, a number of Digital Human Platform companies are currently appearing, among which…
This is a report that summarizes AI trends and cases of AI technology application by game companies. The approximate table of contents is as follows: AI is… AI Market and Major Players Technology and Services Game-specific Approach Game Application Cases
We share a set of Korean profanity data collected and labeled by Joonhee Jo. It is gathered from multiple communities, and seems to be suitable for evaluation of real-world data. Below is a description of the data set: The Data Description statement is classified as swearword...
The large-scale language model based on deep learning represented by BERT shows excellent performance in various tasks related to natural language such as Q&A, document summarization, document generation, and conversation. In particular, the recently appeared GPT-3 is an artificial general intelligence (AGI)...
Gather Town is a kind of video meeting solution such as Zoom or Teams, but it is characterized by actively introducing virtual space and avatars. For example, we create a virtual space called “Office”, and each participant is given a unique avatar and “seat” within the virtual space.…
QA Tasks that generate appropriate answers to a given question have seen a lot of performance gains due to recent deep learning technologies. The well-known SQuAD is one such task. By the way, the model is trained for each task...
Problems, commonly referred to as Q&A tasks, aim to learn from a data set that records questions and answers in pairs, so that when a question is asked, an appropriate answer is produced. You can think of a chatbot, but question generation is different from the paragraph...
StudioGAN is a pytorch-based open source library released by Pohang University CVLab Kang Min-guk, and various GAN algorithms are implemented. The included GAN algorithm includes a number of major algorithms such as DCGAN, LSGAN, WGAN, and so on.
It is not an exaggeration to say that poker is half a psychological game, so it is a different game from Go or chess. I think the ReBeL released by Facebook this time is remarkable in this regard. In particular, it is characterized by using reinforcement learning and search together, like RAG...
JaliResearch's facial animation technology is used in Cyberpunk 2077, which will be released in late 2020 by CD PROJEKT RED studio, famous for the Witcher series. The main purpose is to allow 3D characters to make various facial expressions, and to suit multilingual voices...
MindMeld is an open source interactive AI platform designed to ensure serviceable quality. It is written in Python and includes the latest NLP technology and knowledge-based Q&A engine. Here is the approximate architecture of the MindMeld platform:…
This is the State of AI Report 2020, a report that analyzes various changes in the AI field. This report is written annually by AI investors Nathan Benaich and Ian Hogarth, and this is their third year. Five as below…
Division 2 is an online action RPG developed by Massive Entertainment and published by Ubisoft, set in Washington, DC, where smallpox is popular. Gamers will take on the role of building new cities with government agents. Chief of Massive Entertainment…
Avatar has been used in various forms such as SNS, customer service, and character expression in games long before the advent of AI technology. Thanks to the development of related graphic technology, various attempts have been made...
Unity's ArtEngine is a tool that makes it easy to create high-quality graphic resources using AI-based technology. In Unity, these techniques are called AI-assisted artistry, and although I haven't used them in detail, there are features that look quite useful...
We share a link to denoiser's github, Facebook's real-time noise reduction technology that was announced at Interspeech 2020. It is implemented in Pytorch and the title of the original paper is “Real Time Speech Enhancement in the Waveform Domain”. As the title suggests…
According to the IDC forecast report, the AI market size in 2020 is predicted to be about 157B$. Of course, this figure is the sum of the various industries related to AI: hardware, cloud services, and software. Also in this report…
Typically, Q&A systems use text to answer questions. A task in this way is the Squad task, which gives you a paragraph explaining a fact and then asks a question and generates an appropriate answer. In contrast, Visual QA instead of text…
UneeQ has launched a digital human platform called Digital Human Creator. Although the price of the service is a bit burdensome, it is not insufficient to try a simple test because it provides a free trial. In terms of visual aspects, 3D avatars that have appeared a lot before...
In order to implement the visualization part of Human-Like AI, it is necessary to think about how to create and move a 3D human model. There are various existing approaches, but one of them is from Max Planck ETH Center to CVPR 2020...
Many attempts are being made to expand the language model and translation model, which were previously studied mainly in English, into multiple languages. Google's mT5 is a study that extends the existing T5 (text-to-text transfer transformer) into a multilingual corpus, including a total of 101 languages...
Corona 19 has yet to show signs of calming down worldwide. At MIT, we learned an AI model that can check whether COVID-19 is infected from the cough sound recorded with a mobile phone, and published the methodology and experimental results for this as a thesis. In the experimental results...
Adobe announced an AI-based editing tool called neural filter. Some say it's already included in the latest version of Photoshop. An example function is to change the whole sky in a photo to another sky (clear sky, clouds...
2020 is likely to be the first year for the application of AI technology in the field of media compression to be considered in earnest. Here's a quick look at the four events that took place this year. (1) Deep learning technology is missing from next-generation video standards First, in July…
On the Ping-Pong blog, the article "Conversation Composition of Luda Dreaming of Superhuman AI" has been posted, but there are many things to worry about when designing an open domain chatbot, so we share it. Scatter Lab is advancing the daily conversation skills of Eruda...
There are a number of studies related to Corona 19 using AI technology. The paper shared below is a study by Fraunhofer HHI published in the journal Nature, and analyzes the figures measured from Bluetooth Low Energy (BLE) using machine learning techniques to determine the risk groups among those who have contacted the confirmed patient...
NVidia unveiled a cloud-based video communication platform called Maxine. Maxine's feature is the full introduction of AI technology. Specifically, it detects facial landmarks rather than compressing and sending facial images with image coding technology such as H.264...
This is a picture that made me feel very salty. It is a picture of Yu Gwan-soon, which remains only in low quality, restored to high-definition and added a smile, and it is said that the Faceapp with deep learning-based face editing technology was used. I know exactly what kind of technology is in Faceapp...
There seem to be a lot of technologies recently to create new motions by extracting motion from human motion. (vid2vid, vid2game, pose2pose) Vid2Player was researched at Stanford University, and it depends on where the ball is placed using the actual tennis rally image data...
Combining multiple network models into an ensemble increases performance, but it is a reality that there are many difficulties when applied in practice because the total network size and inference time also increase. Multi-model Ensemble via Adversarial Learning (MEAL) solves this...
The first stable version 1.0 of the Huggingface Datasets library has been released, making it easy to use NLP datasets and evaluation metrics. Currently, we support about 100 datasets and evaluation metrics (about 10) for each dataset.
It's natural to see virtual characters and moves reasonably in terms of the laws of physics, that is, human-like, which has been a subject of long-standing research in the field of gaming as well as computer graphics. Facebook Jungdam Won's project as the first author, “A Scalable…
LipGAN is a technology that generates the shape of the lips of a face image using a voice signal, and when it is actually applied to a video, it was somewhat disappointing in terms of visual artifacts and the naturalness of movement. To improve this, the discriminator is not a single frame, but a plurality of consecutive…
The performance improvement shown by Transformer-based language models is surprising, but as the model size increases exponentially, concerns about service costs are also becoming important. Bert-base or GPT-2 has about 100 million parameters, so the model size, memory bandwidth,...
The link is a review of a paper published by Sony and ETH Zurich, which shows that the reinforcement learning was applied to the famous car game Gran Turismo, which exceeded the human record. The technology used is already well known...
Scatterlab (https://scatterlab.co.kr/), which stands out in everyday conversational research, is an article on the Ping-Pong team blog. I still see GPT-3 as a'eye of doubt', but it's curious when I see it again...
bryandlee's github has the results of image translation application using deep generative model and related research made into a webcomic in the late years of calm man. The title of the study is also “Chilled Generative Model Learner”. I like this wit! Looking at the process, webtoon…
There have been many attempts to convert code written in one programming language into another, and there are many types of commercial tools. The main purpose of use is to ensure compatibility, for example FORTRAN or BASIC, or...
Imagenet-1K (1000 class image classification problem) is a task that has been optimized with the development of CNN. AlexNet's TOP-5 error, which announced the beginning of the deep learning era, was about 17%. At that time, the TOP-5 error of the existing top technology (SIFT+FV) was about 26%...
This is an AR Glass concept video created by a designer named Iskander Utebayev. Even if it is a concept video, it is quite fancy and once implemented, I think there is a potential to significantly change the Human-Machine Interface that uses smart devices. Apply AI technology…
I've heard stories that you can know what you're talking about with just the movements of your lips if you get special training, but the research in the link was realized with AI.
In the case of large-scale language models, there was always a difficulty because there was no Korean model. Following SKT's KoBERT, Naver released KcBERT, which was learned from the ground up with data reflecting Naver comment data and new words. Not only the trained model…
Deep learning-based super resolution technology was adopted by NVidia's latest GPU under the name DLSS (deep learning super sampling) and became a real service technology for consumers. Mainly in the 4K gaming market, 2K…
The convolution commonly used in images is a 3D operation. (KxKxC; K=kernel size, C=number of channels) After applying this by dividing it into multiple 2D operations of KxKx1, depthwise separable convolution that applies convolution with a size of 1x1xC in the channel direction greatly reduces the number of parameters...
LipGan is the study of creating mouth shapes from speech signals. It is a technique that can be useful for creating an animation of a virtual character's mouth, but when applied in practice, the limitation is clear because only the lips of a character standing still move. In fact, humans...
As non-face-to-face video meetings have become commonplace in recent years, more and more people use Zoom to conduct multi-person video conferences. A phenomenon called zoom fatigue is also attracting attention, and this is a UX filled with squares for a long time...
An international standard for a new video codec named (ISO MPEG) VVC or (ITU-T) H.266 has been released. Share related articles. Unlike HEVC, where most of the technologies were completed before the advent of deep learning technology, VVC is deep learning…
According to various statistics, the number of AI-related major conference participants increased 6 times over 5 years, and the number of AI startups increased 113% while non-AI startups increased 28% over 4 years. Venture investment for 5 years in non-AI field...
The Visual Dialog task is a multimodal task that adds an image to a Q&A task that consists of a question and answer. For example, if you give a picture of a white cat and a black dog together and ask, "What color is the animal next to the cat?", you answer "black"...
Share what you've recently enjoyed reading. In this article, we will introduce a form in which humans and AI work in different fields, and one side collaborates rather than replaces the other. Collective intelligence is an individual's intellectual…
We share the project page of “Learning Character-Agnostic Motion for Motion Retargeting in 2D”, a paper published at SIGGRAPH 2019. This paper extracts motion, skeleton, and camera angle from three (which may be different) images, and then…
In the game production side, we share a link to the Adobe Mixamo site that is already used a lot. When you enter, 121 3D characters and 2484 character motions are uploaded, and you can download them in a 3D format called (Autodesk) FBX. This format...
TensorflowTTS, an open source based on Tensorflow 2 that supports several latest TTS models such as Tacotron2, MelGan, FastSpeech, etc., has finally begun supporting Microsoft FastSpeech2. FastSpeech2 shows similar performance to Transformer series TTS, but takes more than twice the time to learn…
Links are articles that cause a lot of concerns about the difference between Intelligence and Automation. Artificial Intelligence is known as a term that came into use with the advent of neural networks in the 1960s. Since then, special progress has been made through difficulties in securing computing power and data...
There have been various attempts to recognize emotions from images or images. It is a well-known application field that is provided in the cloud API and becomes a topic on SNS (joy 95%, etc.). The thesis linked below is a face…
In the field of video compression, there are the same things as Moore's Law (the number of transistors doubles every two years), MPEG-1 in 1993, MPEG-4/AVC (H.264) in 2003, MPEG-H/HEVC in 2013 ( H.265). For reference, in the case of image compression,…
Text-to-SQL is a task that automatically converts natural language into SQL. The post I shared at the bottom was written by Aerin Kim of Microsoft, and it is well organized about Text-to-SQL. In the world, a lot of data is built as a relational database, and in this database...
It is thought that GPU is essential when learning deep learning algorithms, but when serving after model training is complete, CPUs are often used instead of GPUs. For example, after some optimization process...
MIT's Speech2Face is a study that generates a speaker's face from a speech signal. However, it does not perform speech to face transform with one model, but it combines the results of existing studies for different purposes to create impressive results. (The first author is now...
MixIT AI, released by Google, is a technology that obtains a separate sound source from single-channel audio in which multiple sound sources are mixed. It can be viewed as a blind source separation task, and unlike existing technologies, it has the feature of delivering excellent performance with unsupervised(!).
In the field of prediction, Algorithm Aversion is used to mean that once you realize that an algorithm can make mistakes, you tend to avoid using it, even if it is better than human predictions. For example, AI interview, disease prediction, autonomous driving, AI…
After performing representation training with 53,000 hours of label-free data, a pre-trained model for Facebook's wav2vec 2.0, which became a hot topic because it created a speech recognizer with only 10 minutes of labeled data, was released. No fine-tuning in the representation model,...
It is a dataset DriveSeg created for research on road situation awareness (used for self-driving cars, etc.). For each frame of the video, the entire image is pixel-by-pixel semantic labeling. Label is “vehicle, pedestrian, road, sidewalk, bicycle, motorcycle, building,...
Although it is a little leap forward, if I see that the addition of physical devices to the AI algorithm is an intelligent robot, I thought that the intelligent robot that will be most popular in the future may be an autonomous vehicle. I got a little curious, so I surveyed on self-driving cars...
One of the recent trends is the super-giant model, i.e. the enormous increase in the number of parameters and the application of traditional learning methods. Apart from the “software capability” that the human brain shows, how much will it need to be increased to reach the “hardware” capability of the human brain?
Many MRC models proposed so far show evaluation values beyond human capabilities in various tasks and datasets, but I think it is difficult to easily say YES when asked if you understand a given context better than humans? priority,…
This is a video of IBM's emotional robot Nao-mi. [Summary of Contents] A robot that says he doesn't want to do with a person who asks to destroy a tower that has been difficult to build. The robot cries at constant demand and eventually breaks it down. Watching the video, my heart hurt a lot. Heart...
It is said that the learning cost of GPT-3, the pronoun of the super-scale language model, which shows the possibility that it can be applied to all natural language tasks only with Few shot learning, is estimated at 4 billion KRW in Korean. About 40 million won for GPT-2. No matter how high recyclability is...
Los Angeles Noir, a 2011 film made by Rockstar, surprised many with facial animations that were far superior to other games. The technology used at this time is called MotionScan, and basically, the actor is in a room where several cameras are elaborately placed...
With the advent of digitalization and the advent of the Internet and the web, knowledge is distributed and stored on servers around the world, connected to each other, and made searchable, so that accessibility and usability are dramatically improved. Instead of borrowing a book from the library and reading it sequentially, using a search engine...
A demo video of Facebook's digital human project under the name “Codec Avatar” has been released. This is an added part compared to the 2019 video, and the avatar appearance has been changed to be more realistic and shows the technique of tracking the entire body without a marker. March 2019...
It is a code repository of GANimation, a technology that creates animations that change facial expressions by inputting a single image. Basically, it is a conditional GAN, and it uses FACS (facial action coding system), a methodology to describe the anatomical movements of the face. According to FACS we…
Japan's Virtual Human Project, Saya Project. It's in Japanese, so I couldn't understand all the progress, but the visual completion was quite high and the expression was natural. In the future, we plan to add functions such as adding human emotions, behavior recognition, and dialogue…
Introducing the Danbooru 2019 version link, an animated character image database. There are about 3.7 million images and about 29 tags are attached per image. Examples of tags include “1girl”, “solo”, “long_hair”, “highres”, “smile”, and “open_mouth”…
Assuming that human-like AI-equipped humanoid characters have improved enormously, it is not possible to use their full potential just by displaying them on a 2D plane such as a computer or smartphone screen and interacting with the mouse, keyboard, and touch. I think. dental…
There are many complex human emotion perceptions and expressions (e.g. angry emotions affect facial expressions, voices, and language). Here's an open dataset with audio-videos tied together and emotionally labeled. The Ryerson…
I recently read about the relationship between human abilities and neural networks. Although it appears in the article, the way the human brain and neural networks operate have similar corners, but I don't think they need to be the same. If you build a submarine rather than imitate a fish to swim...
Candy Crush Saga from the famous gaming company King is a puzzle game with tons of levels. It's 2018 data, but it's said to add about 15 levels every week. (Approximately 3700 per year) I need to measure the level of difficulty and balance...
The main task of AI chatbots is to answer questions such as explaining product information, telling schedules, and checking the weather. Perhaps, if these technologies are maximized, some areas of humans called'knowledge' are called'Super Human…'
This is an article from Synthesia blog that applies AI technology to media marketing with the wording “Synthetic media”. The main field of the company is to transfer the facial expressions and lip shape of the model in the video from another video and synthesize (adjust?) it.
Rosebud.ai (https://rosebud.ai/) is targeting the marketing market with a technology that creates and synthesizes virtual model faces on images created for marketing campaigns. The result is quite natural, and the model face can be replaced at any time without having to take a picture again...
Most chatbot systems still operate based on rules, but in order to implement natural conversations, you eventually need to use more complex language models such as BERT. However, there is a lot of recognition that BERT is heavy and complicated, but Roblox, a game platform company...
TikTok added a filter that converts human faces into animated characters in real time. Selfie2Anime and UGatIT made by Kim Joon-ho have results for reference, but TikTok's technology seems to have reached a considerable level in terms of completeness. A delicate face...