RAGAS: RAG 시스템 성능 평가, 이제는 제대로 해보자!
[Interactive AI 기술팀 김윤혜] RAG(Retrieval-Augmented Generation, 검색 증강 생성) 파이프라인은 대규모 언어 모델(LLM)의 한계를 보완하기 위해 외부 지식을 활용하여 보다 정확하고 관련성 높은 응답을 생성하는 기술입니다. 그러나 이러한 파이프라인의 성능을…
[Interactive AI 기술팀 김윤혜] RAG(Retrieval-Augmented Generation, 검색 증강 생성) 파이프라인은 대규모 언어 모델(LLM)의 한계를 보완하기 위해 외부 지식을 활용하여 보다 정확하고 관련성 높은 응답을 생성하는 기술입니다. 그러나 이러한 파이프라인의 성능을…
[Interactive AI서비스팀 임석영] 대 AI 시대가 찾아온 혼돈의 시기에 저 같은 AI 모르는 개발자는 어떻게 AI 서비스를 만들 수 있을까요? 이번 글에선 저같이 아무것도 모르는 상태에서 간단한 AI 서비스를 만드는…
[AI 서비스 기획팀 유연오] 1. 흑백요리사 : AI 패러디 물 등장 최근 넷플릭스에서 흥행을 거둔 시리즈가 있습니다. 바로 흑백요리사입니다. 평소 요리에 큰 관심이 없는 저조차도 ‘맛으로만 승부한다’는 독특한 컨셉에 이끌려…
[Creative AI 기술팀 김윤태] 디지털 시대의 빠른 발전과 함께, 인공지능(AI)은 상상만 했던 것들을 현실로 만드는 놀라운 도구가 되었습니다. 그중에서도 Text-to-Image (T2I) 모델, 즉 텍스트를 입력하면 이미지를 생성해내는 기술은 많은 이들에게…
[Media AI 서비스팀 김상우] AI 기술 등에 대한 칼럼을 다루는 이 페이지에, 이런 덕후스러운 썸네일을 올리게 된 점 매우 미안하게 생각합니다. 하지만 AI 기술의 발전은, 애니메이션과 게임을 좋아하는 저를 매우…
[Interactive AI서비스팀 김민석] 다양한 규모의 서비스를 개발하고 운영하면서 점점 더 많은 머신러닝 모델을 서빙하게 됩니다. 이 과정에서 기존 모델을 변경할 때는 해당 모델을 사용하는 서비스와 시스템 내의 관련 구성 요소를…
[Media AI서비스팀 이진희] 최근 텍스트 만으로도 실제와 비슷한 동영상을 제작할 수 있는 생성 AI 서비스들이 우후죽순 등장하며 연일 화제에 오르고 있습니다. 2024년 2월, OpenAI에서 발표한 Sora(소라)가 대표적인데요. 실제 카메라로 찍은…
[생성AI서비스팀 김경환] 현시대의 개발에서는 “오픈소스 문화”를 떼어 놓고 이야기하는 것이 불가능합니다. 특히 인공지능 분야에서는 Pytorch와 같은 딥러닝 프레임워크에서부터 심지어는 사전 학습 모델까지도 공개하고 기여하는 것이 추세입니다. 내가 업무에 사용하는 오픈소스…
[선행AI기술팀 이지현] Model Merge (모델 병합)은 여러 개의 Large Language Models (LLMs; 대형 언어 모델)을 추가 교육이나 미세 조정 없이 하나의 강력한 모델로 결합하는 방법론입니다. 특정 태스크에 최적화된 각 LLMs을…
인공지능의 발전은 우리의 삶에 큰 변화를 가져왔습니다. 특히 generative 모델은 이러한 변화의 중심에 서 있습니다. 디퓨전을 기반으로 한 생성 모델이 이미지, 오디오 생성 분야에 활용되고 있으며, 다양한 성과를 보여 주고…
“AI를 활용하여 1분짜리 SF영화 예고편을 만들어 보자” [뉴미디어서비스팀 유선민] 물론, 우리가 헐리우드에서 보던 퀄리티는 아니지만 하루만에 뚝딱 책상 머리 앞에서 만든 것에 의의를 둔다면 ‘세상 참 좋아졌다’ 라는 소리가 절로…
[뉴미디어서비스팀 윤형진] AI 기술이 발전함에 따라 게임이나, 영상 쪽에서 사용되는 언리얼5 등의 제작 엔진에서도 관련된 기술을 적용하려는 움직임이 많이 보이고 있습니다.그 중에서 오늘 소개 드릴 것은 언리얼 5.2 부터 추가된…
[선행AI기술팀 방나모] 최근 몇 년간 자연어처리 기술은 눈부신 발전을 했습니다. 지금은 자연어처리 기술이 많은 산업 분야에 적용되어 사람의 수고를 덜어주는게 일반적인 상황이 되었습니다.소프트웨어 개발 분야는 자연어처리 기술을 가장 적극적으로 이용하는…
[AI서비스기획팀 김현주] 음악 전문 지식이 없더라도 간단히 명령어만 입력하면 단 몇 분 만에 전문가 수준의 음악을 만들 수 있는 시대가 왔다. 음악은 단순히 사람들이 즐기는 것 뿐만 아니라 음악을 만드는…
[생성AI서비스팀 이혜진] 지난 몇 년 동안, AI 기술의 발전은 여러 IT 산업에 혁신적인 변화를 가져왔습니다. 그렇다면 게임 회사에서는 어떻게 AI를 활용하여 발전할 수 있을까요? 가장 먼저 드는 생각은 아마 게임…
[분석AI서비스팀 전소희] AI 기술이 나날이 진화함에 따라 엔터테인먼트, 미디어, 전자상거래, 의료, 교육, 제조 등 다양한 산업군에 계속해서 AI 활용도가 증가하고 있습니다. 웹서비스 개발자로써 그동안 java를 백엔드 언어로 사용해왔는데, 현재 가장…
[선행AI기술팀 신숙영] Redis를 사용하면서 관심을 가지게 된 RedisAI에 관하여 소개하도록 하겠습니다. RedisAI란? RedisAI는 Redis Labs에서 개발한 오픈 소스 솔루션으로, Redis 데이터 구조 서버를 기반으로 딥러닝 모델을 관리하고 실행하는 데 사용됩니다.…
[AI센터 한대웅] 해마다 연초에 시작하는 세계 최대 행사인 CES(1월)와 MWC(2월)는 기업들이 저마다 가지고 있는 기술을 200%(?) 활용하여 제품과 서비스를 통하여 알리고 고객들과 직접적인 대면을 통한 피드백을 받을 수 있는 행사이면서…
[분석AI서비스팀 이현정] 관리해야 할 AI모델과 데이터가 많아지고 그 용량이 커지면서 필자가 관심을 가지게 된 Ceph에 대해 간략히 소개해 보고자 합니다. Ceph 이란?Ceph은 단일 분산 컴퓨터 클러스터에 오브젝트 스토리지를 구현하는 오픈…
[선행AI기술팀 전동준] 스타트업 회사인 Mistral AI 에서 지난 8일에 Mixtral 8x7B 모델을 오픈소스로 출시하였습니다. 지난 9월에 출시한 Mistral 7B 모델 기반으로 현존 언어 생성 분야에서 최고 성능인 GPT-4에서 채택중인 “MoE”…
[선행AI기술팀 김석겸] 오늘 소개할 기술은 구글의 제미나이입니다. 제미나이는 구글에서 LLM의 최고는 누구인가, 어떤 모달리티까지 커버할 수 있는가, 요즘 핫한 on-device AI까지 다 먹어버리겠다고 나온 모델입니다. 아래 영상이 이를 잘 보여줍니다.…
[생성AI서비스팀 정재철] 세계 3대 컴퓨터 비전 학회 중 하나인 ICCV 2023(International Conference on Computer Vision, 국제 컴퓨터 비전 학회)이 10월 2일 부터 6일 까지 프랑스 파리에서 개최되었습니다. 이번 ICCV 2023을…
[분석AI서비스팀 김민석] ML 서비스가 많아지고, 지속적 학습을 하기 위해서는 ML PIPELINE을 구성하고 이를 관리하기 하기 위해서 우리는 여러 MLOPS 플랫폼을 사용하는데요.대표적으로 Kubeflow가 있을텐데요. Kubeflow는 다양한 장점이 있지만 Kubernetes 환경에 종속적이며,…
[분석AI서비스팀 박효주] 최근 언어 모델의 발전은 큰 임팩트를 주었고, 그만큼 연구 또한 활발히 이루어지고 있습니다. 그러나 이러한 모델의 서빙 과정에서 발생하는 고도의 계산 작업과 메모리 요구량은 새로운 도전 과제를 제시하고…
[선행AI기술팀 김윤혜] 2023년 IT 분야를 휩쓸었던 가장 핫한 이슈는 단연 ChatGPT입니다. ChatGPT는 모두가 쉽게 사용할 수 있는 대화형 거대 언어 인공지능 챗봇으로, 글로벌 사회에 생성형 AI에 대한 큰 임팩트와 유행을…
[뉴미디어서비스팀 유선민] “저는 유부남입니다. 마법 같았어요. 저도 모르게 홀렸죠. 그녀와 첫 만남을 잊을 수 없어요. 하지만 아쉽게도 한 달 만에 헤어지게 됐습니다. 1년 동안에만 수십 번의 연애를 하고 있죠.” 이게…
[AI서비스기획팀 유연오] AI 프로필의 인기가 날로 높아지고 있습니다. 한때 유행처럼 지나 갈 것 같던 AI 프로필은 여전히 화제입니다. 여러가지 컨셉으로 다양한 시도가 늘어가면서 그저 프로필에 그치지 않았습니다. 자신이 경험하기 힘든…
[뉴미디어서비스팀 정지혜] “Conversational AI(대화형 인공지능)”는 다양한 형태의 대화 기반의 애플리케이션을 포함하며, 그 중에는 텍스트 기반의 챗봇부터 음성을 활용한 가상 비서, 스마트 스피커의 음성 인터페이스 등이 있습니다. 이러한 시스템들은 기계 학습,…
[뉴미디어서비스팀 윤응식] 챗GPT와 미드저니의 등장으로 AI 기술에 대한 관심이 높아졌습니다. 이 두 가지 서비스는 자연어 처리와 대화 인터페이스 분야에서 놀라운 발전을 이루어낸 AI 기술이죠, 이 두가지 서비스를 필두로 AI 기술은…
[뉴미디어서비스팀 이진희] 오래 전 영화계를 강타했던 ‘해리포터’ 시리즈를 기억하시나요? ‘해리포터’ 영화 속에는 신기하고 마법같은 일들이 많았지만, 그 중에서도 호그와트 벽에 걸려있던 움직이는 그림들과 신문 속에서 살아 움직이던 인물의 사진을 기억하실텐데요.…
[선행AI기술팀 전동준] 세계 3대 자연어처리(NLP) 학회 중 하나인 ACL 2023(Association for Computational Linguistics, 전산 언어학 학회)이 7월 9일부터 14일까지 캐나다 토론토에서 진행되었습니다. 이번 ACL 학회에 회사의 지원으로 출장을 다녀와서 학회…
[가상생명연구팀 김석겸] 이 글에서 소개 드릴 프로젝트의 주제는 “파일 번역” 입니다. 번역 모델을 개발하기 앞서 기존에 서비스 중인 번역 서비스들을 살펴 보았습니다. 그 중에 눈에 띈 것이 “파일 번역” 입니다.…
[생성지능개발팀 정재철] 최근 이미지 생성 모델은 생성물의 수준이 많이 올라감과 동시에 text to image라는 방식이 제안 되면서 사용 난이도도 감소하여 많은 주목을 받았습니다. 이후 현재는 다양한 AI 그림 생성, 공유,…
[분석지능개발팀 박효주] 딥러닝 기술의 발전으로 AI 모델의 성능은 점점 향상되고 있고 있습니다. 하지만 그만큼 모델의 크기는 점점 거대해지고 추론 속도는 느려지고 있습니다. 더 좋은 GPU를 사용하면 효과를 볼 수 있지만…
[뉴미디어서비스팀 김상우 부책임] AI, 인공지능, 모델… AI 기술 관련해서도 한창 발전하고 있는 와중에, 넥스트 스텝을 예측해 봅니다. 그 전에, 마인드 업로딩에 관련된 공상과학 영화가 있습니다. 흥행에 성공한 영화는 아니지만, 상술한…
[가상생명연구팀 양승무 주임] ChatGPT의 시대가 도래하고 있습니다. AI 업계를 비롯한 다양한 산업과 분야에서도 ChatGPT의 우수성과 실용성이 인정되어, 많은 기업들이 ChatGPT의 적용을 추진하고 있습니다. 이러한 추세는 OpenAI와 같은 주요 기업들 뿐만…
[뉴미디어서비스팀 유선민 부책임] 한국에서도 큰 인기를 끌고 있는 SNL 코리아의 원작인 미국의 SNL (Staturday Night Live)이 제작 중단을 선언했다. 그뿐 만이 아니다. 세계적인 토크 쇼 중 하나인 지미 팰런 쇼도…
[AI Lab 유연오] 일상 속에 자리 잡은 이동형 AI 로봇 이동형 AI 로봇은 일상 속에서 심심찮게 볼 수 있습니다. 요즘 사람들은 대표적인 예로 외식업계에 도입된 서빙 로봇을 떠올립니다. 저번 달에…
[뉴미디어서비스팀 정지혜] 최근 몇 년 동안 인공지능 기술이 급격하게 발전함에 따라, 콘텐츠 제작 분야에서도 인공지능 기술을 활용한 새로운 시도들이 이루어지고 있습니다. 이러한 시도들은 콘텐츠 제작과정을 자동화하고 생산성을 높이는 것뿐만 아니라,…
[뉴미디어 서비스팀 윤응식] 인공지능의 발전과 상용화로 인해 우리의 삶은 점점 더 풍요로워지고 있다. 특히 챗 GPT와 같은 대화형 AI는 다양한 분야에 활용되고 있는데, 이번에는 그 기술을 이용하여 신규 버츄얼 유튜버의…
[분석지능팀 김무성] 작년 연말 갑작스럽게 등장한 ChatGPT 이후로 GPT-4에 대한 여러 소문이 있었습니다. 그리고 저번 주에 ‘곧 공개될 거야!’라는 뉴스[1]가 나왔을 때도 반신반의했습니다. 물론 ‘지금까지의 OpenAI와 MS의 속도로 보면 정말일지도’라고…
[뉴미디어서비스팀 이진희] 요즘은 쇼츠, 틱톡 등 1분 이내의 짧은 영상을 시청할 수 있는 플랫폼이 많이 발달하여, 영상 콘텐츠에 접근하기가 더 쉬워졌습니다. 그러다보니 나도 모르게 화려하면서도 신기한 숏폼 콘텐츠를 몇 시간씩…
[뉴미디어 서비스팀 윤형진 책임] 본 포스팅에서는 ChatGPT와 DreamTexture를 활용하여 3D 모델링과 텍스쳐 생성을 어떻게 할 수 있는지에 대해 설명하고, 이 기술의 가능성과 한계점에 대해 이야기해보겠습니다. 1. ChatGPT로 생성한 파이썬 코드로…
[생성지능개발팀 한현준 X 정택현] ㅤ 최근 AI 분야의 급속한 발전과 함께, Diffusion 모델을 필두로 하는 생성 모델이 크게 주목받고 있습니다. ㅤ 스마일게이트 AI센터에서는 이러한 생성 모델에 관한 다양한 프로젝트를 진행하고…
[분석지능개발팀 전소희] 이번 주제는 몸을 넘어서 마음을 치유하는 고마운 AI 기술에 대해 살펴보겠습니다. AI 인공지능의 다양한 기술들은 현재 우리 생활 곳곳에서 많은 도움을 주고 있습니다. 예를 들면, 대화형 로봇으로 어르신들의…
[AI센터 한대웅] 음성과 언어기반의 AI, 윤리와 설명 가능한 AI, 생성 AI의 확장, 지속가능한 AI를 기반으로 본격적으로 사업화 도전하는 한해가 될 것으로 예상
[가상생명연구팀 박주형] 최근 강화학습에서 많이 주목 받고 있는 분야 중에 하나가 Offline 학습 입니다. 기존 강화학습은 시뮬레이터를 통해 실시간으로 trajectory를 받아서 학습을 했었어야 했는데요, 시뮬레이터 만들기도 쉽지 않고 실제 적용도 어려워서…
[가상생명연구팀 전동준] 일론 머스크나 걸그룹 트와이스와 채팅으로 무슨 대화를 나눌 수 있을까요? 내가 좋아하는 게임 속의 가상의 캐릭터에게 궁금한 것을 물어보고, 아인슈타인과 물리학에 관한 토론을 할 수 있을까요? Character.AI 에서…
[가상생명연구팀 심홍매] 얼마 전 Open AI에서는 대화에 최적화 된 LLM의 GPT-3.5 시리즈를 기반으로 하는 최신 모델 ChatGPT를 공개하였는데요. 공개되자 마자 각 분야에서 아주 뜨거운 관심을 받았습니다. ChatGPT는 대화 형식을 통해…
[AI센터 권은지] 올해 2022 카타르 월드컵에서는 국제축구연맹(FIFA)이 개발한 반자동 오프사이드 판독 기술 (SAOT, Semi-Automated Offside Technology)이 처음으로 적용되었습니다. 세계 각국의 자존심을 건 대결에서 작은 판정 하나도 큰 논란으로 확산되고 심판의…
[AI센터 한대웅] 얼마전 초등학생들의 장래 희망에 유튜버가 떠오르고 있다는 기사를 보고 깜짝 놀란적이 있었다. 미디어의 중심이 거대 기업 혹은 전문가가 아니라 다양한 형태의 일반인이 만들어 내는 창의적인 1인 방송 미디어에…
[분석지능개발팀 박효주] ML 모델의 Lifecycle은 연구 및 테스트를 진행하는 Research 단계와 실제 서비스화하는 Production 단계로 나눌 수 있습니다. Research 단계에서는 문제 정의부터 모델 선정, 성능을 높이기 위한 다양한 실험 등을…
[가상생명연구팀 김석겸] (대표 이미지는 stable diffusion 을 통해 생성되었습니다.) 음성을 입력으로 받아서 텍스트 생성의 결과를 음성으로 받고 싶을 경우, 기존에는 음성을 텍스트로 바꾸는 모델(Speech To Text, STT), 텍스트를 처리하는 언어…
[가상생명연구팀 전동준] 지난 10월 5일, DeepMind는 과학 학술지인 Nature지에 AlphaTensor가 행렬 연산의 최적화 방법을 찾아냈다고 발표하였습니다.
[분석지능개발팀 임창대] What is Feature?ML(Machine Learning) 은 과거의 예시 데이터를 학습한 모델을 기반으로 새로운 데이터 예측을 수행합니다.ML 모델 학습에서 표 형태의 2차원 데이터를 사용하였을 때 행이 예시이고 열이 해당 예시를…
[AI센터 한대웅] 2033년 미래의 지구는 AI로 제어되는 자율주행 자동차로 모든 교통수단이 안전하게 통제되고 있어 교통사고로 죽을 가능성은 0%에 가깝다. 20대 후반의 주인공은 완벽한 여자친구와 프로그래머로서 성공한 인생을 살고 있고 자신의…
[가상생명연구팀 심홍매] 올해 5월에 구글에서는 텍스트 입력을 기반으로 사실적인 이미지를 생성할 수 있는 텍스트-이미지 확산 모델(Diffusion Model)인 Imagen을 공개하였는데요, 몇개월이 지난 최근에는 사용자가 입력한 개체(subject)를 이해하고, 해당 개체 기반으로 다양한…
[생성지능개발팀 정택현] ㅤ MobileFaceSwap은 AAAI 2022에서 공개된 오픈소스 Face swap 모델로, 기존 Simswap, FaceShifter 모델을 Distillation 기반의 경량화를 적용하여 연산 속도의 측면에서 SOTA(State-of-the-art)를 달성한 것으로 알려져 있습니다. 실제로 Original Simswap이 107M Parameter와…
[생성지능개발팀 정우석] 진부한 이야기이지만 AI 연구에 있어서 데이터의 중요성은 아무리 강조해도 지나치지 않습니다. 수많은 학교, 연구기관이나 기업에서는 앞다퉈 기술력 자랑과 연구 성과를 위해 다양한 분야의 AI 관련 논문들을 발표하고 있습니다. 하지만…
[생성지능개발팀 정택현] ㅤ 최근 YOLOv7 알고리즘이 공개되며 컴퓨터 비전 및 각종 관련 커뮤니티에서 큰 주목을 받고 있습니다. 논문에 따르면, YOLOv7은 현재까지의 모든 Object detection 기술들보다 속도와 정확성 모두에서 더욱 뛰어난…
[생성지능개발팀 강민지] AI 연구가 지속적으로 이루어지고 있는 요즘, 사람들은 AI기술의 능력이 인간을 대체하거나 혹은 뛰어날 수도 있다고 여기며 이 기술과의 공생을 그다지 좋지 않은 관점으로 바라볼 때도 있습니다. 그러나 이…
[생성지능개발팀 유희조] 문명의 발전은 항상 사람을 더 편하게 만들어왔습니다만, 동시에 사람이 필요했던 업무를 꾸준히 대체해왔습니다. ‘기계가 노동자의 일거리를 줄인다’ 라는 구호와 함께 1800년대 초에 일어났던 러다이트 운동은 그런 대체가 가장…
[가상인간연구팀 황준선] Facebook의 Meta AI는 BlenderBot[1]이라는 대화형 인공지능 시스템을 개발하고 있다. BlenderBot2는 해당 포스트에서 다룬적이 있다. BlenderBot은 성격, 공감, 지식과 같은 대화에 필요한 다양한 기능을 통합하고, 장기 기억을 통해 문맥을…
[분석지능개발팀 박효주] 데이터 과학자들은 다양한 실험을 통해 학습된 모델의 성능을 검증하고 배포합니다. 이 검증 과정은 Accuracy, Precision, Recall, IOU, PSNR 등 적절한 지표를 사용해서 수치로 검증하는데, 이 수치만 가지고는 실측…
[AI Lab 김무성] 스탠포드의 CS25 : Transformers United 강좌 동영상이 최근 공개 되었습니다. [1] 강좌[2] 자체는 작년 하반기입니다만, 그간 슬라이드만 공개하고 있었습니다. 그런데 이번에 동영상도 유튜브를 통해 공유했습니다. 슬라이드 자료도…
[가상인간연구팀 김석겸] 목적 지향 대화(Goal-Oriented Dialogue) 혹은 과제 지향 대화(Task-Oriented Dialogue, TOD)는 특정 업무를 달성하는 것을 목표로 대화하는 것을 말합니다. Open-domain dialogue(ODD)는 대화 자체가 목적인 것에 비해, TOD는 목표가 뚜렷합니다.…
[AI센터 권은지] 현실과 가상의 경계를 좁히는 키워드는 시공간 데이터 베이스와 디지털 트윈(Digital Twin)을 비롯하여 다양하게 존재합니다. 그 과정에서 3D 모델링 분야는 전문가의 영역에서 벗어나 실제 오브젝트를 가상환경으로 전환하는 기술을 통해…
[가상인간연구팀 전동준] 언어 모델(Language Model, LM)은 단어나 문장을 확률적으로 예측하는 모델입니다. 통계적으로 다음에 등장할 단어들을 모델링하는 전통적인 방식에서 최근에는 딥러닝 기반의 언어 모델들이 많이 연구되고 있습니다. BERT, GPT-3 같은 많은…
[생성지능개발팀 한현준] 얼마 전 구글의 연구원인 Blake Lemoine은 언어 모델인 LaMDa가 자의식이 존재한다라는 주장을 펼쳤으나, 구글에서는 자의식의 증거를 찾을 수 없다고 판단하였고, 이에 Lemoine은 LaMDa와의 대화 일부를 자신의 블로그에 공개해…
[분석지능개발팀 임창대] Helm 은 Kubernetes 클러스터에 앱 및 서비스를 배포할 수 있게 단일 패키지 형태로 구성하고 관리할 수 있도록 도와주는 패키지 매니저입니다. 사용자는 Kubernetes 배포 환경의 정의, 설치 및 업그레이드를…
[분석지능개발팀 이현정] 지난 21일 테슬라는 카타르 경제 포럼에서 인공지능 휴머노이드 로봇 코드명 ‘옵티머스’를 3개월 내 선보일 예정이라고 밝혔습니다. 옵티머스는 인간이 할 수 있는 일을 수행하도록 하려면 크기와 모양이 거의 같아야…
[분석지능개발팀 송지현 연구원] McKinsey Global Institute에 따르면 “2025년까지 가치 생산 워크플로에 AI를 완전히 통합하는 기업이 2030년에 세계 경제를 지배하고 현금 흐름은 120% 이상 증가할 것입니다.” 라고 말했습니다. 현재 시점에 AI를…
[생성지능개발팀 김성현] 저희 센터의 인공지능 연구 모토는 ‘Human-like AI’ & ‘Fun AI’ 입니다. 그렇다면, 단순히 날씨나 뉴스를 알려주는 챗봇을 넘어, 친근하고, ‘사람 같은’ 인공지능은 어떻게 만들 수 있을까요?저희는 그러한 요소를…
[생성지능개발팀 정택현] ㅤ 컨텐츠 홍수라고 불리우는 최근에는, 우리가 접하는 미디어 컨텐츠들이 양적으로나 질적으로 이전과는 비교할 수 없게 다양화되고 또한 고도화되고 있습니다. 대표적인 예시로는 몇년 전까지만 해도 유튜브 등 영상 플랫폼에서는…
[가상인간연구팀 심홍매] 텍스트, 이미지, 음성 데이터 등 다양한 형태(modality)로 이루어진 데이터 특징을 효과적으로 학습하기 위한 방법을 Multimodal learning이라고 하는데요, 최근 국내외 학계 및 업계에서는 멀티모달 인공지능(AI) 모델 관련 연구들을 활발히…
[생성지능개발팀 김성현]우리는 한국어 문서를 볼 때, 그 대상을 의미를 가지는 단위로 쪼게서 이해할 수 있습니다.예를 들어, “스마일게이트” 의 경우, “스마일” 과, 문을 의미하는 “게이트”로 이해할 수 있겠죠.이렇게 자연어를 쪼게는 행위를…
[AI센터 한대웅] 스타쉽 엔터프라이즈가 등장하는 Star Trek은 1965년을 시작으로 수많은 드라마와 영화를 통하여 인류의 영역을 수십억 광년의 우주로 확장시킨 SF 대작이다. 드라마 속에서는 1960년대 부터 인공지능 기술을 활용하여 미지의 우주로…
[생성지능개발팀 유희조] Open AI의 GPT-3 발표 이후 ‘더 큰 언어모델’ 라는 형태의 경쟁은 하나의 패러다임이 되었습니다. Nvidia, Microsoft, Google 등의 해외 기업 뿐만 아니라 국내에서도 네이버, LG 등의 기업들이 지속적으로…
[가상인간연구팀 황준선] TPU 소개 TPU(Tensor Processing Unit)는 Google에서 발표한 텐서 연산에 특화된 하드웨어입니다. TPU는 인공지능 모델을 학습시킬 때 필요한 행렬 곱 연산을 가속화하여 기존 GPU에서 학습시킬 때보다 더 빠른 학습…
[AI센터 권은지] 비대면 소통 방식이 일상화되며 직장인의 근무 형태는 변화하였습니다. 원격 근무는 이미 하나의 표준으로 자리 잡게 되었으며 많은 기업이 효율성을 유지하는 하이브리드 근무 모델을 모색하고 있습니다. 글로벌 IT기업들은 직원…
[분석지능개발팀 박효주] DeepMind가 경쟁 프로그래밍 대회에서 사용 가능한 수준의 프로그래밍이 가능한 AlphaCode를 공개했습니다. AlphaCode는 Transformer 기반 언어 모델을 사용하여 대량의 코드들을 생성한 뒤 가장 적합한 코드를 필터링해서 사용하는 방식으로 프로그래밍합니다.…
[생성지능개발팀 한현준] 포즈 추정 모델의 발전 RGB 이미지만으로 포즈를 인식하는 모델은 지난날에 비해 비약적인 발전을 했습니다. 인식의 정확도는 많이 높아졌으며, 인식의 신뢰도가 높아짐으로 다양한 응용 기술이 개발 및 연구 되고…
[행동지능연구팀 이정우] 바둑과 같이 경우의 수가 매우 많은 복잡한 게임에서 알파고는 최고 수준의 프로기사를 넘어서는 모습을 보여줬습니다. 알파고 이후에 진행 된 프로젝트인 알파스타, OpenAI Five에서는 실시간 전략게임에서 자원을 수집하고, 활용하고,…
[분석지능개발팀 이현정] 마이크로소프트(Microsoft)가 노코드(no-code) 기반의 AI가 작성한 프로그램 코드를 검사하는 도구 ‘직소(Jigsaw)’를 발표했습니다. 노코드란 간단한 사용자 인터페이스 방식의 틀을 이용해서 복잡하고 어려운 코딩 과정 없이 어플리케이션과 응용 프로그램을 개발 및…
[가상인간연구팀 전동준] 요즘은 대화 모델이 외모를 가진 가상 인간으로 진화하고 있는데요. 다양한 연구와 시도들을 어떤 식으로 결합하고 확장할 수 있을지 맛보기 위해서 대화 모델에 3D 가상 인간의 외모를 붙인 튜토리얼을…
[생성지능개발팀 정택현] ㅤ “AI 기술이 창작활동을 지원하게 되면 컨텐츠 제작, 가상인간 등 다양한 분야에서 앞으로 어떠한 변화를 이끌어 낼 수 있을까?” “로스트아크, 크로스파이어 등 스마일게이트의 인기 IP 캐릭터를 AI 기술을…
[가상인간연구팀 송지현] 최근 NVIDIA 연구팀은 Showcased in a sessio at NVIDIA GTC 에서 가상 세계를 위한 아바타를 생성하거나 또는 장면을 생성하고, 화상 회의 참가자와 그들의 환경을 3D로 캡처하거나, 3D 디지털 map을…
[분석지능개발팀 임창대] Edge AI는 Edge computing 에서 시작된 것으로 사용자의 디바이스에서 인공지능 알고리즘을 처리하는 것을 말합니다. IoT, 웨어러블 디바이스, 자율주행과 같은 산업이 발달함에 따라 인공지능에서 사용되는 데이터는 데이터를 생성하는 센서…
[행동지능연구팀 최현우]어렸을 때 읽었던 책 중에 아직까지도 기억에 남는 소설 중 하나인 <사람들이 모두 미쳤다고 말한 외로운 수학 천재 이야기>에서는, 아직도 풀리지 않은 수학계의 난제 중 하나인 ‘골드바흐의 추측’을 다루고…
[가상인간연구팀 심홍매] 이미지 합성에서 이미지의 얽힘(entanglement)문제를 푸는 건 아주 중요하고 어려운 문제입니다. 예를 들어 사람의 얼굴에 있는 모든 수염을 자동으로 제거하거나, 혹은 완벽하게 수염을 붙히는 경우에도 수염과 얼굴 사이에는 일종의…
[AI센터 한대웅] “패러다임 시프트” 라는 단어의 사전적인 의미는 어떤 문제나 현상을 바라보는 전제나 접근 방법에 대한 근본적인 변화 혹은 인식의 전환을 의미합니다. 사회 문화적인 관점에서는 시민 계급이 절대 왕정에 저항하여…
[생성지능개발팀 유희조] AI는 근 10년간 다양한 업종에서 영향을 끼치고 있으며 과거의 매우 단순한 반복작업을 대체하는 것에서 그치지 않고 이미 예술에 까지 그 영역을 확장하고 있습니다. 컨셉에 맞춰 새로운 음악을 작곡하는…
[가상인간연구팀 황준선] NVIDIA NeMo는 간단한 Python 인터페이스를 사용하여 GPU 가속 음성 및 자연어 이해 모델을 구축, training 및 fine-tuning하기 위한 오픈소스 프레임워크입니다. NeMo를 활용하면 실시간 자동 음성 인식, 자연어 처리,…
[분석지능개발팀 박효주] 작년 12월 초, Meta에서 AI 기반 모바일 프로토타입 제작이 가능한 PyTorch Live를 출시했다. 이제는 안드로이드, iOS 개발을 해본 적 없어도 모바일 환경에 AI 프로토타입을 만들고 적용해볼 수 있을지…
[생성지능개발팀 조원] 인간의 관절이나 자세를 localize하는 human pose estimation은 computer vision 분야의 중요한 task중 하나로서 오랫동안 발전해 왔습니다. 과거에는 사람의 pose data를 얻기 위해서는 사람이 직접 motion capture 장비를 입거나…
[서비스개발팀 임용택] 2015년 6월, 미국 브루클린의 한 흑인 프로그래머는 여자친구와 찍은 사진을 보려던 중 깜짝 놀랄 일을 경험합니다. 구글 포토에 본인들의 사진이 “고릴라” 로 오토 태깅된 것을 보았기 때문입니다. 구글은…
[선행연구팀 이정우] 현실적인 캐릭터 움직임은 User에게 게임의 재미를 극대화 시킬 수 있는 요소로 작용 합니다. EA Sports에서는 FIFA 22에 새롭고 혁신적인 게임플레이를 위해 HyperMotion 기술을 적용했습니다. 최고 수준 축구선수들의 모션…
[서비스개발팀 권은지] 올해 CES(Consumer Electronics Show) 2022는 미국 라스베이거스에서 2년 만에 오프라인으로 재개되었습니다. 한국정보통신기술산업협회(KiCTA)에 따르면 전 세계에서 2200여곳의 기업이 참여하였으며 이중 미국 기업이 1300여곳으로 가장 많았고, 한국 기업은 약 500여곳으로…
[생성지능개발팀 김성현]인간은 세상을 학습할 때, 다양한 감각을 동시에 이용하며 학습합니다.그리고 모든 감각은, 이를 감지하는 신경세포(neuron)의 발화(spike)로 변형되어 [1,0] 의 신호로 뇌로 전달됩니다. 예를 들어, 물체를 만지지 않았을 때는 세포의 발화가…
[서비스개발팀 한현준] 서론 사람들은 AI 스피커에서 난청 장애가 있는 사람들을 위한 도구 개발에 이르기까지 광범위한 음성 인식 및 이해 작업에 AI를 이용합니다. 그러나 이러한 음성 이해 시스템은 일상 상황에서 종종…
[서비스개발팀 한현준] 최근 엔비디아에서 AI 워크플로, 3D 디자인 협업 및 시뮬레이션 플랫폼 ‘Omniverse’를 RTX 제품을 사용하는 개인 크리에이터와 아티스트에게 무료로 제공한다고 발표했습니다.엔비디아 뿐만 아니라 메타(舊 페이스북)의 ‘Spark AR’, 틱톡으로 유명한…
[선행연구팀 정택현] 가끔, 아이들은 우리의 상상력을 뛰어넘는 놀랍고 창의적인 캐릭터들을 그려내곤 합니다. 이러한 아이들의 그림을 이해하기 위해서는 우리의 상식과는 조금 다른 이해방법이 필요합니다. 아이들의 그림을 살펴보면, 추상적이고 공상적인 방식으로 구성되는…
[서비스개발팀 이현정] 지난 2019년 12월 이후부터 현재까지 인류는 팬데믹 상황에 처해 있고, 아직도 진행 중이며 끝날 줄 모르고 이어져오고 있다.오랜 팬데믹 상황으로 사람들의 이동이 제한되고, 사람과 사람과의 물리적 거리를 제제하여…
[융합연구팀 전동준] “어제 홈스파 3편 보고 왔어요” 라고 누군가가 말한다면 여러가지 반응이 나올 수 있습니다. ‘홈스파’가 마블에서 제작한 스파이더맨 영화 시리즈의 약칭인 것을 모른다면 인터넷에 ‘홈스파’ 라는 키워드를 검색하여 무엇인지…
[서비스개발팀 권은지] 영상 분할(Semantic Segmentation) 기술은 컴퓨터 비전 분야에서 가장 핵심적인 요소 중 하나이며, 이미지 내의 픽셀별로 해당 픽셀이 어디에 속하는지 분류하는 문제입니다. 이 분야는 실생활에서 의료, 드론, 교통 분야에…
[융합연구팀 최현우] 여러분은 감정이라는 단어를 들으면 어떤 것들이 떠오르시나요? 예전부터 희로애락 (기쁨, 분노, 슬픔, 즐거움) 이라는 개념이 있었고, 감정 연구에 대해 조금 관심을 가지셨던 분이라면 Paul Ekman의 6가지 기본 감정…
[서비스개발팀 임창대] 높은 정확도를 가진 딥러닝 모델 개발에는 긴 시간이 소요됩니다. 모델 훈련과 미세 조정, 최적화를 거치며 만족하는 모델을 만들기까지 수 주일 또는 수 개월이 걸릴 수 있습니다. NVIDIA NGC…
[융합연구팀 송지현] Microsoft는 기존의 시각데이터(image and video)를 활용하여 새로운 시각데이터를 생성하고 조작할 수 있는 multimodal pretrained model인 NUWA를 발표했습니다. 아래 그림은 8개의 다운스트림에 대한 시각적 합성 기술을 연구한 결과입니다. 서로…
[융합연구팀 심홍매] 2019년에 열린 GTC 컨퍼런스에서 Nvidia는 GAN(generative adversarial networks)을 기반으로 대략적인 스케치를 사실적인 이미지로 바꿔주는 실시간 AI 페인팅 애플리케이션인 GauGAN 을 발표하였습니다. 그로부터 2년이 지난 최근 NVIDIA는 GauGAN의 후속…
[서비스개발팀 임창대] ML(Machine Learning) 은 최근 몇 년 동안 점점 더 많은 관심을 받아 이제 주류로 부상한 IT 주제 중 하나 입니다.ML 모델 학습은 API와 tool 이 너무 발전되어 더…
[선행연구팀 유희조] 최근 Google, Microsoft와 같은 월드 클래스의 빅테크 기업, 그리고 한국 내에 있는 많은 IT 업체들은 메타버스가 미래이며 메타버스 구축하겠다는 포부를 끊임없이 발표하고 있습니다. 그 중에 가장 큰 화두가…
[서비스개발팀 권은지] 랜선 여행이란 인터넷 연결선을 뜻하는 랜(Lan), 선(Cable) 그리고 여행(Trip)을 결합하여 인터넷으로 여행을 한다는 의미의 신조어입니다. 최근 국가 간 이동 제한이 완화되고 있지만 국제 관광산업은 여전히 부진한 상황인 것으로…
[선행연구팀 이정우] 28일 페이스북은 사명을 ‘메타’로 변경하면서, 메타버스의 성공이 회사의 목표임을 다시 한번 강하게 보여줬습니다. 단순히 계획이 아님을 보여주듯이, 메타의 자회사 오큘러스에서 신형 VR 헤드셋 ‘캄브리아’를 공개했습니다. VR 헤드셋은 메타버스…
[서비스개발팀 김병인] 네이버가 웹툰을 기반으로한 인공지능 채색 사이트를 오픈 했습니다. 밝혀진 정보에 따르면 네이버웹툰이 3년동안 연구,개발한 기술들을 접목하여 만들어졌다고 하는데 딥러닝 기반의 30만장의 데이터셋을 활용해 인물의 얼굴, 신체, 배경등 다양한…
[융합연구팀 전동준] 우리가 일반적으로 생각했었던 “AI 같은”의 의미는 사람과 대비되는 기계의 느낌이 강했습니다. 감정이 느껴지지 않고, 말투도 딱딱한 사람들을 “AI 같은 사람” 이라고 많이 표현했었습니다.
[선행연구팀 김성현] 자연어처리 분야에서 pre-trained language model (PLM) 전략이 훌륭한 성공을 거두자, 더 많은 데이터를 이용해 더 큰 PLM을 개발하는 것이 하나의 트랜드로 자리잡았습니다.그리고 얼마 전, NVIDIA에서는 GPT-3의 무려 4배…
[서비스개발팀 한현준] 챗봇의 고민 OpenAI의 GPT-3, Google의 Meena, Facebook의 Blender 등 대형 자연어 처리 AI 모델은 인간의 언어를 실제 사람과 구별하기 힘들 정도로 모방했습니다. 그 기반엔 대형 웹사이트를 크롤링한 방대한…
[Convergence Research Team Ji-Hyun Song] LinkedIn 搜索系统的深度自然语言处理 我最近在学习 Rasa 开源时感受到了聊天机器人系统的结构和优化设计的应用效果。即使在其中,意图和实体……
【服务开发团队韩贤俊】什么是AutoML AutoML字面意思是Auto + ML,一个自动化机器学习模型开发任务的过程。通过自动化在模型的研究和开发中花费大量时间的过程……
【Convergence Research Team Shim Hongmae Shim】如果要选出2020年NLP领域的前10个关键词,当然是GPT-3(Language Models are few shot Learners)排名。时至今日,GPT-3庞大的参数量和出色的性能仍然在NLP领域......
人工智能可以变成人吗? (专访Smilegate.AI服务开发团队经理Eunji Kwon)AI音箱播放符合我当天心情的音乐。自动驾驶汽车将自己移动到目的地。 AI偶像和我说唱跳舞...
【服务开发组金炳仁】特斯拉最近决定发布北美销售的Model 3和Model Y的雷达。由于激光雷达已经被排除在外,我们宣布自动驾驶将仅通过汽车上的摄像头和人工智能技术实现。到目前为止,有两个传感器:激光雷达和雷达……
[前研究团队,Jeongwoo Lee] 在 2019 年举办的 Tesla Autonomy Day 上,介绍了技术和方向,重点是“自动驾驶”技术。今年,作为特斯拉AI日的名称,今年,众所周知的全视觉自动驾驶人工智能,符合“人工智能”的技术主题……
【前期研究团队Seonghyun Kim】在自然语言中引起极大轰动的因果语言模型(例如GPT-3),现在已经被应用到自然语言之外的编程语言! 🤗 去年六月,Github 和 OpenAI 联合开发的 Copilot 发布了。Copilot 就像自然语言中的 GPT-3,给定代码……
[先前的研究团队 Hyunwoo Choi] 去年 5 月,DeepMind 发表了一篇名为“奖励就足够了”的强化学习论文。作者给出了“一只试图增加饱腹感的松鼠”和“一个试图保持清洁的厨房机器人”的例子,如果定义了适当的奖励,则与智力相关(认知、...
[Service Development Team Jeon Jeon-jun] Facebook AI 于上个月 28 日推出了可在真实和虚拟环境中使用的机器人开发 Droidlet 平台。
[服务开发团队 Lim Chang-dae] 'Vertex AI' 在 5 月的 Google 开发者大会 IO 上亮相。 Vertex AI 是 Google Cloud 的一项托管云服务,它集成了 AutoML 和 AI Platform。
[Jihyun Song 前期研究团队] 对 Open Domain chatbot 感兴趣并接触 Blender 1.0 和 Meena 的论文已经有 2 年多了。当时,他们进行了长时间的持续对话,他们声称将来会克服,而且他们……
[服务开发团队 Hyeonjun Han] 介绍 Tensorflow 和 PyTorch 是最流行的机器学习库。开发 AI 服务的开发人员或研究模型的研究人员在开始时常常面临选择图书馆的困难。此外,随着库版本的上升......
[之前的研究团队,Jeongwoo Lee] 长期以来,我们一直在使用游戏(围棋、国际象棋、雅达利游戏等)来验证强化学习算法的性能。随着算法的发展,在强化学习领域,和其他图像、自然语言领域一样,有...
[优先研究团队 Seonghyun Kim] 正在开放许可下发布 GPT-3 模型的 Eleuther AI 团队最近发布了一个新的 GPT-3 模型,具有 6B(约 60 亿)参数。 (Link) 据说GPT-J-6B这个名字是因为使用了Mesh-tensorflow和JAX。训练数据大约是……
【服务开发组 Lim Chang-dae】在 DevOps 出现之前,每个公司都有自己的服务器,称为内部部署服务器,并且有单独的服务器管理员、开发人员和 QA。在这种情况下,如果无法连接服务,请购买实际的物理服务器,制作机架,并设置服务器......
[Service Development Team Jeon Jeon-jun] Unity 推出的 ML-Agents 是一款开源工具,可为游戏环境创建虚拟角色。您可以创建游戏环境,并通过强化学习等算法学习可以在环境中运行的NPC角色(Agents)。...
[先前的研究团队,Ji-Hyun Song] MIT 研究团队开发的 TadGAN 算法在通过分析时间序列数据来检测异常方面的性能比之前已知的模型具有更好的性能。目前,很多研究异常检测的公司都在
[服务开发团队,恩恩权(Eunji Kwon)]小时候,当我发挥想象力时,外太空机器人是最喜欢的材料。回顾过去,从动画片(Galaxy Railroad 999)到人工智能计算机的负责人,这些计算机将火车运送到最近发行的Humanoid电影,人工智能是媒体的重要组成部分...
[Lead Research Team Hongmae Shim] NAVER在25日举行的“ NAVER AI NOW”在线会议上首次展示了韩国首款“超大型AI” Hyper CLOVA,这是韩国自行开发的GPT-3。借助开放式AI GPT-3,很难使用英语以外的语言...
[服务开发团队Kim Byung-in]在Google I / O 2021上,展示了展示最新Google技术,Android,Web,AI,Chrome和其他技术,服务以及平台服务的活动。在众多技术中,最热门的话题是LaMDA(Google的语言…
[前研究团队Yoo Hee-jo]姿势估计是一种视觉处理技术,用于跟踪视频中字符的移动。提取并连接通常与面部标志相似的身体标志,以描述整个身体的姿势。大多数…
[服务开发团队Byungin Kim] MetaHuman Creator是Epic Games最近发布的一种数字化人类创作工具。它看起来类似于MMORPG游戏的角色创建,但是要实现这样的实时数字人非常困难,这是一项非常耗时的任务。
[Sung-Hyeon Kim前研究团队]最新的语言模型是使用大型语料库学习的。特别是,对于使用解码器神经网络的模型(例如GPT-2,BART和T5模型),可以通过重复采样下一个标记来生成自然语言。这是采样的方法...
近来,被应用于自然语言处理领域的变压器不仅被应用于文本,而且还被应用于图像,视频等各种数据,表现出优异的性能。但是,文本,图像和视频分别是1D,2D,3D…
当前在手机上运行的大多数装饰应用程序(例如Snow和Line Camera)以提取面部地标并覆盖先前创建的对象的形式运行。此外,近年来,各种图像处理技术(例如美容滤镜)...
Metaverse,这意味着虚拟环境中现实与连接的化身之间的所有形式的交互,最近引起了各行各业的关注。特别是从Corona 19开始的全球非面对面环境极大地增加了对metaverse的需求...
OpenAI的GPT-3是一种大型语言模型,参数计数高达175B。尽管GPT-3取得了令人惊讶的结果,但它不是开源的,因此,如果您要尝试它,可以尝试AI Dungeon(https://play.aidungeon.io/main/landing)或Philosopher AI(https:/ /philosopherai.com/)。)通过诸如...的网站
作为基于深度学习的图像生成方法,GAN产生了许多惊人的结果。特别是,由于潜在向量可以在学习后进行更改,因此有可能具有多种有意义的含义进行更改,因此潜在空间只是随机的...
有消息称,以基于深度学习的自然语言处理开源而闻名的Hugging Face吸引了$40M B系列投资。 Hugging Face Transformer可能是自然语言处理中最受欢迎的开源项目之一...
Tensorflow Lite是一个软件包,其中包含一些工具,这些工具允许使用Tensorflow训练的AI模型在移动设备上运行。据说它现在在超过40亿个设备上运行。基本上,训练后的模型将转换为Tensorflow Lite…
Jina由Jina.AI开源,是使用深度学习技术的多模式数据搜索引擎。它不仅实现了一些搜索功能,还包括可以轻松应用于服务的整个系统,而不仅仅是文本……
基于深度学习的最新AI技术正在诸如语音识别,语音合成,翻译,聊天机器人和智能工厂等各个领域中积极引入,但是在游戏领域中尚无全面应用的案例。斯普林格(Springer)出版的书…
Google Lyra是基于生成模型的一种新的语音压缩方法,现有的语音压缩方法极大地提高了原始声音质量,即获得透明质量大约需要8-16kbps,因此3kbps较低。
以其在各个领域的市场分析而闻名的IDC已发布了有关AI市场规模的预测。以下是相关链接:根据公告数据,预计2021年的AI市场规模约为$328B,并且直到2024年,它将继续以17.5%的复合年增长率...
Avatarify是一个将实时头像动画功能添加到各种视频通信程序(例如Zoom,Team,Hangout和Skype)的程序,并且是开源的。它以替换视频通信程序的摄像机输入的形式开发,并且该算法使用一阶运动模型。
DensePhrases是高丽大学的Jinjinuk Lee创建的一种开放域问答技术,已发表为题为“大规模学习短语的密集表示”的论文。这是该论文的链接:提出问题时,近600亿个Wikipedia段落中最合适的段落…
以其集成的自然语言处理程序包而闻名的HuggingFace增加了语音识别。以下是相关链接:具体来说,添加了由Facebook开发的Wav2Vec 2.0,Wav2Vec 2.0首先使用大量未标记的数据来进行无监督学习,并且非常…
通过单张照片创建3D模型的技术已经以MeInGame的名称公开。查看上传到公共存储库的结果,如果没有设计者的工作,它还不足以应用于服务,但是它将大大减少初始建模工作……
Paperswithcode提供有关AI,链接的开源和SOTA领域的各种论文的信息,并提供了3,000多个有用数据集的链接。其中,有851个文本数据集,仅限于韩语...
在Kakao Brain中,Pororo是一个能够响应各种自然语言任务的集成自然语言框架,已作为开源发布。 Pororo代表自然语言处理的神经模型平台,您可以将其视为与HuggingFace相似的目的。 Pororo ...
自从由多层卷积层组成的AlexNet问世以来,已有许多关于深度学习模型结构的研究。例如,Google Inception使用具有不同内核大小的卷积层,例如3×3、5×5和7×7…
随着深度学习模型的参数数量显着增加,训练所需的内存也随之增加。 OpenAI的GPT-2由1.5B参数组成,而Google的mT5也具有13B参数。另外,OpenAI的GPT-3的参数数量...
OpenAI发行的DALL-E是一种可以从自然语言文本生成图像的技术。以前,存在用于相同目的的技术,例如StackGAN和OP-GAN,但DALL-E的优势在于最终结果的质量非常出色,因为它是基于GPT-3(一种超大规模语言模型)制成的。
SuperGLUE是一项挑战,需要针对各种自然语言理解任务评估AI技术的性能。与现有的GLUE相比,它具有较高的难度,并且微软最近宣布的DeBERTa模型实现了SOTA(最先进)并进行了评估。
自从2012年开始认真学习深度学习以来,人工智能技术已经在许多领域超越了现有技术的性能。尽管环境有限,但2015年的Atari游戏,2016年的图像识别和Go,皮肤癌诊断和语音…
最近发布的官方版本的Scatterlab的“ Luda”(https://scatterlab.co.kr/)是一个基于数十亿KakaoTalk对话数据学习的开放域聊天机器人,任何人都可以通过Facebook Messenger进行聊天。被开发为ScatterLab首席执行官Jongyoon Kim在DEVIEW 2020上发布的视频是...
痴呆是一种大脑活动过多以至于干扰日常生活的现象,阿尔茨海默氏症是导致痴呆的最大原因之一,约占60%-80%。在史蒂文斯理工学院,阿尔茨海默氏症的病情...
KoChat是由Hyunwoong Ko发布的韩国开源聊天机器人框架。这是KoChat github存储库:在谈论聊天机器人时,人们通常只想到对话模型,但实际上,从产品的角度来看,它是聊天机器人,机器学习算法仅占其中的一小部分。
Facebook AI Research(FAIR)发布的一项技术FrankMocap负责从单个图像或视频中提取3D模型的姿态。特别是它的特点是不仅可以估计身体,而且可以估计手的形状。
以BERT为代表的基于深度学习的大规模语言模型在与自然语言相关的各种任务中表现出优异的性能,例如问答,文档摘要,文档生成和对话,特别是最近出现的GPT-3是一种人工通用情报(AGI)。
Gather Town是一种视频会议解决方案,例如Zoom和Teams,但它的特点是积极引入虚拟空间和虚拟形象。例如,我们创建了一个名为“办公室”的虚拟空间,每个参与者在虚拟空间内都具有唯一的化身和“座位”。
由于最近的深度学习技术,为给定问题生成适当答案的QA任务获得了许多性能提升。众所周知的SQuAD就是这样的任务之一。顺便说一下,该模型是针对每个任务训练的。
StudioGAN是由浦项大学CVLab康敏国发布的基于pytorch的开源库,并且实现了各种GAN算法。包含的GAN算法包括许多主要算法,例如DCGAN,LSGAN,WGAN等。
毫不夸张地说扑克是一种心理游戏,因此它与围棋或国际象棋不同。我认为Facebook这次发布的ReBeL在这方面非常出色。特别是,它的特点是像RAG一样,一起使用强化学习和搜索。
赛博朋克2077计划于2020年末由以巫师系列而闻名的CD PROJEKT RED工作室推出,它使用JaliResearch的面部动画技术。主要目的是允许3D角色做出各种面部表情并适应多语种的声音...
MindMeld是旨在确保可服务质量的开源交互式AI平台。它是用Python编写的,包括最新的NLP技术和基于知识的问答引擎。这是MindMeld平台的大致架构:…
这是2020年AI状况报告,该报告分析了AI领域的各种变化。该报告由AI投资者Nathan Benaich和Ian Hogarth每年撰写,这是他们的第三年。五个以下...
Division 2是由Massive Entertainment开发并由Ubisoft发行的在线动作RPG,位于华盛顿特区,在那里天花很流行。玩家扮演着与政府特工一起建设新城市的角色。大众娱乐总监…
Unity的ArtEngine是一种工具,可使用基于AI的技术轻松创建高质量的图形资源。在Unity中,这些技术称为AI辅助艺术性,尽管我没有详细使用它们,但有些功能似乎非常有用...
我们共享去噪器github的链接,这是在INTERSPEech 2020上宣布的Facebook实时降噪技术。它实现为Pytorch,原始论文的标题是“波形域中的实时语音增强”。如标题所示…
通常,问答系统使用文本回答问题。这样的任务是Squad任务,它为您提供一段解释事实并提出问题并生成适当答案的段落。相比之下,用视觉质量检查代替文字…
UneeQ已启动了一个名为Digital Human Creator的数字人类平台。尽管该服务的价格有点负担,但尝试提供免费试用还是不够的。在视觉方面,之前出现过很多的3D化身...
为了实现类似人类的AI的可视化部分,有必要考虑如何创建和移动3D人类模型,现有的方法有很多种,其中一种是从Max Planck ETH Center到CVPR 2020 ...
为了将以前主要以英语研究的语言模型和翻译模型扩展为多种语言,人们进行了许多尝试。 Google的mT5是一项研究,旨在将现有的T5(文本到文本转换转换器)扩展为多语言语料库,包括总共101种语言...
Corona 19尚未在全球范围内表现出平静的迹象。在麻省理工学院,我们学习了一种AI模型,该模型可以通过用手机记录的咳嗽声来检查是否存在Corona 19感染,并以此发表了方法论和实验结果。在实验结果中...
Adobe宣布了一种基于AI的编辑工具,称为神经过滤器。有人说它已经包含在最新版本的Photoshop中。一个示例功能是将照片中的整个天空更改为另一个天空(晴朗的天空,云彩...
认真考虑将2020年视为AI技术在媒体压缩领域应用的第一年。快速浏览一下今年发生的四件事。 (1)下一代视频标准缺少深度学习技术首先,七月…
在Ping-Pong博客上,已发布了文章“超人AI的Luda作梦的对话组成”,但是在设计开放域聊天机器人时有很多事情要担心,因此我们分享。 Scatter Lab正在提高Eruda的日常对话技巧。
有许多使用AI技术与Corona 19相关的研究。以下共享的论文是Fraunhofer HHI的一项研究,该研究发表在《自然》杂志上,并使用机器学习技术分析了从低功耗蓝牙(BLE)中测得的数据,以确定与确诊患者联系过的人群中的风险类别...
NVidia推出了一个基于云的视频通讯平台,名为Maxine。 Maxine的功能是完全引入了AI技术,特别是它检测面部标志,而不是使用H等图像编码技术来压缩和发送面部图像。
这是一张让我感到非常咸的照片。这是余光顺的照片,它仅保持低质量,还原为高清并增添了微笑,并且据说使用了具有基于深度学习的面部编辑技术的Faceapp。我确切地知道Faceapp中采用了哪种技术...
最近似乎有很多技术可以通过从人类运动中提取运动来创建新运动。 (vid2vid,vid2game,pose2pose)Vid2Player在斯坦福大学进行了研究,它取决于使用实际网球拉力赛图像数据放置的球...
将多个网络模型组合在一起可以提高性能,但现实情况是,由于总网络规模和推理时间也会增加,因此在实际应用中存在许多困难。通过对抗学习(MEAL)的多模型合奏解决了这个问题...
Huggingface数据集库的第一个稳定版本1.0已发布,使使用NLP数据集和评估指标变得容易。当前,支持约100个数据集和每个数据集的评估指标(约10个)。
可以自然地看到虚拟角色并按照物理定律(即类人定律)合理地运动,这是游戏和计算机图形学领域长期研究的主题。 Facebook Jungdam Won作为第一作者的项目“ A可扩展……”
LipGAN是一种使用语音信号生成脸部图像的嘴唇形状的技术,当将其实际应用于视频时,在视觉伪像和运动自然度方面有些令人失望。为了改善这一点,鉴别器不是单个帧,而是多个连续的…
基于Transformer的语言模型显示出的性能改进令人惊讶,但是随着模型大小的成倍增长,对服务成本的关注也变得越来越重要。 Bert-base或GPT-2具有大约1亿个参数,因此模型大小,内存带宽,...
该链接是对索尼和苏黎世联邦理工学院发表的一篇论文的回顾,该论文表明,强化学习已应用于著名的汽车游戏《 Gran Turismo》中,该游戏已经超越了人类的记录。使用的技术已经众所周知。
在日常对话研究中脱颖而出的Scatterlab(https://scatterlab.co.kr/)是Ping-Pong团队博客上的一篇文章,我分享了它,因为它似乎与GPT-3案例的故事井井有条。我仍然将GPT-3视为“疑惑之眼”,但是当我再次看到它时,这很好奇...
Bryandlee的github拥有使用深层生成模型进行图像翻译的结果,并且在冷静的人的后期研究中将相关研究制成了网络漫画。该研究的标题也是“冷却的生成模型学习者”。我喜欢这个机智!看一下过程,webtoon…
已经进行了许多尝试以一种编程语言编写的代码转换为另一种编程语言,并且有许多类型的商业工具。使用的主要目的是确保兼容性,例如FORTRAN或BASIC,或...
Imagenet-1K(1000类图像分类问题)是一项随着CNN的发展而优化的任务。 AlexNet宣布深度学习时代开始的TOP-5错误约为17%。当时,现有顶级技术(SIFT + FV)的TOP-5错误约为26% ...
这是由设计师Iskander Utebayev创作的AR Glass概念视频。即使是概念视频,它也相当不错,并且一旦实现,我认为有可能极大地改变使用智能设备的人机界面。应用AI技术…
在大规模语言模型的情况下,总是会遇到困难,因为没有朝鲜语模型,继SKT的KoBERT之后,Naver发行了KcBERT,该模型是从头开始学习的,其数据反映了Naver注释数据和新单词。不仅训练有素的模型……
基于深度学习的超分辨率技术在NVidia的最新GPU中采用了DLSS(深度学习超级采样)的名称,并成为消费者的一项真正的服务技术。为了降低4K游戏市场中4K渲染的成本,2K…
图像中常用的卷积是3D操作。 (KxKxC; K =内核大小,C =通道数)通过将其划分为KxKx1的多个2D运算来应用之后,在通道方向上应用大小为1x1xC的卷积的深度可分离卷积大大减少了参数数量。
LipGan是一项根据语音信号创建嘴形的研究。这是一种对创建虚拟角色的嘴部动画有用的技术,但是在实际应用中,局限性很明显,因为只有站立的角色的嘴唇仍在移动。实际上,人类...
近年来,随着非面对面视频会议变得越来越普遍,越来越多的人使用Zoom进行多人视频会议。一种称为变焦疲劳的现象也引起了人们的注意,这是一个长时间充满正方形的用户体验...
已经发布了新视频编解码器的国际标准,该新编解码器名为(ISO MPEG)VVC或(ITU-T)H.266。分享相关文章。与HEVC不同,HEVC大部分技术都是在深度学习技术问世之前完成的,而VVC是深度学习…
可视对话框任务是一种多模式任务,可将图像添加到由问答组成的Q&A任务中。例如,如果您一起给一只白色的猫和一只黑色的狗拍照,然后问:“猫旁边的动物是什么颜色?”,您回答“黑色” ...
我们共享了在SIGGRAPH 2019上发表的论文``学习面向二维运动重定向的字符不可知运动''的项目页面。本文从三个(可能不同)的图像中提取运动,骨骼和相机角度,然后……
在游戏制作方面,我们共享一个指向经常使用的Adobe Mixamo网站的链接。输入时,将上载121个3D字符和2484个字符动作,并且可以以称为(Autodesk)FBX的3D格式下载它们。这种格式...
TensorflowTTS是基于Tensorflow 2的开源,它支持几种最新的TTS模型,例如Tacotron2,MelGan,FastSpeech等,终于开始支持Microsoft FastSpeech2。 FastSpeech2表现出与Transformer系列TTS类似的性能,但是学习时间却超过两倍。
已经进行了各种尝试来从图像或图像中识别情绪。它是云API中提供的一个众所周知的应用程序领域,并成为SNS的主题(乔伊95%等)。下面链接的论文是一张脸...
在视频压缩领域中,与摩尔定律(晶体管的数量每两年翻一番),1993年的MPEG-1、2003年的MPEG-4 / AVC(H.264),2013年的MPEG-H / HEVC具有相同的特征( H.265)。作为参考,在图像压缩的情况下,…
文本到SQL是自动将自然语言转换为SQL的任务。我在底部分享的帖子是由Microsoft的Aerin Kim撰写的,它是关于Text-to-SQL的良好组织。在世界上,很多数据都是作为关系数据库构建的,在这个数据库中...
麻省理工学院的Speech2Face是一项通过语音信号生成说话者面部的研究。但是,它不使用一种模型执行语音到面对面的转换,而是将现有研究的结果用于不同目的进行组合以产生令人印象深刻的结果。 (第一作者现在是...
由Google推出的MixIT AI是一项技术,该技术从混合了多个声源的单声道音频中获得单独的声源。它可以看作是盲目的源分离任务,并且与现有技术不同,它具有在无监督(!)的情况下提供出色性能的功能。
在预测领域,Algorithm Aversion用于表示一旦意识到算法可能会犯错误,即使它比人工预测更好,也倾向于避免使用它。例如,人工智能面试,疾病预测,自动驾驶,人工智能……
在对53,000小时的未标记数据进行了表示训练之后,发布了Facebook的wav2vec 2.0的预训练模型,该模型成为热门话题,因为它创建了仅带有10分钟标记数据的语音识别器。表示模型没有微调,...
这是DriveSeg的数据集,用于研究道路状况(用于自动驾驶汽车等)。对于视频的每一帧,整个图像都是逐像素的语义标记。标签是“车辆,行人,道路,人行道,自行车,摩托车,建筑物,...
尽管这是一个飞跃,但如果我看到在AI算法中添加物理设备是一种智能机器人,我认为未来将最受欢迎的智能机器人可能是自动驾驶汽车。我有点好奇,所以我对自动驾驶汽车进行了调查...
迄今为止提出的许多MRC模型在各种任务和数据集中都显示出超越人类能力的评估值,但我认为在被问到时很难轻易说是,您是否比人类更了解给定的背景?优先,…
这是IBM情感机器人Nao-mi的视频。 [内容提要]机器人说他不想与一个要求摧毁难以建造的塔的人打交道。机器人会按需求不断哭泣,并最终将其分解。观看视频,我的心很痛。心...
据说,超大规模语言模型的代名词GPT-3的学习成本估计为40亿韩元,这是仅通过少量射击学习就可以将其应用于所有自然语言任务的可能性。 GPT-2约4000万韩元。无论可回收性有多高...
摇滚明星(Rockstars)于2011年拍摄的电影《洛杉矶黑色》(Los Angeles Noir)使面部动画效果远胜于其他游戏,许多人对此感到惊讶。这时使用的技术称为MotionScan,基本上,演员在一个房间里,精心地放置了多个摄像头...
随着数字化的到来以及Internet和Web的到来,知识被分发和存储在世界各地的服务器上,彼此连接并可以搜索,因此可访问性和可用性得到了极大的改善。使用搜索引擎,而不是从图书馆借书并按顺序阅读它...
已经发布了名为“ Codec Avatar”的Facebook数字人类项目的演示视频。与2019年的视频相比,这是增加的一部分,并且头像外观已更改为更逼真,并显示了无需标记即可跟踪整个身体的技术。 2019年3月...
它是GANimation的代码存储库,该技术可通过输入单个图像来创建可更改面部表情的动画。基本上,它是一个有条件的GAN,它使用FACS(面部动作编码系统)来描述面部的解剖运动。根据FACS,我们…
介绍Danbooru 2019版本链接,这是一个动画角色图像数据库。大约有370万张图像,每个图像附有约29个标签。标签的示例包括“ 1girl”,“ solo”,“ long_hair”,“ highres”,“ smile”和“ open_mouth”…
假设配备了类似AI的类人动物的类人角色得到了极大的改善,仅将它们显示在2D平面(例如计算机或智能手机屏幕)上并与鼠标,键盘和触摸进行交互将无法充分利用它们的潜力。我认为。牙科...
有许多复杂的人类情感感知和表达方式(例如,愤怒的情感会影响面部表情,声音和语言),这是一个开放的数据集,其中音频视频捆绑在一起并进行了情感标记。瑞尔森...
我最近阅读了有关人类能力和神经网络之间的关系的信息。尽管它出现在文章中,但是人脑和神经网络的运作方式有着相似的角落,但我认为它们不必相同。如果您建造潜水艇而不是模仿鱼来游泳...
来自著名游戏公司King的Candy Crush Saga是一款具有大量关卡的益智游戏。这是2018年的数据,但据说每周增加约15个水平。 (每年大约3700)我需要衡量难度和平衡水平...
这是Synthesia博客上的一篇文章,该文章使用“ Synthetic media”一词将AI技术应用于媒体营销。该公司的主要领域是从另一个视频中转移视频中模型的面部表情和嘴唇形状,并将其合成(调整?)。
Rosebud.ai(https://rosebud.ai/)瞄准了市场营销市场,其技术可以在为营销活动创建的图像上创建和合成虚拟模型人脸。结果非常自然,可以随时更换模型面部而无需再次拍照...
大多数聊天机器人系统仍然基于规则运行,但是为了实现自然对话,最终将需要使用更复杂的语言模型,例如BERT。但是,人们已经认识到BERT既繁琐又复杂,但是游戏平台公司Roblox却...
TikTok添加了一个过滤器,可将人脸实时转换为动画角色。金俊镐(Kim Joon-ho)制作的Selfie2Anime和UGatIT可以作为参考,但是TikTok的技术在完整性方面似乎已经达到相当高的水平。精致的脸...