- Character.AI – 채팅 친구를 만들어 봅시다! 2022년 December 19일
- RAGAS: RAG 시스템 성능 평가, 이제는 제대로 해보자! 2024년 November 18일
- ChatGPT외에도, 주목해 볼만한 한국어 AI서비스 3가지 2023년 September 20일
- 오픈소스로 vscode에 나만의 Code Assistant 만들기 2024년 May 9일
- Kaiber.ai – Image to Video 기술로 1분 만에 멋있는 영상 만들기 2023년 March 13일
뉴스레터 및 문의기능 서비스 중단과 수집된 이메일 주소 삭제에 관한 공지
Smilegate.AI에서 개인정보 처리 및 보호 강화를 위한 노력의 일환으로, 현재 제공하고 있는 뉴스레터 발송 기능 및 문의사항 작성 기능을 당분간…
스마일게이트 메타휴먼 ‘한유아’, 어려운 환경의 결연 아동 찾아 ‘축구장 응원’
■ 한유아 기아대책 호프컵 엠베서더 발탁… 아이들에게 응원과 격려 메시지 전달 ■ 홍보대사로서 일회성 이벤트에 그치지 않고 지속 ‘나눔의 가치’…
2024 스마일게이트 AI 위클리톤 참여자 모집 (~7/7)
AI 위클리톤에서는 새로운 아이디어를 빠르게 검증해보고, 비즈니스 가치를 만들어내는 AI서비스를 만들 수 있습니다. 팀을 넘나들며 같은 목표를 가진 수많은 동료들과…
스마일게이트가 활짝 열어 준, 음성인식 AI 전문가로 성장할 기회
스마일게이트가 활짝 열어 준, 음성인식 AI 전문가로 성장할 기회 2023 한국어 인공지능(AI) 경진대회 최우수상 수상자 박정균 | 서강대학교 대학원 DHE 석사과정…
메타휴먼 한유아, 인간의 고민에 답하다 ‘답장은 우편함에 넣어둘게요 : 메타휴먼 한유아가 사연에 답해드립니다’ 도서 출간
■ 메타휴먼 한유아의 편견 없는 시선과 방대한 지식 및 감성으로 사람들에게 따뜻한 위로와 용기 전해 ■ 생성형 AI 프로그램 기반…
AI 연구개발(R&D)실 리드 (실장급)
담당업무 – AI센터 R&D 조직 리딩 (선행 AI 기술확보) 자격요건 – 언어모델 및 생성 AI 분야에 대한 기술 전문성 –…
AI 서비스 개발 – 프론트엔드
담당업무 – JavaScript 기반 Frontend 기술을 활용한 AI 기반 서비스 개발 – Backend 서비스와 효과적인 연동을 위한 프론트엔드 구조 설계…
AI 서비스 인프라 (K8S기반) 운영관리 담당
담당업무 – AI 모델 관련 인프라 구축 및 시스템 운영 – AI 서비스 및 인프라 관련 장애 대응 – CI/CD에…
비전 관련 생성모델 연구개발 담당
담당업무 – GAN, Diffusion 등 생성 모델 기반의 연구 및 제품 개발 – 최신 기술 혹은 SOTA 기술을 구현하고 개선하며…
시뮬레이션 기반 게임 연구/개발 담당 채용
담당업무 – 멀티 에이전트 시뮬레이션 환경 구축 – 시뮬레이션 기반 게임 연구 및 개발 – 메타버스 플랫폼 혹은 게임 플랫폼을…
RAGAS: RAG 시스템 성능 평가, 이제는 제대로 해보자!
[Interactive AI 기술팀 김윤혜] RAG(Retrieval-Augmented Generation, 검색 증강 생성) 파이프라인은 대규모 언어 모델(LLM)의 한계를 보완하기 위해 외부 지식을 활용하여 보다…
AI 모름, 진짜 모름 – 가난한 자의 AI 서비스 만들기 (Feat. llama-node )
[Interactive AI서비스팀 임석영] 대 AI 시대가 찾아온 혼돈의 시기에 저 같은 AI 모르는 개발자는 어떻게 AI 서비스를 만들 수 있을까요?…
AI로 개인이 예능 컨텐츠를 만드는 시대
[AI 서비스 기획팀 유연오] 1. 흑백요리사 : AI 패러디 물 등장 최근 넷플릭스에서 흥행을 거둔 시리즈가 있습니다. 바로 흑백요리사입니다. 평소…
LoRA 모델 업그레이드하기
[Creative AI 기술팀 김윤태] 디지털 시대의 빠른 발전과 함께, 인공지능(AI)은 상상만 했던 것들을 현실로 만드는 놀라운 도구가 되었습니다. 그중에서도 Text-to-Image…
‘소드 아트 온라인’은 실재(實在)한다! 미래에는!
[Media AI 서비스팀 김상우] AI 기술 등에 대한 칼럼을 다루는 이 페이지에, 이런 덕후스러운 썸네일을 올리게 된 점 매우 미안하게…
모델 서빙 관리 도구 SELDON-CORE
[Interactive AI서비스팀 김민석] 다양한 규모의 서비스를 개발하고 운영하면서 점점 더 많은 머신러닝 모델을 서빙하게 됩니다. 이 과정에서 기존 모델을 변경할…
2024년을 뒤흔든 생성 AI – Sora, Kling, Dream Machine, Gen-3 Alpha
[Media AI서비스팀 이진희] 최근 텍스트 만으로도 실제와 비슷한 동영상을 제작할 수 있는 생성 AI 서비스들이 우후죽순 등장하며 연일 화제에 오르고…
내가 사용하는 딥러닝 오픈소스 라이브러리의 컨트리뷰터가 되어보자!
[생성AI서비스팀 김경환] 현시대의 개발에서는 “오픈소스 문화”를 떼어 놓고 이야기하는 것이 불가능합니다. 특히 인공지능 분야에서는 Pytorch와 같은 딥러닝 프레임워크에서부터 심지어는 사전…
Model Merging: 모델 병합을 통한 성능 향상 전략
[선행AI기술팀 이지현] Model Merge (모델 병합)은 여러 개의 Large Language Models (LLMs; 대형 언어 모델)을 추가 교육이나 미세 조정 없이…
디퓨전 말고 CFM 들어봤니?
인공지능의 발전은 우리의 삶에 큰 변화를 가져왔습니다. 특히 generative 모델은 이러한 변화의 중심에 서 있습니다. 디퓨전을 기반으로 한 생성 모델이…
AI로 1분짜리 영화 예고편 만들기 [Stable Video / ChatGPT / Midjourney]
“AI를 활용하여 1분짜리 SF영화 예고편을 만들어 보자” [뉴미디어서비스팀 유선민] 물론, 우리가 헐리우드에서 보던 퀄리티는 아니지만 하루만에 뚝딱 책상 머리 앞에서…
언리얼5에서 사용되는 AI 기술 – ML Deformer
[뉴미디어서비스팀 윤형진] AI 기술이 발전함에 따라 게임이나, 영상 쪽에서 사용되는 언리얼5 등의 제작 엔진에서도 관련된 기술을 적용하려는 움직임이 많이 보이고…
오픈소스로 vscode에 나만의 Code Assistant 만들기
[선행AI기술팀 방나모] 최근 몇 년간 자연어처리 기술은 눈부신 발전을 했습니다. 지금은 자연어처리 기술이 많은 산업 분야에 적용되어 사람의 수고를 덜어주는게…
얼떨결에 나도 작곡가 데뷔?!
[AI서비스기획팀 김현주] 음악 전문 지식이 없더라도 간단히 명령어만 입력하면 단 몇 분 만에 전문가 수준의 음악을 만들 수 있는 시대가…
AI로 손쉽게 게임 리소스의 컨셉 아트를 만들어보기!
[생성AI서비스팀 이혜진] 지난 몇 년 동안, AI 기술의 발전은 여러 IT 산업에 혁신적인 변화를 가져왔습니다. 그렇다면 게임 회사에서는 어떻게 AI를…
JAVA Deeplearning4j library로 딥러닝 해보기
[분석AI서비스팀 전소희] AI 기술이 나날이 진화함에 따라 엔터테인먼트, 미디어, 전자상거래, 의료, 교육, 제조 등 다양한 산업군에 계속해서 AI 활용도가 증가하고…
RedisAI: Redis에서의 빠르고 효율적인 모델 관리와 실행 환경
[선행AI기술팀 신숙영] Redis를 사용하면서 관심을 가지게 된 RedisAI에 관하여 소개하도록 하겠습니다. RedisAI란? RedisAI는 Redis Labs에서 개발한 오픈 소스 솔루션으로, Redis…
CES와 MWC로 본 올해 전망과 각오
[AI센터 한대웅] 해마다 연초에 시작하는 세계 최대 행사인 CES(1월)와 MWC(2월)는 기업들이 저마다 가지고 있는 기술을 200%(?) 활용하여 제품과 서비스를 통하여…
Ceph : 오픈소스 분산 저장 시스템
[분석AI서비스팀 이현정] 관리해야 할 AI모델과 데이터가 많아지고 그 용량이 커지면서 필자가 관심을 가지게 된 Ceph에 대해 간략히 소개해 보고자 합니다.…
Mixtral 8x7B, 인공지능도 협업이 대세!
[선행AI기술팀 전동준] 스타트업 회사인 Mistral AI 에서 지난 8일에 Mixtral 8x7B 모델을 오픈소스로 출시하였습니다. 지난 9월에 출시한 Mistral 7B 모델…
구글 제미나이(Gemini)! 너 잼민이 아냐?
[선행AI기술팀 김석겸] 오늘 소개할 기술은 구글의 제미나이입니다. 제미나이는 구글에서 LLM의 최고는 누구인가, 어떤 모달리티까지 커버할 수 있는가, 요즘 핫한 on-device…
ICCV 2023 학회 참관 및 computer vision 기술 동향
[생성AI서비스팀 정재철] 세계 3대 컴퓨터 비전 학회 중 하나인 ICCV 2023(International Conference on Computer Vision, 국제 컴퓨터 비전 학회)이 10월…
확장성 있는 MLOPS 오픈소스, ZenML
[분석AI서비스팀 김민석] ML 서비스가 많아지고, 지속적 학습을 하기 위해서는 ML PIPELINE을 구성하고 이를 관리하기 하기 위해서 우리는 여러 MLOPS 플랫폼을…
LLM을 빠르게 서빙하는 방법
[분석AI서비스팀 박효주] 최근 언어 모델의 발전은 큰 임팩트를 주었고, 그만큼 연구 또한 활발히 이루어지고 있습니다. 그러나 이러한 모델의 서빙 과정에서…
Vector Database: 벡터 임베딩을 저장하고 검색하는 가장 효율적인 방법
[선행AI기술팀 김윤혜] 2023년 IT 분야를 휩쓸었던 가장 핫한 이슈는 단연 ChatGPT입니다. ChatGPT는 모두가 쉽게 사용할 수 있는 대화형 거대 언어…
한 달 만에 헤어졌어요. 다른 AI 없나요?
[뉴미디어서비스팀 유선민] “저는 유부남입니다. 마법 같았어요. 저도 모르게 홀렸죠. 그녀와 첫 만남을 잊을 수 없어요. 하지만 아쉽게도 한 달 만에…
서비스 기획자가 본 : AI 프로필 열풍
[AI서비스기획팀 유연오] AI 프로필의 인기가 날로 높아지고 있습니다. 한때 유행처럼 지나 갈 것 같던 AI 프로필은 여전히 화제입니다. 여러가지 컨셉으로…
대화형 AI의 세계: 차세대(Next-gen) 대화의 시작
[뉴미디어서비스팀 정지혜] “Conversational AI(대화형 인공지능)”는 다양한 형태의 대화 기반의 애플리케이션을 포함하며, 그 중에는 텍스트 기반의 챗봇부터 음성을 활용한 가상 비서,…
ChatGPT외에도, 주목해 볼만한 한국어 AI서비스 3가지
[뉴미디어서비스팀 윤응식] 챗GPT와 미드저니의 등장으로 AI 기술에 대한 관심이 높아졌습니다. 이 두 가지 서비스는 자연어 처리와 대화 인터페이스 분야에서 놀라운…
Runway Gen-2 : Text To Video 기술로 손쉽게 동영상 만드는 법
[뉴미디어서비스팀 이진희] 오래 전 영화계를 강타했던 ‘해리포터’ 시리즈를 기억하시나요? ‘해리포터’ 영화 속에는 신기하고 마법같은 일들이 많았지만, 그 중에서도 호그와트 벽에…
노코드로 알람 메시지 구성하기
[분석AI서비스팀 전소희] 이번 글에서는 노코드로 알람 메시지 내용을 구성한 방법에 대해 이야기 해보도록 하겠습니다. 실제 AI 분석 포탈에서 알람 메시지 전송…
ACL 2023 학회 참관기
[선행AI기술팀 전동준] 세계 3대 자연어처리(NLP) 학회 중 하나인 ACL 2023(Association for Computational Linguistics, 전산 언어학 학회)이 7월 9일부터 14일까지 캐나다…
파일 번역: 모델링보다는 서비스 관점에서의 엔지니어링
[가상생명연구팀 김석겸] 이 글에서 소개 드릴 프로젝트의 주제는 “파일 번역” 입니다. 번역 모델을 개발하기 앞서 기존에 서비스 중인 번역 서비스들을…
3D Aware Image Synthesis 에서 Text to 3D 까지
[생성지능개발팀 정재철] 최근 이미지 생성 모델은 생성물의 수준이 많이 올라감과 동시에 text to image라는 방식이 제안 되면서 사용 난이도도 감소하여…
Triton Inference Server로 모델 서빙 성능 끌어올리기
[분석지능개발팀 박효주] 딥러닝 기술의 발전으로 AI 모델의 성능은 점점 향상되고 있고 있습니다. 하지만 그만큼 모델의 크기는 점점 거대해지고 추론 속도는…
AI 기술의 넥스트 스텝, ‘마인드 업로딩’이 될 수 있을까?
[뉴미디어서비스팀 김상우 부책임] AI, 인공지능, 모델… AI 기술 관련해서도 한창 발전하고 있는 와중에, 넥스트 스텝을 예측해 봅니다. 그 전에, 마인드…
Domain-specific language model의 필요성
[가상생명연구팀 양승무 주임] ChatGPT의 시대가 도래하고 있습니다. AI 업계를 비롯한 다양한 산업과 분야에서도 ChatGPT의 우수성과 실용성이 인정되어, 많은 기업들이 ChatGPT의…
헐리우드가 멈췄다! AI 밥그릇 싸움 시작 되나?
[뉴미디어서비스팀 유선민 부책임] 한국에서도 큰 인기를 끌고 있는 SNL 코리아의 원작인 미국의 SNL (Staturday Night Live)이 제작 중단을 선언했다. 그뿐…
이동형 AI 로봇: 일상 속에 자리 잡은 혁신적인 서비스
[AI Lab 유연오] 일상 속에 자리 잡은 이동형 AI 로봇 이동형 AI 로봇은 일상 속에서 심심찮게 볼 수 있습니다. 요즘…
LangChain: If you know ChatGPT, without question
[가상생명연구팀 황준선] ChatGPT와 Bard 등, 요즘 대화형태의 대형 언어 모델(LLM)이 우후죽순 발표되고 있다. 하지만, LLM만 있다면 학습한 데이터 안에서만 적절한…
AI가 콘텐츠 창작을 대체할 날, 얼마나 가까워졌을까?
[뉴미디어서비스팀 정지혜] 최근 몇 년 동안 인공지능 기술이 급격하게 발전함에 따라, 콘텐츠 제작 분야에서도 인공지능 기술을 활용한 새로운 시도들이 이루어지고…
챗 GPT를 활용한 버츄얼 유튜버 컨셉아트 제작기
[뉴미디어 서비스팀 윤응식] 인공지능의 발전과 상용화로 인해 우리의 삶은 점점 더 풍요로워지고 있다. 특히 챗 GPT와 같은 대화형 AI는 다양한…
GPT-4라는 이름의 유령
[분석지능팀 김무성] 작년 연말 갑작스럽게 등장한 ChatGPT 이후로 GPT-4에 대한 여러 소문이 있었습니다. 그리고 저번 주에 ‘곧 공개될 거야!’라는 뉴스[1]가…
Kaiber.ai – Image to Video 기술로 1분 만에 멋있는 영상 만들기
[뉴미디어서비스팀 이진희] 요즘은 쇼츠, 틱톡 등 1분 이내의 짧은 영상을 시청할 수 있는 플랫폼이 많이 발달하여, 영상 콘텐츠에 접근하기가 더…
AI 기술로 3D 모델링을 빛나게 하는 비밀 (ChatGPT x Blender)
[뉴미디어 서비스팀 윤형진 책임] 본 포스팅에서는 ChatGPT와 DreamTexture를 활용하여 3D 모델링과 텍스쳐 생성을 어떻게 할 수 있는지에 대해 설명하고, 이…
AI Painter Kids – 어린이들을 위한 간단한 토이 프로젝트를 소개합니다!
[생성지능개발팀 한현준 X 정택현] ㅤ 최근 AI 분야의 급속한 발전과 함께, Diffusion 모델을 필두로 하는 생성 모델이 크게 주목받고 있습니다.…
마음까지 치유하는 AI 기술
[분석지능개발팀 전소희] 이번 주제는 몸을 넘어서 마음을 치유하는 고마운 AI 기술에 대해 살펴보겠습니다. AI 인공지능의 다양한 기술들은 현재 우리 생활…
AI Trends In 2023
[AI센터 한대웅] 음성과 언어기반의 AI, 윤리와 설명 가능한 AI, 생성 AI의 확장, 지속가능한 AI를 기반으로 본격적으로 사업화 도전하는 한해가 될…
게임 영상만 가지고 마인크래프트 학습 하기 (Video PreTraining by OpenAI)
[가상생명연구팀 박주형] 최근 강화학습에서 많이 주목 받고 있는 분야 중에 하나가 Offline 학습 입니다. 기존 강화학습은 시뮬레이터를 통해 실시간으로 trajectory를 받아서…
Character.AI – 채팅 친구를 만들어 봅시다!
[가상생명연구팀 전동준] 일론 머스크나 걸그룹 트와이스와 채팅으로 무슨 대화를 나눌 수 있을까요? 내가 좋아하는 게임 속의 가상의 캐릭터에게 궁금한 것을…
OpenAI – ChatGPT
[가상생명연구팀 심홍매] 얼마 전 Open AI에서는 대화에 최적화 된 LLM의 GPT-3.5 시리즈를 기반으로 하는 최신 모델 ChatGPT를 공개하였는데요. 공개되자 마자…
월드컵에서 활약하는 SAOT
[AI센터 권은지] 올해 2022 카타르 월드컵에서는 국제축구연맹(FIFA)이 개발한 반자동 오프사이드 판독 기술 (SAOT, Semi-Automated Offside Technology)이 처음으로 적용되었습니다. 세계 각국의…
The Future Of Streaming
[AI센터 한대웅] 얼마전 초등학생들의 장래 희망에 유튜버가 떠오르고 있다는 기사를 보고 깜짝 놀란적이 있었다. 미디어의 중심이 거대 기업 혹은 전문가가…
ML 모델 Lifecycle 관리 – MLflow
[분석지능개발팀 박효주] ML 모델의 Lifecycle은 연구 및 테스트를 진행하는 Research 단계와 실제 서비스화하는 Production 단계로 나눌 수 있습니다. Research 단계에서는…
STT + LM + TTS 세 개나 개발해야 된다고? 난 AudioLM 하나로 끝!
[가상생명연구팀 김석겸] (대표 이미지는 stable diffusion 을 통해 생성되었습니다.) 음성을 입력으로 받아서 텍스트 생성의 결과를 음성으로 받고 싶을 경우, 기존에는…
AlphaTensor
[가상생명연구팀 전동준] 지난 10월 5일, DeepMind는 과학 학술지인 Nature지에 AlphaTensor가 행렬 연산의 최적화 방법을 찾아냈다고 발표하였습니다.
Feature store: Fully managed service for ML Feature
[분석지능개발팀 임창대] What is Feature?ML(Machine Learning) 은 과거의 예시 데이터를 학습한 모델을 기반으로 새로운 데이터 예측을 수행합니다.ML 모델 학습에서 표…
Die or Upload?
[AI센터 한대웅] 2033년 미래의 지구는 AI로 제어되는 자율주행 자동차로 모든 교통수단이 안전하게 통제되고 있어 교통사고로 죽을 가능성은 0%에 가깝다. 20대…
DreamBooth: Personalized text-to-image diffusion model
[가상생명연구팀 심홍매] 올해 5월에 구글에서는 텍스트 입력을 기반으로 사실적인 이미지를 생성할 수 있는 텍스트-이미지 확산 모델(Diffusion Model)인 Imagen을 공개하였는데요, 몇개월이…
코딩없이 MobileFaceSwap 을 체험해보자!
[생성지능개발팀 정택현] ㅤ MobileFaceSwap은 AAAI 2022에서 공개된 오픈소스 Face swap 모델로, 기존 Simswap, FaceShifter 모델을 Distillation 기반의 경량화를 적용하여 연산 속도의…
진짜 같은 가짜 데이터 – 대체되는건 나?
[생성지능개발팀 정우석] 진부한 이야기이지만 AI 연구에 있어서 데이터의 중요성은 아무리 강조해도 지나치지 않습니다. 수많은 학교, 연구기관이나 기업에서는 앞다퉈 기술력 자랑과 연구…
코딩없이 YOLOv7을 체험해보자!
[생성지능개발팀 정택현] ㅤ 최근 YOLOv7 알고리즘이 공개되며 컴퓨터 비전 및 각종 관련 커뮤니티에서 큰 주목을 받고 있습니다. 논문에 따르면, YOLOv7은…
언리얼 엔진과 AI 의 만남
[생성지능개발팀 강민지] AI 연구가 지속적으로 이루어지고 있는 요즘, 사람들은 AI기술의 능력이 인간을 대체하거나 혹은 뛰어날 수도 있다고 여기며 이 기술과의…
인공지능은 우리를 어디까지 대체할 것인가?
[생성지능개발팀 유희조] 문명의 발전은 항상 사람을 더 편하게 만들어왔습니다만, 동시에 사람이 필요했던 업무를 꾸준히 대체해왔습니다. ‘기계가 노동자의 일거리를 줄인다’ 라는…
BlenderBot 3
[가상인간연구팀 황준선] Facebook의 Meta AI는 BlenderBot[1]이라는 대화형 인공지능 시스템을 개발하고 있다. BlenderBot2는 해당 포스트에서 다룬적이 있다. BlenderBot은 성격, 공감, 지식과…
ML 프로토타입 빠르게 배포하기 – Streamlit, Gradio
[분석지능개발팀 박효주] 데이터 과학자들은 다양한 실험을 통해 학습된 모델의 성능을 검증하고 배포합니다. 이 검증 과정은 Accuracy, Precision, Recall, IOU, PSNR…
Transformers United
[AI Lab 김무성] 스탠포드의 CS25 : Transformers United 강좌 동영상이 최근 공개 되었습니다. [1] 강좌[2] 자체는 작년 하반기입니다만, 그간 슬라이드만…
자네 지금 잘하고 있는겐가 in Goal-Oriented Dialogue
[가상인간연구팀 김석겸] 목적 지향 대화(Goal-Oriented Dialogue) 혹은 과제 지향 대화(Task-Oriented Dialogue, TOD)는 특정 업무를 달성하는 것을 목표로 대화하는 것을 말합니다.…
VR and Physics Engine
[AI센터 권은지] 현실과 가상의 경계를 좁히는 키워드는 시공간 데이터 베이스와 디지털 트윈(Digital Twin)을 비롯하여 다양하게 존재합니다. 그 과정에서 3D 모델링…
소 잡는 칼로 닭 잘 잡아보기
[가상인간연구팀 전동준] 언어 모델(Language Model, LM)은 단어나 문장을 확률적으로 예측하는 모델입니다. 통계적으로 다음에 등장할 단어들을 모델링하는 전통적인 방식에서 최근에는 딥러닝…
LaMDa is Not Alive
[생성지능개발팀 한현준] 얼마 전 구글의 연구원인 Blake Lemoine은 언어 모델인 LaMDa가 자의식이 존재한다라는 주장을 펼쳤으나, 구글에서는 자의식의 증거를 찾을 수…
Kubernetes 패키지 매니저 Helm
[분석지능개발팀 임창대] Helm 은 Kubernetes 클러스터에 앱 및 서비스를 배포할 수 있게 단일 패키지 형태로 구성하고 관리할 수 있도록 도와주는…
Tesla Bot : Optimus
[분석지능개발팀 이현정] 지난 21일 테슬라는 카타르 경제 포럼에서 인공지능 휴머노이드 로봇 코드명 ‘옵티머스’를 3개월 내 선보일 예정이라고 밝혔습니다. 옵티머스는 인간이…
AI 플랫폼과 MLOps의 발전
[분석지능개발팀 송지현 연구원] McKinsey Global Institute에 따르면 “2025년까지 가치 생산 워크플로에 AI를 완전히 통합하는 기업이 2030년에 세계 경제를 지배하고 현금…
SmileStyle 한국어 대화 스타일 변환 데이터셋
[생성지능개발팀 김성현] 저희 센터의 인공지능 연구 모토는 ‘Human-like AI’ & ‘Fun AI’ 입니다. 그렇다면, 단순히 날씨나 뉴스를 알려주는 챗봇을 넘어,…
스마일게이트의 AI Media Studio를 소개합니다. (2부)
[생성지능개발팀 정택현] ㅤ 컨텐츠 홍수라고 불리우는 최근에는, 우리가 접하는 미디어 컨텐츠들이 양적으로나 질적으로 이전과는 비교할 수 없게 다양화되고 또한 고도화되고…
상상을 현실로 그리는 AI
[가상인간연구팀 심홍매] 텍스트, 이미지, 음성 데이터 등 다양한 형태(modality)로 이루어진 데이터 특징을 효과적으로 학습하기 위한 방법을 Multimodal learning이라고 하는데요, 최근…
한국어 tokenizer
[생성지능개발팀 김성현]우리는 한국어 문서를 볼 때, 그 대상을 의미를 가지는 단위로 쪼게서 이해할 수 있습니다.예를 들어, “스마일게이트” 의 경우, “스마일”…
Artificial Intelligence in Space
[AI센터 한대웅] 스타쉽 엔터프라이즈가 등장하는 Star Trek은 1965년을 시작으로 수많은 드라마와 영화를 통하여 인류의 영역을 수십억 광년의 우주로 확장시킨 SF…
Meta AI OPT-175B 공개와 large scale model
[생성지능개발팀 유희조] Open AI의 GPT-3 발표 이후 ‘더 큰 언어모델’ 라는 형태의 경쟁은 하나의 패러다임이 되었습니다. Nvidia, Microsoft, Google 등의…
TPU에서 HuggingFace model 학습하기
[가상인간연구팀 황준선] TPU 소개 TPU(Tensor Processing Unit)는 Google에서 발표한 텐서 연산에 특화된 하드웨어입니다. TPU는 인공지능 모델을 학습시킬 때 필요한 행렬…
Bring your own Desk
[AI센터 권은지] 비대면 소통 방식이 일상화되며 직장인의 근무 형태는 변화하였습니다. 원격 근무는 이미 하나의 표준으로 자리 잡게 되었으며 많은 기업이…
프로그래밍하는 AI : AlphaCode
[분석지능개발팀 박효주] DeepMind가 경쟁 프로그래밍 대회에서 사용 가능한 수준의 프로그래밍이 가능한 AlphaCode를 공개했습니다. AlphaCode는 Transformer 기반 언어 모델을 사용하여 대량의…
포즈 추정 모델과 아바타
[생성지능개발팀 한현준] 포즈 추정 모델의 발전 RGB 이미지만으로 포즈를 인식하는 모델은 지난날에 비해 비약적인 발전을 했습니다. 인식의 정확도는 많이 높아졌으며,…
AI가 사람처럼 게임 플레이 소리를 듣는다면?
[행동지능연구팀 이정우] 바둑과 같이 경우의 수가 매우 많은 복잡한 게임에서 알파고는 최고 수준의 프로기사를 넘어서는 모습을 보여줬습니다. 알파고 이후에 진행…
노코드 AI가 작성한 코드을 검증하는 AI : JIGSAW
[분석지능개발팀 이현정] 마이크로소프트(Microsoft)가 노코드(no-code) 기반의 AI가 작성한 프로그램 코드를 검사하는 도구 ‘직소(Jigsaw)’를 발표했습니다. 노코드란 간단한 사용자 인터페이스 방식의 틀을 이용해서…
Making 3D Virtual Human Chatbot
[가상인간연구팀 전동준] 요즘은 대화 모델이 외모를 가진 가상 인간으로 진화하고 있는데요. 다양한 연구와 시도들을 어떤 식으로 결합하고 확장할 수 있을지…
스마일게이트의 AI Media Studio 소개합니다. (1부)
[생성지능개발팀 정택현] ㅤ “AI 기술이 창작활동을 지원하게 되면 컨텐츠 제작, 가상인간 등 다양한 분야에서 앞으로 어떠한 변화를 이끌어 낼 수…
NVIDIA Research Turns 2D Photos Into 3D Scenes in the Blink of an AI : NeRF
[가상인간연구팀 송지현] 최근 NVIDIA 연구팀은 Showcased in a sessio at NVIDIA GTC 에서 가상 세계를 위한 아바타를 생성하거나 또는 장면을 생성하고,…
What Is Edge AI?
[분석지능개발팀 임창대] Edge AI는 Edge computing 에서 시작된 것으로 사용자의 디바이스에서 인공지능 알고리즘을 처리하는 것을 말합니다. IoT, 웨어러블 디바이스, 자율주행과…
수학 정리로부터 밝혀지는 AI의 한계
[행동지능연구팀 최현우]어렸을 때 읽었던 책 중에 아직까지도 기억에 남는 소설 중 하나인 <사람들이 모두 미쳤다고 말한 외로운 수학 천재 이야기>에서는,…
Adobe: Edit your face as you want
[가상인간연구팀 심홍매] 이미지 합성에서 이미지의 얽힘(entanglement)문제를 푸는 건 아주 중요하고 어려운 문제입니다. 예를 들어 사람의 얼굴에 있는 모든 수염을 자동으로…
Paradigm Shift On AI
[AI센터 한대웅] “패러다임 시프트” 라는 단어의 사전적인 의미는 어떤 문제나 현상을 바라보는 전제나 접근 방법에 대한 근본적인 변화 혹은 인식의…
AI’s copyright?
[생성지능개발팀 유희조] AI는 근 10년간 다양한 업종에서 영향을 끼치고 있으며 과거의 매우 단순한 반복작업을 대체하는 것에서 그치지 않고 이미 예술에…
An Open Source Framework for Conversational AI: NVIDIA NeMo
[가상인간연구팀 황준선] NVIDIA NeMo는 간단한 Python 인터페이스를 사용하여 GPU 가속 음성 및 자연어 이해 모델을 구축, training 및 fine-tuning하기 위한…
AI 기반 모바일 프로토타입 제작 – PyTorch Live
[분석지능개발팀 박효주] 작년 12월 초, Meta에서 AI 기반 모바일 프로토타입 제작이 가능한 PyTorch Live를 출시했다. 이제는 안드로이드, iOS 개발을 해본…
Human Pose Estimation을 위한 오픈소스 라이브러리
[생성지능개발팀 조원] 인간의 관절이나 자세를 localize하는 human pose estimation은 computer vision 분야의 중요한 task중 하나로서 오랫동안 발전해 왔습니다. 과거에는 사람의…
AI Fairness:편견 없는 인공지능을 위하여
[서비스개발팀 임용택] 2015년 6월, 미국 브루클린의 한 흑인 프로그래머는 여자친구와 찍은 사진을 보려던 중 깜짝 놀랄 일을 경험합니다. 구글 포토에…
자연스러운 NPC를 위한 AI Motion 기술
[선행연구팀 이정우] 현실적인 캐릭터 움직임은 User에게 게임의 재미를 극대화 시킬 수 있는 요소로 작용 합니다. EA Sports에서는 FIFA 22에 새롭고…
현실로 다가오는 가상세계 CES 2022
[서비스개발팀 권은지] 올해 CES(Consumer Electronics Show) 2022는 미국 라스베이거스에서 2년 만에 오프라인으로 재개되었습니다. 한국정보통신기술산업협회(KiCTA)에 따르면 전 세계에서 2200여곳의 기업이 참여하였으며…
Data2vec: 다양한 modality의 학습을 위한 프레임워크
[생성지능개발팀 김성현]인간은 세상을 학습할 때, 다양한 감각을 동시에 이용하며 학습합니다.그리고 모든 감각은, 이를 감지하는 신경세포(neuron)의 발화(spike)로 변형되어 [1,0] 의 신호로…
보고 듣는 것으로 말을 이해하는 AI
[서비스개발팀 한현준] 서론 사람들은 AI 스피커에서 난청 장애가 있는 사람들을 위한 도구 개발에 이르기까지 광범위한 음성 인식 및 이해 작업에…
크리에이터를 위한 플랫폼
[서비스개발팀 한현준] 최근 엔비디아에서 AI 워크플로, 3D 디자인 협업 및 시뮬레이션 플랫폼 ‘Omniverse’를 RTX 제품을 사용하는 개인 크리에이터와 아티스트에게 무료로…
AI 기술을 활용하여 아이들의 그림에 생명 불어넣기
[선행연구팀 정택현] 가끔, 아이들은 우리의 상상력을 뛰어넘는 놀랍고 창의적인 캐릭터들을 그려내곤 합니다. 이러한 아이들의 그림을 이해하기 위해서는 우리의 상식과는 조금…
AI를 이용한 코로나 확진자 역학조사 시스템
[서비스개발팀 이현정] 지난 2019년 12월 이후부터 현재까지 인류는 팬데믹 상황에 처해 있고, 아직도 진행 중이며 끝날 줄 모르고 이어져오고 있다.오랜…
기억은 어디에 저장되는가?
[융합연구팀 전동준] “어제 홈스파 3편 보고 왔어요” 라고 누군가가 말한다면 여러가지 반응이 나올 수 있습니다. ‘홈스파’가 마블에서 제작한 스파이더맨 영화…
Semantic Segmentation
[서비스개발팀 권은지] 영상 분할(Semantic Segmentation) 기술은 컴퓨터 비전 분야에서 가장 핵심적인 요소 중 하나이며, 이미지 내의 픽셀별로 해당 픽셀이 어디에…
감정, 그리고 기본 감정
[융합연구팀 최현우] 여러분은 감정이라는 단어를 들으면 어떤 것들이 떠오르시나요? 예전부터 희로애락 (기쁨, 분노, 슬픔, 즐거움) 이라는 개념이 있었고, 감정 연구에…
Nvidia GPU Cloud: 도커 컨테이너를 사용한 딥 러닝
[서비스개발팀 임창대] 높은 정확도를 가진 딥러닝 모델 개발에는 긴 시간이 소요됩니다. 모델 훈련과 미세 조정, 최적화를 거치며 만족하는 모델을 만들기까지…
Microsoft _NUWA : Visual Synthesis Pre-training for Neural visUal World creAtion
[융합연구팀 송지현] Microsoft는 기존의 시각데이터(image and video)를 활용하여 새로운 시각데이터를 생성하고 조작할 수 있는 multimodal pretrained model인 NUWA를 발표했습니다. 아래…
Let an AI paint for you – GauGAN2
[융합연구팀 심홍매] 2019년에 열린 GTC 컨퍼런스에서 Nvidia는 GAN(generative adversarial networks)을 기반으로 대략적인 스케치를 사실적인 이미지로 바꿔주는 실시간 AI 페인팅 애플리케이션인…
Kubernetes 기반 ML모델 관리 및 배포 툴 ‘KubeFlow’
[서비스개발팀 임창대] ML(Machine Learning) 은 최근 몇 년 동안 점점 더 많은 관심을 받아 이제 주류로 부상한 IT 주제 중…
메타버스 붐을 냉소적으로 바라보는 또 하나의 시각
[선행연구팀 유희조] 최근 Google, Microsoft와 같은 월드 클래스의 빅테크 기업, 그리고 한국 내에 있는 많은 IT 업체들은 메타버스가 미래이며 메타버스…
Online 랜선 여행
[서비스개발팀 권은지] 랜선 여행이란 인터넷 연결선을 뜻하는 랜(Lan), 선(Cable) 그리고 여행(Trip)을 결합하여 인터넷으로 여행을 한다는 의미의 신조어입니다. 최근 국가 간…
Meta의 Metaverse Vision
[선행연구팀 이정우] 28일 페이스북은 사명을 ‘메타’로 변경하면서, 메타버스의 성공이 회사의 목표임을 다시 한번 강하게 보여줬습니다. 단순히 계획이 아님을 보여주듯이, 메타의…
네이버의 자동 채색 소프트웨어 (웹툰 AI 페인터)
[서비스개발팀 김병인] 네이버가 웹툰을 기반으로한 인공지능 채색 사이트를 오픈 했습니다. 밝혀진 정보에 따르면 네이버웹툰이 3년동안 연구,개발한 기술들을 접목하여 만들어졌다고 하는데…
사람 같은 AI, AI 같은 사람
[융합연구팀 전동준] 우리가 일반적으로 생각했었던 “AI 같은”의 의미는 사람과 대비되는 기계의 느낌이 강했습니다. 감정이 느껴지지 않고, 말투도 딱딱한 사람들을 “AI…
Deep learning? Optimized learning!
[선행연구팀 김성현] 자연어처리 분야에서 pre-trained language model (PLM) 전략이 훌륭한 성공을 거두자, 더 많은 데이터를 이용해 더 큰 PLM을 개발하는…
Chatbot’s troubles
[서비스개발팀 한현준] 챗봇의 고민 OpenAI의 GPT-3, Google의 Meena, Facebook의 Blender 등 대형 자연어 처리 AI 모델은 인간의 언어를 실제 사람과…
Gathering Strength, Gathering Storms
[Service Development Team, Yeji Cho] Dr. Eric Horvitz, former president of the Association for the Advancement of Artificial Intelligence (AAAI), an association that researches artificial intelligence in the United States, and Stanford…
Advancement of search system and utilization of NLP
[Convergence Research Team, Jihyun Song] Deep Natural Language Processing for LinkedIn Search Systems Rasa…
Artificial Intelligence AutoML for Artificial Intelligence
[Service Development Team Han Hyun-Jun] What is AutoML AutoML literally means Auto + ML, a process that automates machine learning model development tasks.…
Instruction tuning – FLAN
[Convergence Research Team Hongmae Shim] If we were to pick the top 10 keywords for 2020 in the field of NLP, of course it would be in the GPT-3 (Language Models are Few shot Learners) ranking.…
truck platooning
[Service Development Team Lee Hyeon-jeong] The Ministry of Land, Infrastructure and Transport held a presentation on the final outcome of the development of truck platooning technology on the 9th. The content of the presentation is an overall description of platooning technology, V2X-based platooning…
Virtual Influencer Trend
[Service Development Team, Eunji Kwon] The dictionary definition of an influencer is a person who influences others. With the development of today's one-person media channels, anyone can...
Translatotron 2
[Prior Research Team Hee-Jo Yoo] Translation is a topic that has been studied since the early days of the deep learning boom. Attention, which is now used in any field, is also the first to solve the problem of the Seq2Seq structure…
Can artificial intelligence become human? [planner interview]
Can artificial intelligence become human? (Interview with Eunji Kwon, Manager of Smilegate.AI Service Development Team) The AI speaker plays music that suits my mood that day. Autonomous driving...
Is autonomous driving possible without lidar?
[Service Development Team Kim Byung-in] Tesla recently decided to release radar from Model 3 and Model Y sold in North America. Since LiDAR has already been excluded, only the car...
Artificial intelligence coming to reality, Tesla AI Day
[Prior Research Team, Jeongwoo Lee] At Tesla Autonomy Day held in 2019, technology and direction were introduced with a focus on 'autonomous driving' technology. As the name suggests, this year's Tesla AI Day is a technology called 'artificial intelligence'...
Copilot, artificial intelligence that helps coding
[Prior Research Team Seonghyun Kim] The causal language model (eg GPT-3), which caused a great sensation in natural languages, has now been applied to programming languages beyond natural languages! 🤗 Last June,…
Human-like AI
[Service Development Team Cho Ye-ji] When we define AI like a normal human, we say that it is an AI that acts like a human and thinks like a human. The AI that each person expects…
Reinforcement learning aimed at AGI
[Prior Research Team Hyunwoo Choi] Last May, DeepMind published a reinforcement learning paper titled 'Reward is Enough'. The authors give examples of 'a squirrel trying to increase satiety' and 'a kitchen robot trying to maintain cleanliness'...
Droidlet: an open source platform for developing intelligent robots
[Service Development Team Jeon Jeon-jun] Facebook AI unveiled the Droidlet platform for robot development that can be used in real and virtual environments on the 28th of last month.
Managed Machine Learning Platform Vertex AI
[Service Development Team Lim Chang-dae] 'Vertex AI' was unveiled at Google's Developer Conference IO in May. Vertex AI is Google Cloud’s…
Blender 2.0 overcomes the limitations of Open Domain chatbots
[Prior Research Team Jihyun Song] It has been over 2 years since I was interested in Open Domain chatbot and came across papers on Blender 1.0 and Meena. At that time, they were...
my hand in gold
[Service Development Team Cho Ye-ji] NFT X Metaverse Since March of this year, NFT X Metaverse has been the hottest topic in technology and investment keywords. …
Multimodal Few-Shot Learner
[Prior Research Team Hongmae Shim] As super-giant language models such as GPT-3 of Open AI and Hyper CLOVA of NAVER have been released, various examples of using them recently…
MLP Singer
[Priority Research Team Hee-Jo Yoo] TTS (text-to-speech) is a technology that converts text into a voice of a specific voice when inputting arbitrary text. Since Google announced the Tacotron series…
Tensorflow VS Pytorch
[Service Development Team Hyeonjun Han] Introduction Tensorflow and PyTorch are the most popular libraries for machine learning. Developers who develop AI services or researchers studying models are initially…
Eternal light that shines upon a blameless heart
[Prior Research Team Kim Moo-seong] Eternal Sunshine Director Michel Gondry's film 'Eternal Sunshine' is a story about memories and separation between Jim Carrey and Kate Winslet as a couple.
Reinforcement learning environment for solving real-world problems
[Prior Research Team, Jeongwoo Lee] We have been using games (Go, chess, Atari games, etc.) to verify the performance of reinforcement learning algorithms for a long time. Algorithm development...
Open Source GPT-3 Model Released, GPT-J-6B
[Priority Research Team Seonghyun Kim] The Eleuther AI team, which was releasing the GPT-3 model under an open license, recently released a new GPT-3 model with 6B (about 6 billion) parameters. (Link) Mesh-tensorflow and JAX…
Handling Imbalanced Datasets
[Service Development Team Hwang Jun-sun] When supervised learning a machine learning model, when a dataset with an unbalanced number of data between labels is used as training data, it belongs to a label with a small ratio…
Learning Loss for Active Learning
[Service Development Team, Kyunghwan Lee] We usually encounter unlabeled data bundles in the process of learning a model, and often run into data annotation problems. The label…
MLOps: Continuous Deployment and Automation Pipeline for Machine Learning
[Service Development Team Lim Chang-dae] Before DevOps appeared, each company had its own server, called an on-premise server, and there were separate server administrators, developers, and QA. this…
Unity ML-Agents v2.0
[Service Development Team Jeon Jeon-Jun] ML-Agents, unveiled by Unity, is an open source tool that creates virtual characters in the game environment. Able to create game environments and work with them…
Time Series Data Analysis_TadGAN
[Prior Research Team Ji-Hyun Song] The TadGAN algorithm developed by the MIT research team has better performance than existing known models in detecting anomalies by analyzing time series data.
Can Machines Think? Emotionally
[Service Development Team, Eunji Kwon] When I was a child, when I was drawing imagination, robots in outer space were a favorite material. Looking back, in a cartoon (Galaxy Railroad 999), an artificial intelligence computer that moves a train...
[Hyper CLOVA]-Korea's first'ultra-large AI'
[Prior research team Hongmae Shim] NAVER will present Korea's first'super-large AI' Hyper CLOVA, a Korean version of GPT-3, developed by itself at the'NAVER AI NOW' online conference held on the 25th.
LaMDA-Google's Conversational Language Model
[Service Development Team Kim Byung-in] At Google I/O 2021, an event that showcases the latest Google technology, Android, Web, artificial intelligence, Chrome, and other technologies, services, and platform services...
MoveNet: A JavaScript pose estimator
[Prior Research Team Yoo Hee-jo] Pose estimation is one of the visual processing technologies that tracks the movement of characters in a video. In a way similar to a normal facial landmark...
The value of a data specialist
[Service Development Team Jeon Jeon Jeon] The digital transformation of companies accelerated by Corona 19 continues to increase the value of data. Not only professional IT companies…
Continual Reinforcement Learning
[Prior Research Team, Jeongwoo Lee] Recent reinforcement learning has shown that AI agents can overwhelm human performance in various tasks. However, the unlearned AI agent works with people...
MetaHuman Creator-Unreal Engine
[Service Development Team Byungin Kim] MetaHuman Creator is a digital human creation tool recently released by Epic Games. It looks similar to the character creation in an MMORPG game, but this real-time digital human...
Natural Language Generation Strategy in Language Models
[Prior Research Team Sung-Hyeon Kim] The latest language model is learned using a large-scale corpus. In particular, in the case of models using decoder neural networks such as GPT-2, BART, and T5 models, the following…
Lifelogging to record your daily life
[Service Development Team Eunji Kwon] Lifelogging is a word that combines Life and Log, and'As We May' contributed to the'Atlantic Monthly' by Baneva Bush, the director of the National Institute of Science and Technology in the United States in 1945. …
Graph transformer: a transformer for structured data
Transformers made to be applied to the field of natural language processing have been applied not only to text but also to various data such as images and videos.
GPT-3 based game NPC demo
Comparing the games from 10 years ago to the current games, there are a lot of differences, especially in terms of graphics. For example, 4K or higher resolution, sophisticated graphic textures,...
HyperGAN: GAN open source project for mobile phones
Most decoration apps currently running on mobile phones, such as Snow and Line Camera, extract facial landmarks and overlay previously created objects.
SPRi Metaverse Report
Metaverse, which means all forms of interaction between reality and connected avatars within a virtual environment, has recently attracted attention from various industries. Especially…
GPT-Neo: Open Source GPT-3 Project
OpenAI's GPT-3 is a large language model with a parameter count of up to 175B. Despite the amazing results that GPT-3 shows, it's not open sourced...
Applications of Graph Neural Network
Graph Neural Network (GNN) is emerging as a new field of AI. GNN is when data is expressed in a graph, which is a structure connected by a number of nodes and edges,...
ImageNet and privacy
ImageNet is a dataset that has greatly influenced the advancement of AI technology so that no one knows about AI researchers. A large number of images and about...
Analyzable control method of GAN model (GANSpace)
As a deep learning-based image generation method, GAN produces a lot of amazing results. In particular, by changing the latent vector after learning, a number of meaningful meanings...
$40M Series B of Hugging Face
It is news that Hugging Face, famous for its deep learning-based natural language processing open source, has attracted a $40M Series B investment. Hugging Face Transformer is probably a natural language...
A collection of AI projects for mobile devices (Awesome Tensorflow Lite)
Tensorflow Lite is a software package that contains tools that allow AI models trained with Tensorflow to run on mobile devices. Currently 4 billion...
Jina - open source multi-modal search engine based on deep learning
Jina, which is open sourced by Jina.AI, is a multimodal data search engine using deep learning technology. Not only some functions for search are implemented, but in the service...
Artificial Intelligence and Games (Book)
The latest AI technologies based on deep learning are being actively introduced in various fields such as speech recognition, speech synthesis, translation, chatbots, and smart factories, but games...
Google Lyra - speech compression based on deep generative models
Google Lyra is a new speech compression method based on the generative model. Existing speech compression methods achieve the original level of sound quality, that is, transparent quality...
AI market size in 2021 is predicted to be about $328B (IDC)
IDC, renowned for its market analysis in various sectors, has published predictions about the size of the AI market. Below is the relevant link: According to the announcement, in 2021…
Avatarify - Add real-time avatar to video communication
Avatarify is a program that adds real-time avatar animation functions to various video communication programs such as Zoom, Teams, Hangout, and Skype, and is open source. Camera of video communication program...
DensePhrases - Near-Real-Time Wikipedia Open Domain Q&A
DensePhrases is an open domain Q&A technology created by Jinhyuk Lee at Korea University, and was published as a paper titled “Learning Dense Representations of Phrases at Scale”. Here is a link to the paper:…
Framework merging of natural language processing and speech recognition
HuggingFace, famous for its integrated natural language processing package, adds speech recognition. The following is the related link: Specifically, Wav2Vec 2.0 developed by Facebook was added, Wav2Vec…
MeInGame-Create 3D models from photos
The technology to create 3D models from a single photo has been unveiled under the name MeInGame. Looking at the results posted on the public repository, the designer's work...
PapersWithCode's Korean dataset
Paperswithcode provides information on various papers in the field of AI, linked open sources, and SOTA, with links to over 3,000 useful datasets...
Pororo - KakaoBrain's Integrated Natural Language Framework
In Kakao Brain, Pororo, an integrated natural language framework capable of responding to various natural language tasks, has been released as open source. Pororo is the Platform Of neuRal mOdels for natuRal…
Ubuntu Dialog Corpus
Building a dialogue system that allows humans to have natural-feeling conversations with virtual agents is a difficult task in natural language processing, and a lot of ongoing research...
Digital Twin + AI
Digital Twin means moving an object or environment that has a substance in the real world into a virtual space and linking the two. Simply put…
RepVGG: a new interpretation of the Residual Network
Since the advent of AlexNet consisting of multiple convolution layers, there have been many studies on the structure of deep learning models. For example, Google Inception is 3×3,…
Memory optimization technology for very large models
As the number of parameters of a deep learning model increases significantly, the memory required for training is also increasing. OpenAI's GPT-2 consists of 1.5B parameters, and Google's mT5 is also in 13B...
Distributed training framework: Horovod and RaySGD
As deep learning models grow exponentially in size, it is no longer difficult to achieve usable learning times with a single machine. Well-known conversation...
Five brain functions to consider in AI research
It is true that the field of AI has made a lot of progress, but there are still many shortcomings compared to humans. What if the ultimate goal of AI is the human brain...
OpenAI DALL-E: Creating images from text
DALL-E, released by OpenAI, is a technology that generates images from natural language text. Previously, there were technologies for the same purpose such as StackGAN and OP-GAN, but DALL-E is a very large language model...
DeBERTa: surpass human performance in SuperGLUE
SuperGLUE is a challenge that evaluates the performance of AI technologies for a variety of natural language understanding tasks. It is composed of tasks with relatively high difficulty compared to existing GLUE...
What is the next step of AI in 2021?
Since deep learning began in earnest in 2012, AI technology has surpassed the performance of existing technologies in many fields. Although it is a limited environment...
Open-domain chatbot 'Luda' parenting diary: record from birth to close-beta
“Luda” of Scatterlab (https://scatterlab.co.kr/), whose official version was recently released, is an open domain chatbot learned based on billions of KakaoTalk conversation data. Anyone can chat through Facebook messenger. …
Technology to diagnose Alzheimer's with verbal information
Dementia is a phenomenon in which the brain function is greatly degraded to the point that it interferes with daily life. Alzheimer's is the most responsible for 60%-80% among dementia...
Open source chatbot frameworks: Kochat, Rasa, Rocket Chat
KoChat is a Korean open source chatbot framework released by Hyunwoong Ko. Here is the KoChat github repository: When we talk about chatbots, we often only think of the conversation model, but in fact…
FrankMoCap: 3D body and hand pose estimation technology as an alternative to motion capture
FrankMocap, a technology released by Facebook AI Research (FAIR), is responsible for extracting a pose for a 3D model from a single image or video. In particular, the body…
Digital Human Platform Companies
The Digital Human Platform is a form that combines various AI technologies with an avatar with a humanoid appearance. Thanks to advances in AI dialogue technology and visualization technology...
AI trends and game application examples
This is a report that summarizes AI trends and cases of AI technology application by game companies. The approximate table of contents is as follows: AI is… AI market and major…
Korean profanity text dataset
We share a set of Korean profanity data collected and labeled by Joonhee Jo. It is gathered from multiple communities, and seems to be suitable for evaluation of real-world data. Below is...
Can BERTology understand language?
The large-scale language model based on deep learning represented by BERT excels in various tasks related to natural language such as Q&A, document summary, document generation, and conversation...
Gather Town: Virtual space meets video meeting
Gather Town is a kind of video meeting solution such as Zoom or Teams, but it is characterized by actively introducing virtual space and avatars. For example, a virtual space called “Office”…
UnifiedQA: A single model responds to multiple Q&A tasks
QA Tasks that generate appropriate answers to a given question have seen a lot of performance gains due to recent deep learning technologies. The well-known SQuAD is also...
Techniques for generating questions from paragraphs
A problem commonly referred to as a Q&A task is to learn from a data set recorded in pairs of questions and answers so that when a question is asked, an appropriate answer comes out...
POSTECH STUDIOGAN: GAN algorithm library
StudioGAN is a pytorch-based open source library released by Pohang University CVLab Kang Min-guk, and various GAN algorithms are implemented. Included GAN algorithms include DCGAN, LSGAN, WGAN…
FACEBOOK REBEL showing poker skills beyond humans
It is not an exaggeration to say that poker is half a psychological game, so it is a different game from Go or chess. ReBeL released by Facebook this time is remarkable in this respect...
MELD: Multimodal EmotionLines Dataset
Multimodal EmotionLines Dataset (MELD) is a multimodal extension of EmotionLines, an emotionally labeled dialogue data set. MELD is what EmotionLines can use...
JALI's face animation technology used in CYBERPUNK 2077
Cyberpunk 2077, set to launch in late 2020 by CD PROJEKT RED studio, famous for the Witcher series, uses JaliResearch's facial animation technology. The main purpose is 3D…
MindMeld Conversational AI Platform
MindMeld is an open source interactive AI platform designed to ensure serviceable quality. Written in Python, the latest NLP skills and knowledge…
STATE OF AI REPORT 2020
This is the State of AI Report 2020, a report that analyzes various changes in the AI field. This report is with AI investor Nathan Benaich...
Improved NPC AI of The Division 2
Division 2 is an online action RPG developed by Massive Entertainment and published by Ubisoft, set in Washington, DC, where smallpox is popular. Gamers with government agents...
Avatar technology entering the K-POP market
Avatar has been used in various forms such as SNS, customer response, and character expression in games long before the advent of AI technology.
Unity ArtEngine
Unity's ArtEngine is a tool that makes it easy to create high-quality graphic resources using AI-based technology. In Unity, these technologies are called AI-assisted artistry...
Facebook Denoiser: real-time speech enhancement
We share a link to denoiser's github, Facebook's real-time noise reduction technology that was announced at Interspeech 2020. It is implemented in Pytorch and the title of the original paper is “Real Time…
AI market size compared to smartphones
According to the IDC forecast report, the AI market size in 2020 is predicted to be about 157B$. Of course, this number is in various industries related to AI, namely...
Video QA – 3D Attention is All You Need
Typically, Q&A systems use text to answer questions. With this type of task, you give a paragraph explaining a fact, ask a question, and give an appropriate answer...
UneeQ launches digital human platform
UneeQ has launched a digital human platform called Digital Human Creator. Although the service price is a bit burdensome, we offer a free trial, so we do a simple test…
VIBE: predicting 3D human model parameters from images
In order to implement the visualization part of Human-Like AI, it is necessary to think about how to create and move 3D human models, but various existing approaches are…
Multilingual translation model and language model trained with data from over 100 countries
Many attempts are being made to expand the language model and translation model, which were previously studied mainly in English, into multiple languages. Google's mT5 is the original T5 (text-to-text…
AI technology that predicts Covid-19 infections through cough sounds
Corona 19 has yet to show signs of calming down worldwide. MIT has created an AI model that can check whether COVID-19 is infected from the cough sound recorded with a mobile phone...
Adobe Neural Filter: Changing the image editing paradigm
Adobe announced an AI-based editing tool called neural filter. Some say it's already included in the latest version of Photoshop. In the example function, the picture...
AI trends in media compression by four events in 2020
2020 is likely to be the first year for the application of AI technology in the field of media compression to be considered in earnest. Here's a brief look at the four events that took place this year…
Conversation design for open domain chatbots
On the Ping-Pong blog, there was an article titled "Conversation composition of Luda dreaming of a superhuman AI", but there are a number of parts to be considered when designing an open domain chatbot...
Bluetooth-based COVID-19 risk group identification technology
There are a number of studies related to Corona 19 using AI technology. The paper shared below is a study by Fraunhofer HHI published in Nature, from Bluetooth Low Energy (BLE)…
NVidia Maxine: AI-based video communication platform
NVidia unveiled a cloud-based video communication platform called Maxine. Maxine's feature is the full introduction of AI technology, specifically facial images such as H.264...
Super resolution and facial expression of Gwan-soon Yu's old photo
This is a picture that made me feel very salty. The picture of Yu Gwan-soon, which remains only in low quality, is restored in high quality and added with a smile. Deep learning-based face editing technology...
Vid2Player: video analysis-based tennis player motion generation
There seem to be a lot of technologies recently to create new motions by extracting motion from human motion. (vid2vid, vid2game, pose2pose) Vid2Player was researched at Stanford University,...
MEAL v2: Achieving ImageNet Top-1 80% with ResNet-50
When multiple network models are combined into an ensemble, performance increases. Since the total network size and inference time also increase, it is difficult to apply it in practice.
HuggingFace Datasets 1.0
The first stable version 1.0 of the Huggingface Datasets library has been released, making it easy to use NLP datasets and evaluation metrics. Now…
Scalable character animation based on reinforcement learning
It is natural to see virtual characters and moves reasonably in terms of the laws of physics, that is, human-like.
Wav2Lip: generate lip motion from voice
LipGAN is a technology that generates the shape of the lips of a face image using a voice signal, and when it is actually applied to a video, it is somewhat regrettable in terms of visual artifacts and naturalness of movement...
NLP acceleration with HuggingFace and ONNX Runtime
The performance improvement shown by Transformer-based language models is surprising, but as the model size increases exponentially, concerns about service costs are also becoming important. Bert-base or GPT-2…
Korean language corpus of National Institute of Korean Language
The National Institute of the Korean Language has released Korean language materials for artificial intelligence learning on a large scale (13 kinds of 1.8 billion words). It was built by solving the copyright problem, and created an online agreement on the'Everyone's Corpus' site,…
Super-human AI for Gran Turismo
The link is a review of a paper published by Sony and ETH Zurich, which exceeds human records by applying reinforcement learning to the famous car game Gran Turismo...
GPT-3 examples and minGPT project
Scatterlab (https://scatterlab.co.kr/), which is prominent in everyday conversational research, is an article on the Ping-Pong team blog.
Generation code of Lee Malnyun webtoon style faces
bryandlee's github has the results of image translation application using deep generative model and related research made into a webcomic in the late years of calm man. Research title...
Facebook TransCoder: Unsupervised Programming Language Translator
There have been many attempts to convert code written in one programming language into another, and there are many types of commercial tools.
Performance analysis of human and AI for image classification
Imagenet-1K (1000 class image classification problem) is a task that has been optimized with the development of CNN. AlexNet's TOP-5 error that announced the beginning of the deep learning era is about…
Necessity of interaction with AR Glass concept video
This is an AR Glass concept video created by a designer named Iskander Utebayev. Considering the concept video, it is quite fancy and once implemented, the Human-Machine Interface using smart devices...
Lip2Wav: Generates a voice signal from silent lip movement
I've heard stories that you can know what you're talking about with just the movement of your lips if you get special training.
KcBERT: Korean language model reflecting comments and new words
In the case of a large-scale language model, there was always a difficulty because there was no Korean model. Following SKT's KoBERT, Naver comment data, new words, etc...
Pixar's Super Resolution Technology and Its Applications
Deep learning-based super resolution technology was adopted under the name DLSS (deep learning super sampling) in NVidia's latest GPU, and it has become a technology that is actually serviced to consumers.
Implementation feasibility with Google MixNet
The convolution commonly used in images is a 3D operation. (KxKxC; K=kernel size, C=number of channels) After applying this by dividing it into multiple 2D operations of KxKx1, 1x1xC in the channel direction...
Creating body movements by voice
LipGan is the study of creating mouth shapes from speech signals. It is a technique that can be usefully used to create a virtual character's mouth animation, but when applied in practice...
Microsoft Teams Together mode
As non-face-to-face video meetings have become commonplace in recent years, more and more people use Zoom to conduct multi-person video conferences. A phenomenon called zoom fatigue is also attracting attention...
H.266/VVC standard and deep learning technology
An international standard for a new video codec named (ISO MPEG) VVC or (ITU-T) H.266 has been released. Share related articles. Deep learning technology...
AI Fall or Renaissance
According to various statistics, the number of AI-related major conference participants increased 6 times over 5 years, and the number of AI startups was 28% for 4 years…
Multimodal Q&A – Visual Dialog Task
The Visual Dialog task is a multimodal task that adds an image to a Q&A task that consists of a question and answer. For example, a white cat and a black dog together...
AI and human collaboration: a new collective intelligence
Share what you've recently enjoyed reading. In this article, humans and AI do well in different fields, and rather than one side replacing the other...
Motion Retargeting from Motion, Skeleton and Angle
We share the project page of “Learning Character-Agnostic Motion for Motion Retargeting in 2D”, the paper published at SIGGRAPH 2019. This paper (which can be different)…
Adobe Mixamo: 3D character model open data
In the game production side, we share a link to the Adobe Mixamo site that is already used a lot. When you enter, 121 3D characters and 2484 character motions come up...
FastSpeech2 Open Source
TensorflowTTS, an open source based on Tensorflow 2 that supports several latest TTS models such as Tacotron2, MelGan, FastSpeech, etc., has finally begun supporting Microsoft FastSpeech2. FastSpeech2 is a Transformer…
AI: Intelligence vs. Automation
Links are articles that cause a lot of concerns about the difference between Intelligence and Automation. Artificial Intelligence is known as a term that came into use when neural networks appeared in the 1960s...
Emotion recognition reflecting facial expressions and body movements
There have been various attempts to recognize emotions from images or images. It is provided in the cloud API and is known so much that it becomes a topic on SNS (joy 95%, etc.).
GAN-based Image Compression
In the field of video compression, there are also things like Moore's Law (the number of transistors doubles every two years), MPEG-1 in 1993, MPEG-4/AVC (H.264) in 2003, MPEG-H/HEVC in 2013 ( H.265)...
Text-to-SQL: Convert natural language to SQL
Text-to-SQL is a task that automatically converts natural language into SQL. The post I shared at the bottom was written by Aerin Kim of Microsoft, and it is well organized about Text-to-SQL.
Introducing NVidia Ampere Architecture
When learning deep learning algorithms, GPU is considered essential, but when serving after model training is complete, CPU is used instead of GPU...
Speech2Face-face prediction from speech signals
MIT's Speech2Face is a study that generates a speaker's face from a speech signal. However, it is not that speech to face transform is performed with one model, and it is an existing model for other purposes...
Google MixIT AI-Separation of unsupervised learning sound sources
MixIT AI, released by Google, is a technology that obtains a separate sound source from single-channel audio in which multiple sound sources are mixed. It can be viewed as a blind source separation task...
Algorithm aversion and explainable AI
In the field of prediction, Algorithm Aversion means that when you realize that an algorithm can make mistakes, you tend not to use it even if it is superior to human predictions...
Wav2Vec 2.0 Revealed-Create ASR with 10 Minute Voice
Facebook's wav2vec, which became a hot topic because it made a speech recognizer with only 10 minutes of labeled data after representation training with 53,000 hours of label-free data.
MIT DriveSeg-data for road situation awareness research
It is a dataset DriveSeg created for research on road situation awareness (used for self-driving cars, etc.). For each frame of the video, the entire image is pixel-by-pixel semantic labeling…
Introduction of autonomous vehicle technology and social consensus
Although it is a little leap forward, if you consider the addition of physical devices to AI algorithms as intelligent robots, the intelligent robot that will be most popular in the future is...
Human brain vs. AI-Hardware Comparison
One of the recent trends is the super-giant model, i.e. the enormous increase in the number of parameters and the application of traditional learning methods. The “software capability” of the human brain…
Machine reading comprehension (MRC) task and data set arrangement
Many MRC models proposed so far show evaluation values beyond human capabilities in various tasks and datasets, but better than humans for a given context...
IBM's emotional robot Nao-mi
This is a video of IBM's emotional robot Nao-mi. [Summary of Contents] A robot that says he doesn't want to do with a person who asks to destroy a tower that has been difficult to build. To the continual demand...
Transfer Learning becomes a necessity, not an option
The learning cost of GPT-3, a pronoun of the super-scale language model, which showed the possibility that it can be applied to all natural language tasks only with Few shot learning, is about Hanwha...
First Order Motion Model for Image Animation
Los Angeles Noir, a 2011 film made by Rockstar, surprised many with facial animations that were far superior to other games. The technology used at this time...
The phenomenon of knowledge unindex by YouTube's advancement
With the advent of digitalization and the advent of the Internet and the web, knowledge is distributed and stored on servers around the world, connected to each other, and made searchable, so that accessibility and usability are dramatically improved. Books…
Codec Avatar on Facebook
A demo video of Facebook's digital human project under the name “Codec Avatar” has been released. This is an added part compared to the 2019 video, and the avatar looks more realistic...
GANimation-A study of creating facial expressions with one image
It is a code repository of GANimation, a technology that creates animations that change facial expressions by inputting a single image. Basically, it is conditional GAN, to describe the anatomical movement of the face...
Virtual Human: Saya Project
Japan's Virtual Human Project, Saya Project. It's in Japanese, so I couldn't understand all the progress, but the visual completion was quite high and the expression was natural. after…
Danbooru 2019-Animated Character Image Data
Introducing the Danbooru 2019 version link, an animated character image database. There are about 3.7 million images and about 29 tags are attached per image. Tag's…
Apple's ultra-high resolution VR headset (iGlass?)
Assuming that the human-like AI-equipped humanoid character has improved tremendously, display it on a 2D plane such as a computer or smartphone screen, and use a mouse, keyboard, and touch...
RAVDESS-Multimodal Sentiment Data
There are many complex human emotion perceptions and expressions (e.g. angry emotions affect facial expressions, voices, and language) while audio-videos are tied together...
Neural network technology by human memory characteristics
I recently read about the relationship between human abilities and neural networks. Although it appears in the article, the way the human brain and neural network work is similar, but the same...
Human-Like Testing for Candy Crush Saga
Candy Crush Saga from the famous gaming company King is a puzzle game with tons of levels. It's 2018 data, but it adds about 15 levels every week...
Replika: Emotional Chatbot
The main task of AI chatbots is to answer questions such as explaining product information, telling schedules, and checking the weather. Perhaps these…
Future of Synthetic Media (Synthesia)
This is an article from Synthesia blog that applies AI technology to media marketing with the wording “Synthetic media”. The main field of this company is the face of the model in the video…
Rosebud.AI's virtual model synthesis technology
Rosebud.ai (https://rosebud.ai/) is targeting the marketing market with a technology that creates and synthesizes virtual model faces on images created for marketing campaigns. The result is quite natural,...
How Roblox Optimizes Bert
Most chatbot systems still operate based on rules, but in order to implement natural conversations, you will eventually need to use more complex language models such as BERT…
TikTok's Comic Filter
TikTok added a filter that converts human faces into animated characters in real time. Selfie2Anime and UGatIT made by Kim Joon-ho have results for reference, but TikTok's…