Domain-specific language model의 필요성
[가상생명연구팀 양승무 주임] ChatGPT의 시대가 도래하고 있습니다. AI 업계를 비롯한 다양한 산업과 분야에서도 ChatGPT의 우수성과 실용성이 인정되어, 많은 기업들이 ChatGPT의 적용을 추진하고 있습니다. 이러한 추세는 OpenAI와 같은 주요 기업들 뿐만…
[가상생명연구팀 양승무 주임] ChatGPT의 시대가 도래하고 있습니다. AI 업계를 비롯한 다양한 산업과 분야에서도 ChatGPT의 우수성과 실용성이 인정되어, 많은 기업들이 ChatGPT의 적용을 추진하고 있습니다. 이러한 추세는 OpenAI와 같은 주요 기업들 뿐만…
[뉴미디어서비스팀 유선민 부책임] 한국에서도 큰 인기를 끌고 있는 SNL 코리아의 원작인 미국의 SNL (Staturday Night Live)이 제작 중단을 선언했다. 그뿐 만이 아니다. 세계적인 토크 쇼 중 하나인 지미 팰런 쇼도…
[AI Lab 유연오] 일상 속에 자리 잡은 이동형 AI 로봇 이동형 AI 로봇은 일상 속에서 심심찮게 볼 수 있습니다. 요즘 사람들은 대표적인 예로 외식업계에 도입된 서빙 로봇을 떠올립니다. 저번 달에…
[뉴미디어서비스팀 정지혜] 최근 몇 년 동안 인공지능 기술이 급격하게 발전함에 따라, 콘텐츠 제작 분야에서도 인공지능 기술을 활용한 새로운 시도들이 이루어지고 있습니다. 이러한 시도들은 콘텐츠 제작과정을 자동화하고 생산성을 높이는 것뿐만 아니라,…
[뉴미디어 서비스팀 윤응식] 인공지능의 발전과 상용화로 인해 우리의 삶은 점점 더 풍요로워지고 있다. 특히 챗 GPT와 같은 대화형 AI는 다양한 분야에 활용되고 있는데, 이번에는 그 기술을 이용하여 신규 버츄얼 유튜버의…
[분석지능팀 김무성] 작년 연말 갑작스럽게 등장한 ChatGPT 이후로 GPT-4에 대한 여러 소문이 있었습니다. 그리고 저번 주에 ‘곧 공개될 거야!’라는 뉴스[1]가 나왔을 때도 반신반의했습니다. 물론 ‘지금까지의 OpenAI와 MS의 속도로 보면 정말일지도’라고…
[뉴미디어서비스팀 이진희] 요즘은 쇼츠, 틱톡 등 1분 이내의 짧은 영상을 시청할 수 있는 플랫폼이 많이 발달하여, 영상 콘텐츠에 접근하기가 더 쉬워졌습니다. 그러다보니 나도 모르게 화려하면서도 신기한 숏폼 콘텐츠를 몇 시간씩…
[뉴미디어 서비스팀 윤형진 책임] 본 포스팅에서는 ChatGPT와 DreamTexture를 활용하여 3D 모델링과 텍스쳐 생성을 어떻게 할 수 있는지에 대해 설명하고, 이 기술의 가능성과 한계점에 대해 이야기해보겠습니다. 1. ChatGPT로 생성한 파이썬 코드로…
[생성지능개발팀 한현준 X 정택현] ㅤ 최근 AI 분야의 급속한 발전과 함께, Diffusion 모델을 필두로 하는 생성 모델이 크게 주목받고 있습니다. ㅤ 스마일게이트 AI센터에서는 이러한 생성 모델에 관한 다양한 프로젝트를 진행하고…
[분석지능개발팀 전소희] 이번 주제는 몸을 넘어서 마음을 치유하는 고마운 AI 기술에 대해 살펴보겠습니다. AI 인공지능의 다양한 기술들은 현재 우리 생활 곳곳에서 많은 도움을 주고 있습니다. 예를 들면, 대화형 로봇으로 어르신들의…
[AI센터 한대웅] 음성과 언어기반의 AI, 윤리와 설명 가능한 AI, 생성 AI의 확장, 지속가능한 AI를 기반으로 본격적으로 사업화 도전하는 한해가 될 것으로 예상
[가상생명연구팀 박주형] 최근 강화학습에서 많이 주목 받고 있는 분야 중에 하나가 Offline 학습 입니다. 기존 강화학습은 시뮬레이터를 통해 실시간으로 trajectory를 받아서 학습을 했었어야 했는데요, 시뮬레이터 만들기도 쉽지 않고 실제 적용도 어려워서…
[가상생명연구팀 전동준] 일론 머스크나 걸그룹 트와이스와 채팅으로 무슨 대화를 나눌 수 있을까요? 내가 좋아하는 게임 속의 가상의 캐릭터에게 궁금한 것을 물어보고, 아인슈타인과 물리학에 관한 토론을 할 수 있을까요? Character.AI 에서…
[가상생명연구팀 심홍매] 얼마 전 Open AI에서는 대화에 최적화 된 LLM의 GPT-3.5 시리즈를 기반으로 하는 최신 모델 ChatGPT를 공개하였는데요. 공개되자 마자 각 분야에서 아주 뜨거운 관심을 받았습니다. ChatGPT는 대화 형식을 통해…
[AI센터 권은지] 올해 2022 카타르 월드컵에서는 국제축구연맹(FIFA)이 개발한 반자동 오프사이드 판독 기술 (SAOT, Semi-Automated Offside Technology)이 처음으로 적용되었습니다. 세계 각국의 자존심을 건 대결에서 작은 판정 하나도 큰 논란으로 확산되고 심판의…
[AI센터 한대웅] 얼마전 초등학생들의 장래 희망에 유튜버가 떠오르고 있다는 기사를 보고 깜짝 놀란적이 있었다. 미디어의 중심이 거대 기업 혹은 전문가가 아니라 다양한 형태의 일반인이 만들어 내는 창의적인 1인 방송 미디어에…
[분석지능개발팀 박효주] ML 모델의 Lifecycle은 연구 및 테스트를 진행하는 Research 단계와 실제 서비스화하는 Production 단계로 나눌 수 있습니다. Research 단계에서는 문제 정의부터 모델 선정, 성능을 높이기 위한 다양한 실험 등을…
[가상생명연구팀 김석겸] (대표 이미지는 stable diffusion 을 통해 생성되었습니다.) 음성을 입력으로 받아서 텍스트 생성의 결과를 음성으로 받고 싶을 경우, 기존에는 음성을 텍스트로 바꾸는 모델(Speech To Text, STT), 텍스트를 처리하는 언어…
[가상생명연구팀 전동준] 지난 10월 5일, DeepMind는 과학 학술지인 Nature지에 AlphaTensor가 행렬 연산의 최적화 방법을 찾아냈다고 발표하였습니다.
[분석지능개발팀 임창대] What is Feature?ML(Machine Learning) 은 과거의 예시 데이터를 학습한 모델을 기반으로 새로운 데이터 예측을 수행합니다.ML 모델 학습에서 표 형태의 2차원 데이터를 사용하였을 때 행이 예시이고 열이 해당 예시를…
[AI센터 한대웅] 2033년 미래의 지구는 AI로 제어되는 자율주행 자동차로 모든 교통수단이 안전하게 통제되고 있어 교통사고로 죽을 가능성은 0%에 가깝다. 20대 후반의 주인공은 완벽한 여자친구와 프로그래머로서 성공한 인생을 살고 있고 자신의…
[가상생명연구팀 심홍매] 올해 5월에 구글에서는 텍스트 입력을 기반으로 사실적인 이미지를 생성할 수 있는 텍스트-이미지 확산 모델(Diffusion Model)인 Imagen을 공개하였는데요, 몇개월이 지난 최근에는 사용자가 입력한 개체(subject)를 이해하고, 해당 개체 기반으로 다양한…
[생성지능개발팀 정택현] ㅤ MobileFaceSwap은 AAAI 2022에서 공개된 오픈소스 Face swap 모델로, 기존 Simswap, FaceShifter 모델을 Distillation 기반의 경량화를 적용하여 연산 속도의 측면에서 SOTA(State-of-the-art)를 달성한 것으로 알려져 있습니다. 실제로 Original Simswap이 107M Parameter와…
[생성지능개발팀 정우석] 진부한 이야기이지만 AI 연구에 있어서 데이터의 중요성은 아무리 강조해도 지나치지 않습니다. 수많은 학교, 연구기관이나 기업에서는 앞다퉈 기술력 자랑과 연구 성과를 위해 다양한 분야의 AI 관련 논문들을 발표하고 있습니다. 하지만…
[생성지능개발팀 정택현] ㅤ 최근 YOLOv7 알고리즘이 공개되며 컴퓨터 비전 및 각종 관련 커뮤니티에서 큰 주목을 받고 있습니다. 논문에 따르면, YOLOv7은 현재까지의 모든 Object detection 기술들보다 속도와 정확성 모두에서 더욱 뛰어난…
[생성지능개발팀 강민지] AI 연구가 지속적으로 이루어지고 있는 요즘, 사람들은 AI기술의 능력이 인간을 대체하거나 혹은 뛰어날 수도 있다고 여기며 이 기술과의 공생을 그다지 좋지 않은 관점으로 바라볼 때도 있습니다. 그러나 이…
[생성지능개발팀 유희조] 문명의 발전은 항상 사람을 더 편하게 만들어왔습니다만, 동시에 사람이 필요했던 업무를 꾸준히 대체해왔습니다. ‘기계가 노동자의 일거리를 줄인다’ 라는 구호와 함께 1800년대 초에 일어났던 러다이트 운동은 그런 대체가 가장…
[가상인간연구팀 황준선] Facebook의 Meta AI는 BlenderBot[1]이라는 대화형 인공지능 시스템을 개발하고 있다. BlenderBot2는 해당 포스트에서 다룬적이 있다. BlenderBot은 성격, 공감, 지식과 같은 대화에 필요한 다양한 기능을 통합하고, 장기 기억을 통해 문맥을…
[분석지능개발팀 박효주] 데이터 과학자들은 다양한 실험을 통해 학습된 모델의 성능을 검증하고 배포합니다. 이 검증 과정은 Accuracy, Precision, Recall, IOU, PSNR 등 적절한 지표를 사용해서 수치로 검증하는데, 이 수치만 가지고는 실측…
[AI Lab 김무성] 스탠포드의 CS25 : Transformers United 강좌 동영상이 최근 공개 되었습니다. [1] 강좌[2] 자체는 작년 하반기입니다만, 그간 슬라이드만 공개하고 있었습니다. 그런데 이번에 동영상도 유튜브를 통해 공유했습니다. 슬라이드 자료도…
[가상인간연구팀 김석겸] 목적 지향 대화(Goal-Oriented Dialogue) 혹은 과제 지향 대화(Task-Oriented Dialogue, TOD)는 특정 업무를 달성하는 것을 목표로 대화하는 것을 말합니다. Open-domain dialogue(ODD)는 대화 자체가 목적인 것에 비해, TOD는 목표가 뚜렷합니다.…
[AI센터 권은지] 현실과 가상의 경계를 좁히는 키워드는 시공간 데이터 베이스와 디지털 트윈(Digital Twin)을 비롯하여 다양하게 존재합니다. 그 과정에서 3D 모델링 분야는 전문가의 영역에서 벗어나 실제 오브젝트를 가상환경으로 전환하는 기술을 통해…
[가상인간연구팀 전동준] 언어 모델(Language Model, LM)은 단어나 문장을 확률적으로 예측하는 모델입니다. 통계적으로 다음에 등장할 단어들을 모델링하는 전통적인 방식에서 최근에는 딥러닝 기반의 언어 모델들이 많이 연구되고 있습니다. BERT, GPT-3 같은 많은…
[생성지능개발팀 한현준] 얼마 전 구글의 연구원인 Blake Lemoine은 언어 모델인 LaMDa가 자의식이 존재한다라는 주장을 펼쳤으나, 구글에서는 자의식의 증거를 찾을 수 없다고 판단하였고, 이에 Lemoine은 LaMDa와의 대화 일부를 자신의 블로그에 공개해…
[분석지능개발팀 임창대] Helm 은 Kubernetes 클러스터에 앱 및 서비스를 배포할 수 있게 단일 패키지 형태로 구성하고 관리할 수 있도록 도와주는 패키지 매니저입니다. 사용자는 Kubernetes 배포 환경의 정의, 설치 및 업그레이드를…
[분석지능개발팀 이현정] 지난 21일 테슬라는 카타르 경제 포럼에서 인공지능 휴머노이드 로봇 코드명 ‘옵티머스’를 3개월 내 선보일 예정이라고 밝혔습니다. 옵티머스는 인간이 할 수 있는 일을 수행하도록 하려면 크기와 모양이 거의 같아야…
[분석지능개발팀 송지현 연구원] McKinsey Global Institute에 따르면 “2025년까지 가치 생산 워크플로에 AI를 완전히 통합하는 기업이 2030년에 세계 경제를 지배하고 현금 흐름은 120% 이상 증가할 것입니다.” 라고 말했습니다. 현재 시점에 AI를…
[생성지능개발팀 김성현] 저희 센터의 인공지능 연구 모토는 ‘Human-like AI’ & ‘Fun AI’ 입니다. 그렇다면, 단순히 날씨나 뉴스를 알려주는 챗봇을 넘어, 친근하고, ‘사람 같은’ 인공지능은 어떻게 만들 수 있을까요?저희는 그러한 요소를…
[생성지능개발팀 정택현] ㅤ 컨텐츠 홍수라고 불리우는 최근에는, 우리가 접하는 미디어 컨텐츠들이 양적으로나 질적으로 이전과는 비교할 수 없게 다양화되고 또한 고도화되고 있습니다. 대표적인 예시로는 몇년 전까지만 해도 유튜브 등 영상 플랫폼에서는…
[가상인간연구팀 심홍매] 텍스트, 이미지, 음성 데이터 등 다양한 형태(modality)로 이루어진 데이터 특징을 효과적으로 학습하기 위한 방법을 Multimodal learning이라고 하는데요, 최근 국내외 학계 및 업계에서는 멀티모달 인공지능(AI) 모델 관련 연구들을 활발히…
[생성지능개발팀 김성현]우리는 한국어 문서를 볼 때, 그 대상을 의미를 가지는 단위로 쪼게서 이해할 수 있습니다.예를 들어, “스마일게이트” 의 경우, “스마일” 과, 문을 의미하는 “게이트”로 이해할 수 있겠죠.이렇게 자연어를 쪼게는 행위를…
[AI센터 한대웅] 스타쉽 엔터프라이즈가 등장하는 Star Trek은 1965년을 시작으로 수많은 드라마와 영화를 통하여 인류의 영역을 수십억 광년의 우주로 확장시킨 SF 대작이다. 드라마 속에서는 1960년대 부터 인공지능 기술을 활용하여 미지의 우주로…
[생성지능개발팀 유희조] Open AI의 GPT-3 발표 이후 ‘더 큰 언어모델’ 라는 형태의 경쟁은 하나의 패러다임이 되었습니다. Nvidia, Microsoft, Google 등의 해외 기업 뿐만 아니라 국내에서도 네이버, LG 등의 기업들이 지속적으로…
[가상인간연구팀 황준선] TPU 소개 TPU(Tensor Processing Unit)는 Google에서 발표한 텐서 연산에 특화된 하드웨어입니다. TPU는 인공지능 모델을 학습시킬 때 필요한 행렬 곱 연산을 가속화하여 기존 GPU에서 학습시킬 때보다 더 빠른 학습…
[AI센터 권은지] 비대면 소통 방식이 일상화되며 직장인의 근무 형태는 변화하였습니다. 원격 근무는 이미 하나의 표준으로 자리 잡게 되었으며 많은 기업이 효율성을 유지하는 하이브리드 근무 모델을 모색하고 있습니다. 글로벌 IT기업들은 직원…
[분석지능개발팀 박효주] DeepMind가 경쟁 프로그래밍 대회에서 사용 가능한 수준의 프로그래밍이 가능한 AlphaCode를 공개했습니다. AlphaCode는 Transformer 기반 언어 모델을 사용하여 대량의 코드들을 생성한 뒤 가장 적합한 코드를 필터링해서 사용하는 방식으로 프로그래밍합니다.…
[생성지능개발팀 한현준] 포즈 추정 모델의 발전 RGB 이미지만으로 포즈를 인식하는 모델은 지난날에 비해 비약적인 발전을 했습니다. 인식의 정확도는 많이 높아졌으며, 인식의 신뢰도가 높아짐으로 다양한 응용 기술이 개발 및 연구 되고…
[행동지능연구팀 이정우] 바둑과 같이 경우의 수가 매우 많은 복잡한 게임에서 알파고는 최고 수준의 프로기사를 넘어서는 모습을 보여줬습니다. 알파고 이후에 진행 된 프로젝트인 알파스타, OpenAI Five에서는 실시간 전략게임에서 자원을 수집하고, 활용하고,…
[분석지능개발팀 이현정] 마이크로소프트(Microsoft)가 노코드(no-code) 기반의 AI가 작성한 프로그램 코드를 검사하는 도구 ‘직소(Jigsaw)’를 발표했습니다. 노코드란 간단한 사용자 인터페이스 방식의 틀을 이용해서 복잡하고 어려운 코딩 과정 없이 어플리케이션과 응용 프로그램을 개발 및…
[가상인간연구팀 전동준] 요즘은 대화 모델이 외모를 가진 가상 인간으로 진화하고 있는데요. 다양한 연구와 시도들을 어떤 식으로 결합하고 확장할 수 있을지 맛보기 위해서 대화 모델에 3D 가상 인간의 외모를 붙인 튜토리얼을…
[생성지능개발팀 정택현] ㅤ “AI 기술이 창작활동을 지원하게 되면 컨텐츠 제작, 가상인간 등 다양한 분야에서 앞으로 어떠한 변화를 이끌어 낼 수 있을까?” “로스트아크, 크로스파이어 등 스마일게이트의 인기 IP 캐릭터를 AI 기술을…
[가상인간연구팀 송지현] 최근 NVIDIA 연구팀은 Showcased in a sessio at NVIDIA GTC 에서 가상 세계를 위한 아바타를 생성하거나 또는 장면을 생성하고, 화상 회의 참가자와 그들의 환경을 3D로 캡처하거나, 3D 디지털 map을…
[분석지능개발팀 임창대] Edge AI는 Edge computing 에서 시작된 것으로 사용자의 디바이스에서 인공지능 알고리즘을 처리하는 것을 말합니다. IoT, 웨어러블 디바이스, 자율주행과 같은 산업이 발달함에 따라 인공지능에서 사용되는 데이터는 데이터를 생성하는 센서…
[행동지능연구팀 최현우]어렸을 때 읽었던 책 중에 아직까지도 기억에 남는 소설 중 하나인 <사람들이 모두 미쳤다고 말한 외로운 수학 천재 이야기>에서는, 아직도 풀리지 않은 수학계의 난제 중 하나인 ‘골드바흐의 추측’을 다루고…
[가상인간연구팀 심홍매] 이미지 합성에서 이미지의 얽힘(entanglement)문제를 푸는 건 아주 중요하고 어려운 문제입니다. 예를 들어 사람의 얼굴에 있는 모든 수염을 자동으로 제거하거나, 혹은 완벽하게 수염을 붙히는 경우에도 수염과 얼굴 사이에는 일종의…
[AI센터 한대웅] “패러다임 시프트” 라는 단어의 사전적인 의미는 어떤 문제나 현상을 바라보는 전제나 접근 방법에 대한 근본적인 변화 혹은 인식의 전환을 의미합니다. 사회 문화적인 관점에서는 시민 계급이 절대 왕정에 저항하여…
[생성지능개발팀 유희조] AI는 근 10년간 다양한 업종에서 영향을 끼치고 있으며 과거의 매우 단순한 반복작업을 대체하는 것에서 그치지 않고 이미 예술에 까지 그 영역을 확장하고 있습니다. 컨셉에 맞춰 새로운 음악을 작곡하는…
[가상인간연구팀 황준선] NVIDIA NeMo는 간단한 Python 인터페이스를 사용하여 GPU 가속 음성 및 자연어 이해 모델을 구축, training 및 fine-tuning하기 위한 오픈소스 프레임워크입니다. NeMo를 활용하면 실시간 자동 음성 인식, 자연어 처리,…
[분석지능개발팀 박효주] 작년 12월 초, Meta에서 AI 기반 모바일 프로토타입 제작이 가능한 PyTorch Live를 출시했다. 이제는 안드로이드, iOS 개발을 해본 적 없어도 모바일 환경에 AI 프로토타입을 만들고 적용해볼 수 있을지…
[생성지능개발팀 조원] 인간의 관절이나 자세를 localize하는 human pose estimation은 computer vision 분야의 중요한 task중 하나로서 오랫동안 발전해 왔습니다. 과거에는 사람의 pose data를 얻기 위해서는 사람이 직접 motion capture 장비를 입거나…
[서비스개발팀 임용택] 2015년 6월, 미국 브루클린의 한 흑인 프로그래머는 여자친구와 찍은 사진을 보려던 중 깜짝 놀랄 일을 경험합니다. 구글 포토에 본인들의 사진이 “고릴라” 로 오토 태깅된 것을 보았기 때문입니다. 구글은…
[선행연구팀 이정우] 현실적인 캐릭터 움직임은 User에게 게임의 재미를 극대화 시킬 수 있는 요소로 작용 합니다. EA Sports에서는 FIFA 22에 새롭고 혁신적인 게임플레이를 위해 HyperMotion 기술을 적용했습니다. 최고 수준 축구선수들의 모션…
[서비스개발팀 권은지] 올해 CES(Consumer Electronics Show) 2022는 미국 라스베이거스에서 2년 만에 오프라인으로 재개되었습니다. 한국정보통신기술산업협회(KiCTA)에 따르면 전 세계에서 2200여곳의 기업이 참여하였으며 이중 미국 기업이 1300여곳으로 가장 많았고, 한국 기업은 약 500여곳으로…
[생성지능개발팀 김성현]인간은 세상을 학습할 때, 다양한 감각을 동시에 이용하며 학습합니다.그리고 모든 감각은, 이를 감지하는 신경세포(neuron)의 발화(spike)로 변형되어 [1,0] 의 신호로 뇌로 전달됩니다. 예를 들어, 물체를 만지지 않았을 때는 세포의 발화가…
[서비스개발팀 한현준] 서론 사람들은 AI 스피커에서 난청 장애가 있는 사람들을 위한 도구 개발에 이르기까지 광범위한 음성 인식 및 이해 작업에 AI를 이용합니다. 그러나 이러한 음성 이해 시스템은 일상 상황에서 종종…
[서비스개발팀 한현준] 최근 엔비디아에서 AI 워크플로, 3D 디자인 협업 및 시뮬레이션 플랫폼 ‘Omniverse’를 RTX 제품을 사용하는 개인 크리에이터와 아티스트에게 무료로 제공한다고 발표했습니다.엔비디아 뿐만 아니라 메타(舊 페이스북)의 ‘Spark AR’, 틱톡으로 유명한…
[선행연구팀 정택현] 가끔, 아이들은 우리의 상상력을 뛰어넘는 놀랍고 창의적인 캐릭터들을 그려내곤 합니다. 이러한 아이들의 그림을 이해하기 위해서는 우리의 상식과는 조금 다른 이해방법이 필요합니다. 아이들의 그림을 살펴보면, 추상적이고 공상적인 방식으로 구성되는…
[서비스개발팀 이현정] 지난 2019년 12월 이후부터 현재까지 인류는 팬데믹 상황에 처해 있고, 아직도 진행 중이며 끝날 줄 모르고 이어져오고 있다.오랜 팬데믹 상황으로 사람들의 이동이 제한되고, 사람과 사람과의 물리적 거리를 제제하여…
[융합연구팀 전동준] “어제 홈스파 3편 보고 왔어요” 라고 누군가가 말한다면 여러가지 반응이 나올 수 있습니다. ‘홈스파’가 마블에서 제작한 스파이더맨 영화 시리즈의 약칭인 것을 모른다면 인터넷에 ‘홈스파’ 라는 키워드를 검색하여 무엇인지…
[서비스개발팀 권은지] 영상 분할(Semantic Segmentation) 기술은 컴퓨터 비전 분야에서 가장 핵심적인 요소 중 하나이며, 이미지 내의 픽셀별로 해당 픽셀이 어디에 속하는지 분류하는 문제입니다. 이 분야는 실생활에서 의료, 드론, 교통 분야에…
[융합연구팀 최현우] 여러분은 감정이라는 단어를 들으면 어떤 것들이 떠오르시나요? 예전부터 희로애락 (기쁨, 분노, 슬픔, 즐거움) 이라는 개념이 있었고, 감정 연구에 대해 조금 관심을 가지셨던 분이라면 Paul Ekman의 6가지 기본 감정…
[서비스개발팀 임창대] 높은 정확도를 가진 딥러닝 모델 개발에는 긴 시간이 소요됩니다. 모델 훈련과 미세 조정, 최적화를 거치며 만족하는 모델을 만들기까지 수 주일 또는 수 개월이 걸릴 수 있습니다. NVIDIA NGC…
[융합연구팀 송지현] Microsoft는 기존의 시각데이터(image and video)를 활용하여 새로운 시각데이터를 생성하고 조작할 수 있는 multimodal pretrained model인 NUWA를 발표했습니다. 아래 그림은 8개의 다운스트림에 대한 시각적 합성 기술을 연구한 결과입니다. 서로…
[융합연구팀 심홍매] 2019년에 열린 GTC 컨퍼런스에서 Nvidia는 GAN(generative adversarial networks)을 기반으로 대략적인 스케치를 사실적인 이미지로 바꿔주는 실시간 AI 페인팅 애플리케이션인 GauGAN 을 발표하였습니다. 그로부터 2년이 지난 최근 NVIDIA는 GauGAN의 후속…
[서비스개발팀 임창대] ML(Machine Learning) 은 최근 몇 년 동안 점점 더 많은 관심을 받아 이제 주류로 부상한 IT 주제 중 하나 입니다.ML 모델 학습은 API와 tool 이 너무 발전되어 더…
[선행연구팀 유희조] 최근 Google, Microsoft와 같은 월드 클래스의 빅테크 기업, 그리고 한국 내에 있는 많은 IT 업체들은 메타버스가 미래이며 메타버스 구축하겠다는 포부를 끊임없이 발표하고 있습니다. 그 중에 가장 큰 화두가…
[서비스개발팀 권은지] 랜선 여행이란 인터넷 연결선을 뜻하는 랜(Lan), 선(Cable) 그리고 여행(Trip)을 결합하여 인터넷으로 여행을 한다는 의미의 신조어입니다. 최근 국가 간 이동 제한이 완화되고 있지만 국제 관광산업은 여전히 부진한 상황인 것으로…
[선행연구팀 이정우] 28일 페이스북은 사명을 ‘메타’로 변경하면서, 메타버스의 성공이 회사의 목표임을 다시 한번 강하게 보여줬습니다. 단순히 계획이 아님을 보여주듯이, 메타의 자회사 오큘러스에서 신형 VR 헤드셋 ‘캄브리아’를 공개했습니다. VR 헤드셋은 메타버스…
[서비스개발팀 김병인] 네이버가 웹툰을 기반으로한 인공지능 채색 사이트를 오픈 했습니다. 밝혀진 정보에 따르면 네이버웹툰이 3년동안 연구,개발한 기술들을 접목하여 만들어졌다고 하는데 딥러닝 기반의 30만장의 데이터셋을 활용해 인물의 얼굴, 신체, 배경등 다양한…
[융합연구팀 전동준] 우리가 일반적으로 생각했었던 “AI 같은”의 의미는 사람과 대비되는 기계의 느낌이 강했습니다. 감정이 느껴지지 않고, 말투도 딱딱한 사람들을 “AI 같은 사람” 이라고 많이 표현했었습니다.
[선행연구팀 김성현] 자연어처리 분야에서 pre-trained language model (PLM) 전략이 훌륭한 성공을 거두자, 더 많은 데이터를 이용해 더 큰 PLM을 개발하는 것이 하나의 트랜드로 자리잡았습니다.그리고 얼마 전, NVIDIA에서는 GPT-3의 무려 4배…
[서비스개발팀 한현준] 챗봇의 고민 OpenAI의 GPT-3, Google의 Meena, Facebook의 Blender 등 대형 자연어 처리 AI 모델은 인간의 언어를 실제 사람과 구별하기 힘들 정도로 모방했습니다. 그 기반엔 대형 웹사이트를 크롤링한 방대한…
[Convergence Research Team Ji-Hyun Song] LinkedIn 搜索系统的深度自然语言处理 我最近在学习 Rasa 开源时感受到了聊天机器人系统的结构和优化设计的应用效果。即使在其中,意图和实体……
【服务开发团队韩贤俊】什么是AutoML AutoML字面意思是Auto + ML,一个自动化机器学习模型开发任务的过程。通过自动化在模型的研究和开发中花费大量时间的过程……
【Convergence Research Team Shim Hongmae Shim】如果要选出2020年NLP领域的前10个关键词,当然是GPT-3(Language Models are few shot Learners)排名。时至今日,GPT-3庞大的参数量和出色的性能仍然在NLP领域......
人工智能可以变成人吗? (专访Smilegate.AI服务开发团队经理Eunji Kwon)AI音箱播放符合我当天心情的音乐。自动驾驶汽车将自己移动到目的地。 AI偶像和我说唱跳舞...
【服务开发组金炳仁】特斯拉最近决定发布北美销售的Model 3和Model Y的雷达。由于激光雷达已经被排除在外,我们宣布自动驾驶将仅通过汽车上的摄像头和人工智能技术实现。到目前为止,有两个传感器:激光雷达和雷达……
[前研究团队,Jeongwoo Lee] 在 2019 年举办的 Tesla Autonomy Day 上,介绍了技术和方向,重点是“自动驾驶”技术。今年,作为特斯拉AI日的名称,今年,众所周知的全视觉自动驾驶人工智能,符合“人工智能”的技术主题……
【前期研究团队Seonghyun Kim】在自然语言中引起极大轰动的因果语言模型(例如GPT-3),现在已经被应用到自然语言之外的编程语言! 🤗 去年六月,Github 和 OpenAI 联合开发的 Copilot 发布了。Copilot 就像自然语言中的 GPT-3,给定代码……
[先前的研究团队 Hyunwoo Choi] 去年 5 月,DeepMind 发表了一篇名为“奖励就足够了”的强化学习论文。作者给出了“一只试图增加饱腹感的松鼠”和“一个试图保持清洁的厨房机器人”的例子,如果定义了适当的奖励,则与智力相关(认知、...
[Service Development Team Jeon Jeon-jun] Facebook AI 于上个月 28 日推出了可在真实和虚拟环境中使用的机器人开发 Droidlet 平台。
[服务开发团队 Lim Chang-dae] 'Vertex AI' 在 5 月的 Google 开发者大会 IO 上亮相。 Vertex AI 是 Google Cloud 的一项托管云服务,它集成了 AutoML 和 AI Platform。
[Jihyun Song 前期研究团队] 对 Open Domain chatbot 感兴趣并接触 Blender 1.0 和 Meena 的论文已经有 2 年多了。当时,他们进行了长时间的持续对话,他们声称将来会克服,而且他们……
[服务开发团队 Hyeonjun Han] 介绍 Tensorflow 和 PyTorch 是最流行的机器学习库。开发 AI 服务的开发人员或研究模型的研究人员在开始时常常面临选择图书馆的困难。此外,随着库版本的上升......
[之前的研究团队,Jeongwoo Lee] 长期以来,我们一直在使用游戏(围棋、国际象棋、雅达利游戏等)来验证强化学习算法的性能。随着算法的发展,在强化学习领域,和其他图像、自然语言领域一样,有...
[优先研究团队 Seonghyun Kim] 正在开放许可下发布 GPT-3 模型的 Eleuther AI 团队最近发布了一个新的 GPT-3 模型,具有 6B(约 60 亿)参数。 (Link) 据说GPT-J-6B这个名字是因为使用了Mesh-tensorflow和JAX。训练数据大约是……
【服务开发组 Lim Chang-dae】在 DevOps 出现之前,每个公司都有自己的服务器,称为内部部署服务器,并且有单独的服务器管理员、开发人员和 QA。在这种情况下,如果无法连接服务,请购买实际的物理服务器,制作机架,并设置服务器......
[Service Development Team Jeon Jeon-jun] Unity 推出的 ML-Agents 是一款开源工具,可为游戏环境创建虚拟角色。您可以创建游戏环境,并通过强化学习等算法学习可以在环境中运行的NPC角色(Agents)。...
[先前的研究团队,Ji-Hyun Song] MIT 研究团队开发的 TadGAN 算法在通过分析时间序列数据来检测异常方面的性能比之前已知的模型具有更好的性能。目前,很多研究异常检测的公司都在
[服务开发团队,恩恩权(Eunji Kwon)]小时候,当我发挥想象力时,外太空机器人是最喜欢的材料。回顾过去,从动画片(Galaxy Railroad 999)到人工智能计算机的负责人,这些计算机将火车运送到最近发行的Humanoid电影,人工智能是媒体的重要组成部分...
[Lead Research Team Hongmae Shim] NAVER在25日举行的“ NAVER AI NOW”在线会议上首次展示了韩国首款“超大型AI” Hyper CLOVA,这是韩国自行开发的GPT-3。借助开放式AI GPT-3,很难使用英语以外的语言...
[服务开发团队Kim Byung-in]在Google I / O 2021上,展示了展示最新Google技术,Android,Web,AI,Chrome和其他技术,服务以及平台服务的活动。在众多技术中,最热门的话题是LaMDA(Google的语言…
[前研究团队Yoo Hee-jo]姿势估计是一种视觉处理技术,用于跟踪视频中字符的移动。提取并连接通常与面部标志相似的身体标志,以描述整个身体的姿势。大多数…
[服务开发团队Byungin Kim] MetaHuman Creator是Epic Games最近发布的一种数字化人类创作工具。它看起来类似于MMORPG游戏的角色创建,但是要实现这样的实时数字人非常困难,这是一项非常耗时的任务。
[Sung-Hyeon Kim前研究团队]最新的语言模型是使用大型语料库学习的。特别是,对于使用解码器神经网络的模型(例如GPT-2,BART和T5模型),可以通过重复采样下一个标记来生成自然语言。这是采样的方法...
近来,被应用于自然语言处理领域的变压器不仅被应用于文本,而且还被应用于图像,视频等各种数据,表现出优异的性能。但是,文本,图像和视频分别是1D,2D,3D…
当前在手机上运行的大多数装饰应用程序(例如Snow和Line Camera)以提取面部地标并覆盖先前创建的对象的形式运行。此外,近年来,各种图像处理技术(例如美容滤镜)...
Metaverse,这意味着虚拟环境中现实与连接的化身之间的所有形式的交互,最近引起了各行各业的关注。特别是从Corona 19开始的全球非面对面环境极大地增加了对metaverse的需求...
OpenAI的GPT-3是一种大型语言模型,参数计数高达175B。尽管GPT-3取得了令人惊讶的结果,但它不是开源的,因此,如果您要尝试它,可以尝试AI Dungeon(https://play.aidungeon.io/main/landing)或Philosopher AI(https:/ /philosopherai.com/)。)通过诸如...的网站
作为基于深度学习的图像生成方法,GAN产生了许多惊人的结果。特别是,由于潜在向量可以在学习后进行更改,因此有可能具有多种有意义的含义进行更改,因此潜在空间只是随机的...
有消息称,以基于深度学习的自然语言处理开源而闻名的Hugging Face吸引了$40M B系列投资。 Hugging Face Transformer可能是自然语言处理中最受欢迎的开源项目之一...
Tensorflow Lite是一个软件包,其中包含一些工具,这些工具允许使用Tensorflow训练的AI模型在移动设备上运行。据说它现在在超过40亿个设备上运行。基本上,训练后的模型将转换为Tensorflow Lite…
Jina由Jina.AI开源,是使用深度学习技术的多模式数据搜索引擎。它不仅实现了一些搜索功能,还包括可以轻松应用于服务的整个系统,而不仅仅是文本……
基于深度学习的最新AI技术正在诸如语音识别,语音合成,翻译,聊天机器人和智能工厂等各个领域中积极引入,但是在游戏领域中尚无全面应用的案例。斯普林格(Springer)出版的书…
Google Lyra是基于生成模型的一种新的语音压缩方法,现有的语音压缩方法极大地提高了原始声音质量,即获得透明质量大约需要8-16kbps,因此3kbps较低。
以其在各个领域的市场分析而闻名的IDC已发布了有关AI市场规模的预测。以下是相关链接:根据公告数据,预计2021年的AI市场规模约为$328B,并且直到2024年,它将继续以17.5%的复合年增长率...
Avatarify是一个将实时头像动画功能添加到各种视频通信程序(例如Zoom,Team,Hangout和Skype)的程序,并且是开源的。它以替换视频通信程序的摄像机输入的形式开发,并且该算法使用一阶运动模型。
DensePhrases是高丽大学的Jinjinuk Lee创建的一种开放域问答技术,已发表为题为“大规模学习短语的密集表示”的论文。这是该论文的链接:提出问题时,近600亿个Wikipedia段落中最合适的段落…
以其集成的自然语言处理程序包而闻名的HuggingFace增加了语音识别。以下是相关链接:具体来说,添加了由Facebook开发的Wav2Vec 2.0,Wav2Vec 2.0首先使用大量未标记的数据来进行无监督学习,并且非常…
通过单张照片创建3D模型的技术已经以MeInGame的名称公开。查看上传到公共存储库的结果,如果没有设计者的工作,它还不足以应用于服务,但是它将大大减少初始建模工作……
Paperswithcode提供有关AI,链接的开源和SOTA领域的各种论文的信息,并提供了3,000多个有用数据集的链接。其中,有851个文本数据集,仅限于韩语...
在Kakao Brain中,Pororo是一个能够响应各种自然语言任务的集成自然语言框架,已作为开源发布。 Pororo代表自然语言处理的神经模型平台,您可以将其视为与HuggingFace相似的目的。 Pororo ...
自从由多层卷积层组成的AlexNet问世以来,已有许多关于深度学习模型结构的研究。例如,Google Inception使用具有不同内核大小的卷积层,例如3×3、5×5和7×7…
随着深度学习模型的参数数量显着增加,训练所需的内存也随之增加。 OpenAI的GPT-2由1.5B参数组成,而Google的mT5也具有13B参数。另外,OpenAI的GPT-3的参数数量...
OpenAI发行的DALL-E是一种可以从自然语言文本生成图像的技术。以前,存在用于相同目的的技术,例如StackGAN和OP-GAN,但DALL-E的优势在于最终结果的质量非常出色,因为它是基于GPT-3(一种超大规模语言模型)制成的。
SuperGLUE是一项挑战,需要针对各种自然语言理解任务评估AI技术的性能。与现有的GLUE相比,它具有较高的难度,并且微软最近宣布的DeBERTa模型实现了SOTA(最先进)并进行了评估。
自从2012年开始认真学习深度学习以来,人工智能技术已经在许多领域超越了现有技术的性能。尽管环境有限,但2015年的Atari游戏,2016年的图像识别和Go,皮肤癌诊断和语音…
最近发布的官方版本的Scatterlab的“ Luda”(https://scatterlab.co.kr/)是一个基于数十亿KakaoTalk对话数据学习的开放域聊天机器人,任何人都可以通过Facebook Messenger进行聊天。被开发为ScatterLab首席执行官Jongyoon Kim在DEVIEW 2020上发布的视频是...
痴呆是一种大脑活动过多以至于干扰日常生活的现象,阿尔茨海默氏症是导致痴呆的最大原因之一,约占60%-80%。在史蒂文斯理工学院,阿尔茨海默氏症的病情...
KoChat是由Hyunwoong Ko发布的韩国开源聊天机器人框架。这是KoChat github存储库:在谈论聊天机器人时,人们通常只想到对话模型,但实际上,从产品的角度来看,它是聊天机器人,机器学习算法仅占其中的一小部分。