Speech

Nov282024

G-STAR 2024 게임 속의 AI 기술

[Creative AI기술팀 정재철] 대한민국에서 가장 큰 게임 쇼 G-STAR 2024가 부산 BEXCO에서 11월 14일 부터 17일 까지 진행됬습니다. G-STAR 2024에 참가한 여러 게임 사의 게임들 가운데 AI 기술이 적용된 부분에…

May312024

Speech Trend

디퓨전 말고 CFM 들어봤니?

Speech, Trend

인공지능의 발전은 우리의 삶에 큰 변화를 가져왔습니다. 특히 generative 모델은 이러한 변화의 중심에 서 있습니다. 디퓨전을 기반으로 한 생성 모델이 이미지, 오디오 생성 분야에 활용되고 있으며, 다양한 성과를 보여 주고…

Apr152024

Speech Trend

TTS 알아보기

Speech, Trend

소개글 [선행AI기술팀 신영준] 과거에 비해 인공지능 기술은 놀라운 정도로 발전을 거듭하여, 이제는 비전문가도 어느 정도 노력만 한다면 쉽게 원하는 목적성을 띈 모델을 만들 수 있게 되었다. 그러나 이미지 또는 자연어처리에…

Oct252022

NLP Speech Trend

STT + LM + TTS 세 개나 개발해야 된다고? 난 AudioLM 하나로 끝!

NLP, Speech, Trend

[가상생명연구팀 김석겸] (대표 이미지는 stable diffusion 을 통해 생성되었습니다.) 음성을 입력으로 받아서 텍스트 생성의 결과를 음성으로 받고 싶을 경우, 기존에는 음성을 텍스트로 바꾸는 모델(Speech To Text, STT), 텍스트를 처리하는 언어…

May112022

Speech Trend

Bring your own Desk

Speech, Trend

[AI센터 권은지] 비대면 소통 방식이 일상화되며 직장인의 근무 형태는 변화하였습니다. 원격 근무는 이미 하나의 표준으로 자리 잡게 되었으며 많은 기업이 효율성을 유지하는 하이브리드 근무 모델을 모색하고 있습니다. 글로벌 IT기업들은 직원…

Feb252022

NLP Speech Code

An Open Source Framework for Conversational AI: NVIDIA NeMo

NLP, Speech, Code

[가상인간연구팀 황준선] NVIDIA NeMo는 간단한 Python 인터페이스를 사용하여 GPU 가속 음성 및 자연어 이해 모델을 구축, training 및 fine-tuning하기 위한 오픈소스 프레임워크입니다. NeMo를 활용하면 실시간 자동 음성 인식, 자연어 처리,…

Jan232022

Speech Trend

현실로 다가오는 가상세계 CES 2022

Speech, Trend

[서비스개발팀 권은지] 올해 CES(Consumer Electronics Show) 2022는 미국 라스베이거스에서 2년 만에 오프라인으로 재개되었습니다. 한국정보통신기술산업협회(KiCTA)에 따르면 전 세계에서 2200여곳의 기업이 참여하였으며 이중 미국 기업이 1300여곳으로 가장 많았고, 한국 기업은 약 500여곳으로…

Jan232022

NLP Visual Speech Trend

Data2vec: 다양한 modality의 학습을 위한 프레임워크

NLP, Visual, Speech, Trend

[생성지능개발팀 김성현]인간은 세상을 학습할 때, 다양한 감각을 동시에 이용하며 학습합니다.그리고 모든 감각은, 이를 감지하는 신경세포(neuron)의 발화(spike)로 변형되어 [1,0] 의 신호로 뇌로 전달됩니다. 예를 들어, 물체를 만지지 않았을 때는 세포의 발화가…

Jan132022

NLP Speech Trend

보고 듣는 것으로 말을 이해하는 AI

NLP, Speech, Trend

[서비스개발팀 한현준] 서론 사람들은 AI 스피커에서 난청 장애가 있는 사람들을 위한 도구 개발에 이르기까지 광범위한 음성 인식 및 이해 작업에 AI를 이용합니다. 그러나 이러한 음성 이해 시스템은 일상 상황에서 종종…