语音档案| Smilegate.AI

可能312024

디퓨전 말고 CFM 들어봤니?

인공지능의 발전은 우리의 삶에 큰 변화를 가져왔습니다. 특히 generative 모델은 이러한 변화의 중심에 서 있습니다. 디퓨전을 기반으로 한 생성 모델이 이미지, 오디오 생성 분야에 활용되고 있으며, 다양한 성과를 보여 주고…

四月152024

言语趋势

TTS 알아보기

言语, 趋势

소개글 [선행AI기술팀 신영준] 과거에 비해 인공지능 기술은 놀라운 정도로 발전을 거듭하여, 이제는 비전문가도 어느 정도 노력만 한다면 쉽게 원하는 목적성을 띈 모델을 만들 수 있게 되었다. 그러나 이미지 또는 자연어처리에…

十月252022

自然语言处理言语趋势

STT + LM + TTS 세 개나 개발해야 된다고? 난 AudioLM 하나로 끝!

自然语言处理, 言语, 趋势

[가상생명연구팀 김석겸] (대표 이미지는 stable diffusion 을 통해 생성되었습니다.) 음성을 입력으로 받아서 텍스트 생성의 결과를 음성으로 받고 싶을 경우, 기존에는 음성을 텍스트로 바꾸는 모델(Speech To Text, STT), 텍스트를 처리하는 언어…

可能112022

言语趋势

Bring your own Desk

言语, 趋势

[AI센터 권은지] 비대면 소통 방식이 일상화되며 직장인의 근무 형태는 변화하였습니다. 원격 근무는 이미 하나의 표준으로 자리 잡게 되었으며 많은 기업이 효율성을 유지하는 하이브리드 근무 모델을 모색하고 있습니다. 글로벌 IT기업들은 직원…

二月252022

自然语言处理言语码

An Open Source Framework for Conversational AI: NVIDIA NeMo

自然语言处理, 言语, 码

[가상인간연구팀 황준선] NVIDIA NeMo는 간단한 Python 인터페이스를 사용하여 GPU 가속 음성 및 자연어 이해 모델을 구축, training 및 fine-tuning하기 위한 오픈소스 프레임워크입니다. NeMo를 활용하면 실시간 자동 음성 인식, 자연어 처리,…

一月232022

言语趋势

현실로 다가오는 가상세계 CES 2022

言语, 趋势

[서비스개발팀 권은지] 올해 CES(Consumer Electronics Show) 2022는 미국 라스베이거스에서 2년 만에 오프라인으로 재개되었습니다. 한국정보통신기술산업협회(KiCTA)에 따르면 전 세계에서 2200여곳의 기업이 참여하였으며 이중 미국 기업이 1300여곳으로 가장 많았고, 한국 기업은 약 500여곳으로…

一月232022

自然语言处理视觉效果言语趋势

Data2vec: 다양한 modality의 학습을 위한 프레임워크

自然语言处理, 视觉效果, 言语, 趋势

[생성지능개발팀 김성현]인간은 세상을 학습할 때, 다양한 감각을 동시에 이용하며 학습합니다.그리고 모든 감각은, 이를 감지하는 신경세포(neuron)의 발화(spike)로 변형되어 [1,0] 의 신호로 뇌로 전달됩니다. 예를 들어, 물체를 만지지 않았을 때는 세포의 발화가…

一月132022

自然语言处理言语趋势