통합 자연어 처리 패키지로 유명한 HuggingFace에 음성 인식 기능이 추가되었습니다. 다음은 관련 링크입니다:
facebook/wav2vec2-base-960h · Hugging Face
We’re on a journey to solve and democratize artificial intelligence through natural language.
구체적으로 Facebook이 개발한 Wav2Vec 2.0이 추가되었는데, Wav2Vec 2.0은 대량의 라벨링 없는 데이터로 unsupervised learning을 먼저 하고, 매우 소량의 라벨링된 데이터만을 사용하는 학습법으로 유명합니다. 다음은 Wav2Vec 2.0에 대한 소개 글입니다:
Wav2Vec 2.0 공개 – 10분 음성으로 ASR 만들기
53,000시간의 라벨링 없는 데이터로 representation training을 한 후, 10분 분량의 라벨링 된 데이터만으로 음성인식기를 만들어낸다고 해서 화제가 되었던 Facebook의 wav2vec 2.0에 대한 pre-trained model이 공개가 되었습니다. Representation model에 no fine-tuning, 10분, 100시간, 960시간 fine-tuning을 한 버전이 각각 릴리즈 되었습니다. 아마도 주요 관심사 중 하나는 한국어 적용일텐데요, 대규모의 데이터 없이도 우수한 성능이 나온다고 하니 기대가 많이…
최근 카카오브레인에서 공개한 Pororo도 자연어 태스크와 음성 인식 태스크를 동시에 지원하는 통합 패키지입니다. 다음은 Pororo에 대한 소개 글입니다:
KakaoBrain의 Pororo – 통합 자연어 프레임워크
카카오브레인에서 다양한 자연어 태스크에 대응 가능한 통합된 형태의 자연어 프레임워크인 Pororo를 오픈소스로 공개했습니다. Pororo는 Platform Of neuRal mOdels for natuRal language prOcessing의 약자이며 HuggingFace와 유사한 목적이라고 생각할 수 있습니다. Pororo는 한국어 태스크들에 대해 좀 더 최적화 되어 있을 뿐 아니라 음성 인식 등 오디오 처리도 함께 지원한다는 장점이 있습니다. 다음은 Pororo를 사용하여 간단하게 한국어 MRC…
얼마 전 transformer를 기반으로 이미지 인식 및 예측 태스크를 수행한 사례들이 발표되었고, 향후 자연어와 이미지 처리 방식이 통합되는 것이 아닌가 하는 예측이 나온 적이 있습니다. 개인적으로는 자연어와 이미지 보다 자연어와 음성 간 유사성이 훨씬 더 높지 않나 생각합니다. 자연어와 음성은 형태가 텍스트와 오디오라는 차이만 있을 뿐 결국 언어의 시계열 표현 방법이라는 점에서 공통 요소가 많습니다. (written language vs spoken language) 따라서, 기술적으로 융합되어 가는 것이 자연스러운 선택이 아닐까 하고 생각해 봅니다.