카카오브레인에서 다양한 자연어 태스크에 대응 가능한 통합된 형태의 자연어 프레임워크인 Pororo를 오픈소스로 공개했습니다. Pororo는 Platform Of neuRal mOdels for natuRal language prOcessing의 약자이며 HuggingFace와 유사한 목적이라고 생각할 수 있습니다. Pororo는 한국어 태스크들에 대해 좀 더 최적화 되어 있을 뿐 아니라 음성 인식 등 오디오 처리도 함께 지원한다는 장점이 있습니다.
다음은 Pororo를 사용하여 간단하게 한국어 MRC 태스크를 수행하는 사례입니다. [Pororo github에서 발췌]
Pororo의 기술 문서(https://kakaobrain.github.io/pororo/)에 따르면 현재 포함된 주요 태스크들은 다음과 같습니다.
- Text Classification
- Automated Essay Scoring
- Age Suitability Prediction
- Natural Language Inference
- Paraphrase Identification
- Review Scoring
- Semantic Textual Similarity
- Sentence Embedding
- Sentiment Analysis
- Zero-shot Topic Classification
- Sequence Tagging
- Contextualized Embedding
- Dependency Parsing
- Fill-in-the-blank
- Machine Reading Comprehension
- Named Entity Recognition
- Part-of-Speech Tagging
- Semantic Role Labeling
- Seq2Seq
- Constituency Parsing
- Grammatical Error Correction
- Grapheme-to-Phoneme
- Phoneme-to-Grapheme
- Machine Translation
- Paraphrase Generation
- Question Generation
- Text Summarization
- Word Sense Disambiguation
- Misc
- Automatic Speech Recognition
- Image Captioning
- Collocation
- Lemmatization
- Morphological Inflection
- Optical Character Recognition
- Speech Synthesis
- Tokenization
- Word Translation
- Word Embedding
각각을 모두 테스트 해 보지는 못했지만 매우 다양한 태스크들이 포함되어 있어서 연구 측면에서 여러 모로 도움이 많이 될 것 같습니다. 그간 한국어 자연어 처리를 위해 개발된 다양한 오픈소스 프로젝트들이 있었지만, 여러 태스크들을 하나로 통합하여 구성한 프레임워크는 거의 없었다고 생각하는데, 이번 Pororo의 공개로 이런 부분이 상당히 해소되지 않았나 생각해 봅니다. 앞으로 Pororo 자체의 지속적인 성능 개선은 물론 이에 기반한 3rd party 오픈 소스들도 많이 나와주기를 바라봅니다.
다음은 Pororo github 링크입니다:
kakaobrain/pororo
PORORO: Platform Of neuRal mOdels for natuRal language prOcessing – kakaobrain/pororo