InteractionCodeData GPT-Neo - 오픈소스 GPT-3 프로젝트

GPT-Neo – 오픈소스 GPT-3 프로젝트

OpenAI의 GPT-3는 175B에 달하는 파라미터 수를 가지는 거대 언어 모델입니다. GPT-3가 보여주는 놀라운 결과물들에도 불구하고 오픈소스로 공개되어 있지 않기 때문에 사용해 보려면 AI Dungeon(https://play.aidungeon.io/main/landing)이나 Philosopher AI(https://philosopherai.com/)와 같은 사이트를 통해야 합니다.…

InteractionData GPT-Neo - 오픈소스 GPT-3 프로젝트

PapersWithCode의 한국어 데이터셋

AI 분야의 다양한 논문들 및 연계된 오픈 소스, 그리고 SOTA에 대한 정보를 제공하는 paperswithcode에서는 3천개가 넘는 유용한 데이터셋 링크를 함께 제공하고 있습니다. 이 중 텍스트에 대한 데이터셋은 851종이며, 한국어로 한정할…

Data GPT-Neo - 오픈소스 GPT-3 프로젝트

Ubuntu Dialog Corpus

인간이 가상 에이전트와 자연스러운 느낌의 대화를 할 수 있는 대화 시스템을 구축하는 것은 자연어 처리에서 어려운 작업이며 많은 지속적인 연구의 기반이 됩니다. Ubuntu Dialogue Corpus는 다양한 Ubuntu 관련 문제에 대한…

InteractionData GPT-Neo - 오픈소스 GPT-3 프로젝트

한국어 욕설 데이터

조준희님이 수집하여 라벨링한 한국어 욕설 데이터 세트를 공유합니다. 여러 커뮤니티에서 수집된 것으로서, 실세계 데이터에 대한 평가용으로 적합한 것 같습니다. 아래는 데이터 세트에 대한 설명입니다: Data Description 문장의 욕설 여부를 분류한…

Data GPT-Neo - 오픈소스 GPT-3 프로젝트

MELD: 멀티모달 감성 데이터

Multimodal EmotionLines Dataset(MELD)은 감성 라벨링이 되어 있는 대화 데이터 세트인 EmotionLines를 멀티모달로 확장한 것입니다. MELD는 EmotionLines에서 사용할 수 있는 것과 동일한 대화 인스턴스를 포함하지만 텍스트와 함께 오디오 및 시각적 양식도…

InteractionData GPT-Neo - 오픈소스 GPT-3 프로젝트

HuggingFace Datasets 1.0

NLP Dataset과 Evaluation metric을 쉽게 사용할 수 있게 해 주는 Huggingface Datasets 라이브러리의 첫 번째 stable version 1.0이 공개되었습니다. 현재 약 100개의 Dataset과 각 Dataset에 맞는 Evaluation metric(약 10개)을 지원합니다.…

Data GPT-Neo - 오픈소스 GPT-3 프로젝트

국립국어원의 AI 학습용 한국어 데이터

국립국어원이 인공지능 학습용 한국어 자료를 대규모(13종 18억 어절)로 공개했습니다. 저작권 문제를 해결하여 구축한 것이며 ‘모두의 말뭉치’ 사이트에서 온라인 약정서를 작성, 승인을 받으면 누구나 파일을 내려받아 사용할 수 있다고 합니다. 이번에…