Ubuntu Dialog Corpus

인간이 가상 에이전트와 자연스러운 느낌의 대화를 할 수 있는 대화 시스템을 구축하는 것은 자연어 처리에서 어려운 작업이며 많은 지속적인 연구의 기반이 됩니다.

Ubuntu Dialogue Corpus는 다양한 Ubuntu 관련 문제에 대한 기술 지원을 받는 데 사용되는 Ubuntu 채팅 로그에서 추출된 거의 100만 개의 2인 대화로 구성됩니다. 대화는 각각 평균 8회의 턴, 최소 3회 턴입니다. 모든 대화는 텍스트 형식 (오디오 아님)으로 수행됩니다.

전체 데이터 세트에는 930,000개의 대화와 100,000,000개 이상의 단어가 포함되어 있으며 여기에서 사용할 수 있습니다. 이 데이터 세트에는 .csv파일에 분산된 이 데이터 세트의 샘플이 포함되어 있습니다. 이 데이터 세트에는 2,600만 번에 걸쳐 펼쳐진 2억 6,900만 단어 이상의 텍스트가 포함되어 있습니다.

folder: 대화가 나오는 폴더입니다. 각 파일에는 한 폴더의 대화가 포함되어 있습니다.
dialogueID: 특정 대화의 ID번호. 대화 ID는 여러 폴더에서 재사용됩니다.
date: 대화가 전송된 시간의 타임 스탬프입니다.
from: 대화를 보낸 사용자
to: 답장한 사용자. 대화의 첫번째 턴에서는 이 필드는 비어 있습니다.
text: 큰 따옴표 (“)로 구분 된 대화의 텍스트. 줄 바꿈 (\n)이 제거되었습니다.

고객 지원(CS) 분야에서는 챗봇이 널리 사용되고 있는데, 최근에는 규칙 기반의 한정적 대화를 넘어선 자연스러운 대화 기술을 접목하려는 시도가 많이 이루어지고 있습니다. 한국어로 되어 있는 것은 아니지만 관련한 연구 분야의 기술을 개발하는데 도움이 될 수 있을 것 같습니다. 다음은 Kaggle에 공개된 데이터 링크입니다:

Ubuntu Dialogue Corpus

26 million turns from natural two-person dialogues

Related Posts