멀티모달 Q&A – Visual Dialog Task
Visual Dialog task는 질의 응답으로 이루어지는 Q&A task에 이미지를 추가한 멀티모달 task입니다. 예를 들어 흰색 고양이와 검은색 강아지가 함께 있는 사진을 주고 “고양이 옆 동물은 무슨 색이야?”라고 물어보면 “검은색”하고 대답하는…
Visual Dialog task는 질의 응답으로 이루어지는 Q&A task에 이미지를 추가한 멀티모달 task입니다. 예를 들어 흰색 고양이와 검은색 강아지가 함께 있는 사진을 주고 “고양이 옆 동물은 무슨 색이야?”라고 물어보면 “검은색”하고 대답하는…
영상이나 이미지로부터 감정을 인식하는 시도들은 다양하게 있어 왔습니다. 클라우드 API에서도 제공되고 SNS에서도 화제가 될 만큼 (기쁨 95% 등등) 많이 알려진 응용 분야입니다. 아래 링크한 논문은 영상으로부터 감정을 인식함에 있어서, 얼굴…
Text-to-SQL은 자연어를 SQL로 자동 변환하는 Task입니다. 하단에 공유한 글은 Microsoft 소속의 Aerin Kim이 작성한 글인데, Text-to-SQL에 대해서 잘 정리되어 있습니다. 세상에는 수 많은 데이터들이 Relational Database로 구축되어 있고, 이 Database에서…
(자율주행차 등에 사용될) 도로 상황 인식 연구를 위해 만들어진 데이터셋 DriveSeg입니다. 동영상의 각 프레임에 대해, 이미지 전체를 pixel-by-pixel로 semantic labeling 한 것입니다. Label은 “vehicle, pedestrian, road, sidewalk, bicycle, motorcycle, building,…
현재까지 제안된 많은 MRC 모델들이 다양한 Task와 Dataset에서 인간의 능력을 넘어선 평가값을 보여주고 있지만, 주어진 context에 대해서 인간보다 더 잘 이해하는 것인가?라는 질문을 받는다면 쉽게 YES라고 말하기 어렵다고 생각합니다. 우선,…
IBM의 감성 로봇 나오미(Nao-mi)에 대한 영상입니다. [내용 요약] 어렵게 쌓은 탑을 무너뜨리라고 요구하는 사람과 하기 싫다고 말하는 로봇. 계속적인 요구에 로봇은 울다가 결국 무너뜨립니다. 영상을 보면서 가슴이 많이 아팠습니다. 마음을…
인간의 감정 인지나 표현은 복합적인 것이 많은데 (예: 화내는 감정은 표정, 목소리, 언어에 모두 영향을 줌) 오디오-비디오가 함께 묶여 있으면서 감성 라벨링이 되어 있는 오픈 데이터셋을 하나 소개합니다. The Ryerson…
최근 재미있게 읽은 인간의 능력과 신경망의 관계에 대한 글입니다. 글에도 나오지만 인간의 뇌와 신경망의 동작 방식은 유사한 구석이 있지만 같을 필요는 없다고 봅니다. 헤엄치기 위해 물고기를 따라하기 보다는 잠수함을 만들면…
유명 게임 회사인 King의 캔디크러시사가는 수 많은 레벨로 구성되어 있는 퍼즐 게임입니다. 2018년 데이터이긴 하지만 매주 약 15개의 레벨을 추가한다고 합니다. (1년에 약 3700개) 레벨의 난이도를 측정하여 밸런싱을 해야 하는데,…