(자율주행차 등에 사용될) 도로 상황 인식 연구를 위해 만들어진 데이터셋 DriveSeg입니다. 동영상의 각 프레임에 대해, 이미지 전체를 pixel-by-pixel로 semantic labeling 한 것입니다. Label은 “vehicle, pedestrian, road, sidewalk, bicycle, motorcycle, building, terrain (horizontal vegetation), vegetation (vertical vegetation), pole, traffic light, and traffic sign”의 12가지입니다.
이 과정을 인간이 손으로 일일이 다 한 버전은 5천프레임, 1080p@30Hz, 세미오토로 한 버전은 2만백프레임, 720p@30Hz로 제공됩니다. 꼭 자율주행차가 아니더라도 세그멘테이션 비전 연구에서 유용하게 사용될 수 있을 것 같습니다. (저는 이미지로부터 특정 물체를 분리해내거나 배경을 대치하는 것, 그리고 segmentation 알고리즘 성능 개선 목적으로 활용해 볼 생각입니다)
MIT DriveSeg Dataset for Dynamic Driving Scene Segmentation | MIT AgeLab
To date, self-driving data made available to the research community have primarily consisted of troves of static, single images that can be used to identify and track common objects found in and around the road, such as bicycles, pedestrians or traffic lights through the use of “bounding boxes.”