Jina.AI에서 오픈소스로 공개하고 있는 Jina는 딥러닝 기술을 이용한 멀티모달 데이터 검색 엔진입니다. 검색을 위한 일부 기능만을 구현한 것이 아니라 서비스에 쉽게 적용이 가능한 전체 시스템을 포함하고 있으며 텍스트 뿐 아니라 이미지, 비디오, 음악, 소스 코드 등 다양한 데이터에 대한 효과적인 인덱싱과 검색을 지원하는 것이 특징입니다. 다음은 Jina github 저장소 링크입니다:
딥러닝 기술을 적극적으로 활용하는 덕분에, 이미지나 비디오와 같은 멀티미디어 데이터에 대한 콘텐츠 기반 검색도 가능하며, 자연어 기반 쿼리도 사용할 수 있습니다. 또한, Rest API, gRPC, WebSocket과 같은 다양한 형태의 인터페이스를 갖추고 있어서, 클라우드나 분산 저장 환경에서도 쉽게 사용할 수 있는 장점이 있습니다.
Jina github 저장소에서는 몇 가지 데모 사례를 소개하고 있으며, pip를 이용하여 데모 코드와 필요 데이터셋도 다운로드 가능합니다. 예를 들어 다양한 의상 이미지들로 구성된 Fashion-MNIST를 이용하여 이미지를 쿼리로 주면 유사한 의상 이미지를 찾는 데모, 코로나19에 대한 질의 응답들을 모아놓은 CovidQA 데이터셋을 이용하여 자연어로 질문을 하면 관련 정보를 알려주는 챗봇 데모, 다양한 데이터 형태를 포함한 복수의 문서들로부터 검색을 수행하는 데모 등 실전적으로도 매우 유용한 데모들이 포함되어 있어서, 그 활용도가 매우 높다고 볼 수 있습니다. 아래는 Jina github 저장소에 있는 사례들 중 챗봇 데모입니다:
다양한 AI 기술들이 오픈 소스로 공개되고 있지만, 대부분 특정 모듈 기술에 국한되어 있는 경우가 많습니다. Jina의 경우 쉽게 설치 가능하며 바로 테스트 가능한 형태의 all-in-one 오픈 소스 패키지라는 점이 가장 큰 장점 중 하나라고 생각됩니다.