DensePhrases는 고려대학교 이진혁님이 만든 오픈도메인 Q&A 기술로, “Learning Dense Representations of Phrases at Scale”라는 제목의 논문으로 발표되었습니다. 다음은 논문 링크입니다:
Learning Dense Representations of Phrases at Scale
Open-domain question answering can be reformulated as a phrase retrieval
problem, without the need for processing documents on-demand during inference
(Seo et al., 2019). However, current phrase retrieval models heavily depend on
their sparse representations while still underperforming retriever-rea…
problem, without the need for processing documents on-demand during inference
(Seo et al., 2019). However, current phrase retrieval models heavily depend on
their sparse representations while still underperforming retriever-rea…
질문이 주어지면 약 600억개에 달하는 위키피디아의 문단들로부터 가장 적합한 문단을 고르고 질문에 적합한 핵심어들을 추출해주는데, 서버 1대만을 사용하여 약 100ms 정도의 지연시간만으로 검색을 해 내는 특징을 가지고 있습니다. Github 저장소 링크는 다음과 같습니다:
jhyuklee/DensePhrases
Dense Representations of Phrases at Scale (Lee et al., 2020) – jhyuklee/DensePhrases
특히 대규모 데이터로부터의 빠른 검색을 위해 효과적인 인덱싱 기법이 적용되어 있는 것이 특징이며 온라인으로 직접 테스트해 볼 수 있는 데모 사이트 링크도 포함되어 있습니다. 영어 데이터에 대해 학습되어 있어 한글로 테스트 해 볼 수는 없지만 Github 저장소에는 논문 링크는 물론 데이터와 코드도 공개되어 있어서 관련 연구에 많은 도움이 될 것 같습니다. 다음은 DensePhrases의 온라인 테스트 페이지 링크입니다: