NLPTrendData Vector Database: 벡터 임베딩을 저장하고 검색하는 가장 효율적인 방법

Domain-specific language model의 필요성

[가상생명연구팀 양승무 주임] ChatGPT의 시대가 도래하고 있습니다. AI 업계를 비롯한 다양한 산업과 분야에서도 ChatGPT의 우수성과 실용성이 인정되어, 많은 기업들이 ChatGPT의 적용을 추진하고 있습니다. 이러한 추세는 OpenAI와 같은 주요 기업들 뿐만…

TrendData Vector Database: 벡터 임베딩을 저장하고 검색하는 가장 효율적인 방법

Feature store: Fully managed service for ML Feature

[분석지능개발팀 임창대] What is Feature?ML(Machine Learning) 은 과거의 예시 데이터를 학습한 모델을 기반으로 새로운 데이터 예측을 수행합니다.ML 모델 학습에서 표 형태의 2차원 데이터를 사용하였을 때 행이 예시이고 열이 해당 예시를…

TrendCodeData Vector Database: 벡터 임베딩을 저장하고 검색하는 가장 효율적인 방법

Handling Imbalanced Datasets

[서비스개발팀 황준선] 기계학습 모델을 지도 학습할 때 라벨간 데이터의 개수가 불균형한 데이터셋을 훈련 데이터로 삼을 경우, 비율이 작은 라벨에 속한 샘플들에 대한 학습이 잘 이루어지지 않는 현상을 겪게 됩니다. 단순히…

VisualData Vector Database: 벡터 임베딩을 저장하고 검색하는 가장 효율적인 방법

Learning Loss for Active Learning

[서비스개발팀 이경환]  우리는 보통 모델을 학습하는 과정에서 라벨이 없는 데이터 뭉치를 마주하게 되고, Data Annotation 문제에 종종 부딪히고는 합니다. 라벨이 없는 모든 데이터를 일일이 라벨링 하기에는 시간과 비용이 너무 많이…

InteractionTrendData Vector Database: 벡터 임베딩을 저장하고 검색하는 가장 효율적인 방법

시계열 데이터 분석_TadGAN

[선행연구팀 송지현] MIT 연구팀이 개발한 TadGAN 알고리즘은 시계열 데이터를 분석하여 이상탐지를 하는데에 있어 기존에 알려진 모델들에 비해 좋은 성능을 내는 것으로 알려져 있습니다. 현재 많은 이상탐지를 연구하는 업체들이 다양한 분야(금융…