그림출처: https://www.datagrom.com/data-science-machine-learning-ai-blog/snowflake-vs-databricks
[서비스개발팀 전동준]
코로나19로 인해 가속화된 기업들의 디지털 트랜스포메이션(Digital Transformation)은 데이터의 가치를 계속해서 상승 시키고 있습니다. 전문 IT 기업 뿐만 아니라 다양한 산업에서의 변화의 필요성은 데이터 전문 기업들의 몸값도 불리고 있습니다. 최근 들어 국내의 데이터 산업 시장 규모가 커지고는 있지만, 아직 기업들이 활성화되어 운영되고 있지는 않습니다.
한국데이터산업진흥원 ( 2020년 데이터산업현황조사주요 결과 요약 https://www.kdata.or.kr/info/info_01_download.html?dbnum=462) 의 통계자료에 따르면 2020년 국내 데이터 산업 총 규모는 19조원 정도로 추정된다고 합니다. 이에 비해 작년에 미국에서 상장한 데이터 플랫폼 전문 기업인 ‘스노우 플레이크’의 시가총액은 현재 60조원이 넘습니다. 전체 시장 규모의 차이가 크겠지만, 아직 국내에서 데이터 전문 기업은 높게 평가 받고 있지 않다고 볼 수 있습니다.
지금 국내에서는 정부 사업등으로 데이터 산업이 이루어지고 있지만 기업들의 디지털 트랜스포메이션은 국내 데이터 시장에도 큰 영향을 미칠 것입니다. 데이터 시장의 전망과 영향력을 보기위해 최근에 가치가 급증하고 있는 미국의 데이터 전문기업중 ‘스노우 플레이크(Snowflake)’ 와 ‘데이터브릭스(Databricks)’ 를 분석해보려고 합니다.
빅3 클라우드
미국의 시장조사업체 카날리스가 공개한 보고서에 따르면 빅3 클라우드(AWS, MS Azure, GCP)의 시장 점유율은 각각 32%, 19%, 7%라고 합니다. 이들 기업이 전체 시장의 60%를 차지하고 있습니다. 스노우 플레이크나 데이터브릭스는 이들 빅3 클라우드 회사의 대항마로 회자되고 있지만 클라우드 전문회사와는 다른 사업모델을 가지고 있습니다. 클라우드에 저장된 데이터를 관리하거나 분석, 시각화하는 것에 집중하는 회사입니다.
스노우 플레이크
스노우 플레이크의 플랫폼 서비스는 클라우드 기반으로 제공되어 클라우드 회사와 협력관계에 있습니다. 자체 클라우드 인프라가 아닌 빅3 클라우드에 의존하고 있습니다. 이것이 장점이자 단점이라고 평가되고 있는데, 빅3 클라우드는 각자의 분석 플랫폼을 가지고 있는데 이들간의 호환은 어렵지만 스노우 플레이크는 중간에서 역할을 맡고 있기때문에 모두 호환이 가능하다는 것이 장점입니다.
위의 플랫폼 구조 그림처럼 스노우 플레이크는 기본적으로 Data Engineering, Data Lake, Data WareHouse, Data Science, Data Applications, Data Exchange의 6개 서비스를 제공하고 있습니다. 원천 데이터 저장 이외의 데이터 서비스 전반을 서비스 할 수 있다고 보면 되고, 데이터 웨어하우스(Data WareHouse)로 시작을 하였기 때문에 이 부분에 더욱 장점을 가지고 있습니다. 데이터 마켓 플레이스등을 제공하는 것도 장점입니다.
데이터브릭스
데이터브릭스는 빅데이터 처리 오픈소스인 아파치 스파크(Apache Spark)의 Matei Zaharia등 핵심 개발자가 모여서 창업하였습니다. 오픈소스인 아파치 스파크를 서비스로 제공하기 위한 회사가 데이터브릭스라고 합니다.
데이터브릭스는 스노우 플레이크와 비슷하게 데이터 플랫폼 서비스를 제공합니다. 기본적으로 스노우 플레이크는 데이터 웨어하우스 서비스를 제공한다고 하는데, 데이터 웨어하우스(Data WareHouse)는 보고를 위해 구조화된 데이터 모델로 처리된 데이터들이 저장되는 구조입니다. 반면에 데이터브릭스는 ‘레이크 하우스(Lake House)’ 서비스를 제공한다고 하는데 이는 ‘데이터 레이크(Data Lake)’에서 확장된 개념으로 정형, 비정형데이터들을 분석에 바로 사용할 수 있게 저장된 형태를 말합니다. 이런 레이크 하우스를 기반으로 데이터를 처리하고 분석하는 서비스를 제공합니다.
스노우 플레이크 vs 데이터브릭스
스노우 플레이크 | 데이터브릭스 | |
설립 | 2012년 | 2013년 |
창업 인력 | 오라클 출신 개발자 | Spark 개발자 |
기업가치/매출액 | 약 61조 (상장당시 14조) / 약 6600억 | 약 31조 / 약 4800억 (비상장) |
고객사 | 4,000여개 | 5,000여개 |
두 회사는 경쟁 포지션이 아닌 협력 관계에 있습니다. 두 회사는 기본적으로 빅3 클라우드 플랫폼을 사용하고, 빅데이터를 타깃으로 고객사들에게 서비스를 제공하는 회사라는 것에서 비슷하지만 데이터브릭스는 데이터의 저장과 처리에 집중하고 스노우 플레이크는 어느정도 정제된 데이터를 효율적으로 처리하고 분석하게끔 도와주는 서비스에 타겟팅하고 있습니다. 2019년 Spark AI Summit에서는 데이터브릭스와 스노우 플레이크를 연동해서 사용하는 방법에 대한 세션도 진행되었습니다.
새로운 AI 기술을 기반으로 하는 뛰어난 기술력을 가진 스타트업, 영세한 규모의 회사들이 사업을 진행할 때 필수 불가결하게 대규모의 서비스 아키텍쳐를 고려해야 합니다. 대용량 데이터 저장소, 안정적인 파이프라인, 스케일링등은 그들이 가진 기술력과는 또 다른 기술 분야로 큰 규모의 기업들만이 제공할 수 있는 서비스입니다. 그렇기 때문에 앞으로 클라우드 데이터 플랫폼 기업들은 가치는 더욱 올라갈 것으로 생각합니다.
하지만 스노우플레이크나 데이터브릭스같은 스타트업이 제공하는 서비스들은 사실 빅3 클라우드 회사들에서도 제공하는 기능들이 많아서 사용성이나 특화된 기능같은 차별화된 포인트가 앞으로 어떻게 생기는지 지켜봐야 할 것입니다. 국내에서도 비슷한 사업 모델을 가지는 회사들이 많이 생기고 있기 때문에 주목해야 할 기업들이라고 생각합니다.