图片来源:https://www.datagrom.com/data-science-machine-learning-ai-blog/snowflake-vs-databricks
[服务开发团队Jeon Jeon Jeon]
受电晕19加速的公司的数字化转型继续增加数据的价值。各个行业以及专业的IT公司对变更的需求正在为数据专家筹集赎金。尽管近年来国内数据行业市场的规模正在增长,但公司尚未活跃起来并开始运营。
韩国数据产业振兴院(2020年数据产业现状调查的主要成果摘要 https://www.kdata.or.kr/info/info_01_download.html?dbnum=462),2020年国内数据产业的总规模估计约为19万亿韩元。相比之下,去年在美国上市的数据平台公司“ Snow Flakes”的市值目前超过60万亿韩元。尽管总体市场规模差异很大,但可以说,韩国的数据专家尚未得到高度评价。
在韩国,通过政府项目来建立数据产业,但是公司的数字化转型将对国内数据市场产生巨大影响。为了了解数据市场的前景和影响力,我想对近年来价值快速增长的美国数据专家中的“雪花”和“数据砖”进行分析。
三大云
根据美国市场研究公司Canalis发布的报告,Big 3 Clouds(AWS,MS Azure,GCP)的市场份额分别为32%,19%和7%。这些公司占整个市场的60%。斯诺弗莱克(Snow Flake)和Databrix被认为是这三大云计算公司的媒人,但是他们的业务模式与云计算专业公司不同。一家致力于管理,分析和可视化存储在云中的数据的公司。
雪花
Snow Flake的平台服务基于云提供,并且与云公司合作。它依赖于三大云,而不是其自己的云基础架构。 Big 3 Cloud有其自己的分析平台,很难在它们之间进行互换,但优点是它们都是兼容的,因为Snow Flake在中间起作用。
如上述平台结构所示,Snow Flake基本上提供6种服务:数据工程,数据湖,数据仓库,数据科学,数据应用程序和数据交换。可以看出,它可以为原始数据存储以外的所有数据服务提供服务,并且在这部分中具有更多优势,因为它是从Data WareHouse开始的。提供数据市场等也是一个优势。
Databrix
Databrix由一组核心开发人员创建,例如Apache Spark的Matei Zaharia(大数据处理的开放源代码)。 Databrix是一家提供开源Apache Spark作为服务的公司。
Databrix提供类似于Snow Flake的数据平台服务。基本上,据说Snow Flake提供数据仓库服务,Data WareHouse是一种结构,其中存储了用于报告的结构化数据模型处理的数据。另一方面,据说Databrix提供了一个'Lake House'服务,这是'Data Lake'的扩展概念,指的是存储准备用于分析的结构化和非结构化数据的形式。我们提供基于此类湖边房屋处理和分析数据的服务。
雪花与Databrix
雪花 | Databrix | |
建立 | 2012年 | 在2013年 |
启动人员 | Oracle开发人员 | Spark开发人员 |
企业价值/销售额 | 约61万亿(上市时为14万亿)/约6600亿 | 约31万亿/约4800亿(未上市) |
顾客 | 4,000左右 | 5,000左右 |
两家公司处于合伙关系而不是竞争地位。两家公司在本质上是相似的,它们使用Big 3云平台并向面向大数据的客户提供服务,但Databrix专注于数据存储和处理,而Snow Flakes则是经过精炼的数据。并分析它们。在2019年的Spark AI峰会上,还举行了有关如何结合使用Databrix和Snow Flakes的会议。
小型公司在新AI技术的基础上拥有杰出的技术实力的初创公司在开展业务时必不可少的是,他们需要考虑大规模的服务架构。大数据存储,稳定的管道,扩展等是不同于其自身的技术领域,而只有大型公司才能提供服务。因此,云数据平台公司的价值有望在未来进一步增长。
但是,由Snowflake和Databrix等初创公司提供的服务实际上是Big 3云公司提供的许多功能,因此我们将不得不看到将来可用性和专业功能等差异化点将如何出现。由于韩国有许多具有类似业务模式的公司,我认为这些是值得关注的公司。