CIO仍然比以往任何时候都更接近他们梦想的数据湖仓

CIOAge 数据湖
Databricks收购Tabular未能阻止Apache Iceberg的崛起,Iceberg现已成为数据湖领域的赢家,然而,这次收购令CIO们困惑,Databricks作为 Delta Lake的缔造者为何会收购Iceberg的创始团队。

Databricks 收购初创公司 Tabular 的大胆举动,对其自身的 Delta Lake 数据湖解决方案并未起到有效的帮助,无法阻止 Apache Iceberg 的崛起,然而,这一收购可能会影响接下来的发展。

数据湖领域的竞争已经结束,开源的 Apache Iceberg 已经获胜,即便 Databricks 以十亿美元收购了由 Iceberg 创始人创立的初创公司 Tabular,也无法改变这一事实。

尽管如此,这一大胆的收购令一些 CIO 感到困惑和分心,他们难以理解为何 Databricks 作为数据湖领域的先驱,Delta Lake 的架构师,竟会花费巨资收购这家成立仅三年、年收入不足 100 万美元的初创公司 Tabular,尽管该公司前景广阔。

一些人猜测,Databricks 可能希望通过这一不确定性,减缓 Iceberg 生态系统的快速发展,另一些人则推测,Databricks 可能计划将 Delta Lake 的项目压在 Tabular 团队身上,而 Tabular 团队目前仍然在积极参与 Iceberg 的开发,这种做法可能既帮助了其自身平台的发展,又消耗了 Iceberg 作为另一种数据湖表格式的资源。

还有一种假设是,Databricks 的高层可能对击败 Snowflake 的举动感到兴奋,尤其是在 Snowflake 的活动期间通过收购来吸引注意力,据报道其竞争对手也曾寻求这次收购,或者,Databricks 可能只是希望通过在 Iceberg 领域脱颖而出,来缓解华尔街对其即将上市的不安情绪。

无论原因是什么,Databricks 目前对外所说的关于开放性和可移植性的好处听起来都很合适——但措辞模糊,足以让外界继续猜测。

Amazon Web Services (AWS) 的开源战略和营销总监 David Nalley 对我表示:“我确实认为这次收购有点分散注意力,但当这种规模的资金流动时,情况往往就是如此。” AWS 已将 Iceberg 集成到 AWS Glue 和 Amazon Athena 等分析服务中,并在过去三年积极参与了 Iceberg 的开发。“不过,就我看到的所有信号来看,越来越多的人参与其中,开发速度实际上正在加快。我们对此感到非常兴奋。”

事实上,尽管有各种担忧,但目前的大部分工作并不涉及 Iceberg 表格式。内部人士表示,该格式相对稳定。既然 Iceberg 已确立为默认的表格式,下一步的竞争将围绕其上的 REST 目录层展开——即帮助定义 Iceberg 的扩展范围及数据管理能力的 API,这正成为新的竞争战场。

这也是 Databricks 仍有机会发挥作用的地方,特别是通过将其平台下的数据与其他竞争平台上的信息结合。实际上,Databricks 已经朝这个方向努力。6月,在收购 Tabular 的一周后,Databricks 将其数据治理工具 Unity Catalog 开源。

Cloudera 产品管理高级副总裁 Venkat Rajaji 表示:“数据目录至关重要,因为它是企业管理元数据的地方。” Cloudera 也一直在其平台上投资 Iceberg 和 REST 目录的能力。“最近围绕 Iceberg REST 目录的创新非常多,因为数据战场已经结束,但元数据的战场才刚刚开始。”

数据湖的吸引力

数据湖表格式的推广几乎好得让人难以置信,它们本质上是抽象层,赋予了业务分析师和数据科学家混合和匹配不同数据存储的能力,无论数据存储在哪个地方,也不论使用哪种处理引擎。

一切操作都有记录,包括元数据的变更,这为一系列管理和治理能力铺平了道路。数据本身保持完整,没有复制或更改。因此,任何数量的项目都可以同时访问这些数据,而表格式会跟踪所有这些操作。

CIO们对此表示认可,因为这些表格式取消了为每个项目单独复制数据的需求,从而减少了存储费用,并缓解了安全性、可靠性和可管理性方面的问题。理论上,所有这些都能实现不依赖供应商的锁定。

最后一点——没有类似于“加州旅馆”式的陷阱,如专有的增强功能和高昂的外部数据转移费用,这些费用通常会将企业困在专有数据仓库中——在 Iceberg 的设计中起到了关键作用。当时,Iceberg 的创造者们在 Netflix 工作,他们采用了供应商中立的方法,这种方法也吸引了像 Apple、Citibank 和 Pinterest 这样的以数据为中心的大公司,并继续推动其人气上升。

Delta Lake 从技术上讲也是开放的,Databricks 将 Delta Lake 捐赠给了 Linux 基金会,差不多在 Netflix 将 Iceberg 项目交给 Apache 软件基金会的同时,但一些 CIO 担心,Databricks 在平台中的巨大影响力可能让公司有机会维持并增强其专有的钩子,例如在 Databricks Runtime 中。

“人们确实有一种感觉,认为 Delta Lake 是一家公司独创的成果,”Snowflake 的首席工程师 Russell Spitzer 说。Spitzer 在 6 月从 Apple 加入了 Snowflake,同时也是 Iceberg 项目管理委员会 (PMC) 的成员,并在 6 月 Snowflake 捐赠给 Apache 的 REST 兼容 API 项目 Apache Polaris 的孵化 PMC 中担任职务。他还为这两个项目贡献了代码。

“你知道,它是开源的,”Spitzer 说,“但它确实是一个 Databricks 的产品。”

如果你无法击败他们,那就加入他们

Iceberg 的第一波大规模采用始于 2020 年,当时它成为 Apache 的顶级项目,除了 AWS,像 Cloudera 和 Dremio 这样以开放为中心的供应商也开始围绕 Iceberg 构建服务,Google 也在这波浪潮接近尾声时加入。

大多数专有数据平台供应商在最初的浪潮中选择旁观,可能是因为 Iceberg 的“任何数据、任何引擎”结构对他们现有的商业模式构成了威胁,而 Snowflake 是个显著的例外,这家数据平台供应商在此期间开始投资 Iceberg,可能是因为它需要一个与其最强大的竞争对手 Delta Lake 抗衡的解决方案。

随着企业越来越多地将来自竞争性数据仓库的数据与 Iceberg 结合使用,各大专有平台供应商开始认真地添加对 Iceberg 的支持,这让他们处于更有利的地位,不仅能够继续管理数据,还可能托管处理功能。

仅在过去的一年里,Confluent、Oracle 和 Salesforce 都增加了对 Iceberg 的支持。Snowflake 则通过 Polaris 加大了对 Iceberg 的投入。微软作为最后一家保持观望的云服务提供商——很可能因为其对 Delta Lake 的投资——在 6 月份加入了 Snowflake 的发布活动。当然,Databricks 也在快速扩大对 Iceberg 的覆盖。

“看到 Iceberg 取得的进展,我感到非常惊讶,”Snowflake 的 Spitzer 说,“过去我得向人们解释为什么他们应该关心 Iceberg,而现在,人人都知道 Iceberg,大家也都知道,所有人都在向它靠拢。”

一切都与元数据有关

Iceberg 为将不同的数据存储整合到项目中并进行处理奠定了坚实的基础。现在,企业数据分析社区基本上已经接受了这一点,下一阶段的工作将集中在目录层面。AWS、Cloudera、Databricks、Snowflake 等公司都在努力让 Iceberg 能够处理尽可能多的数据并发挥最佳性能。

“目录不仅仅关乎表格式,还涉及治理,”AWS 的开放数据分析引擎主管 Roni Burd 说。Burd 还负责管理该公司对 Iceberg 的贡献。“因此,在目录 API 上有另一个巨大的创新机会,即表格式之上的抽象层。这也是我们的客户所需求的,因为它为他们解决问题开辟了新的前沿。”

责任编辑:华轩 来源: 企业网D1Net
相关推荐

2020-06-08 13:11:10

智慧城市物联网云计算

2023-07-21 15:07:59

2020-05-20 11:01:09

物联网安全IT

2024-09-18 14:08:39

2020-07-09 10:57:05

原生云云计算

2020-07-15 07:31:59

物联网医疗设备安全

2023-08-11 13:34:48

2021-12-07 14:17:40

物联网IOT物联网技术

2020-06-12 16:23:21

零售业物联网IOT

2021-09-03 10:44:24

物联网5GIoT

2018-08-27 08:31:37

工业物联网IIOT物联网

2021-10-20 06:07:40

暗网数据泄露漏洞

2023-07-17 10:09:50

供应链供应链领导者

2021-07-26 05:30:56

DDoS攻击网络攻击网络安全

2009-04-28 18:23:14

微软开源Linux

2019-07-15 09:00:25

网络安全互联网技术

2019-07-19 19:29:43

物联网技术人工智能

2023-08-08 13:22:10

2019-07-11 08:43:55

IOT大数据物联网

2021-12-13 08:55:54

RustLinux官方语言

51CTO技术栈公众号