根据分析公司IDC的全球数据圈预测,2021年至2025年,商业和消费者数据自去年以来一直在以约23%的复合年增长率(CAGR)累积,其中企业数据的复合年增长率为28%,预计到2025年将达到180ZB。云计算所创建的数据也在以每年36%的速度增长,而通过各种物联网和传感设备收集的边缘数据则将以每年33%的速度增长,到2025年将占全球数据总量的22%。
对于企业来说,随着数据量的增长,使数据具备计算能力的任务已经变得更加复杂了,而企业只花费很少的时间和精力来开发有效的数据管理流程和平台来使数据易于操作。例如,许多公司收集了大量与客户、订单、产品使用、安装基础、维修单、故障日志和市场情报相关的数字交易数据,但却没有好的方法来创建每个客户或其业务的360度的视图--尽管他们比以往任何时候都有更多的技术选择来从数据中提取情报。
许多企业已经到了这样一种状态,他们清楚地知道,他们所拥有的数据量既不能提供持续的竞争优势,也不能让他们轻松地从中释放价值。同时,这种扩大的数据所有权既增加了保密问题和实施成本,也增加了环境的复杂性。
迈向更好的数据管理战略
当前的状态架构是在没有首先制定有效和智能地使用数据的策略,实现技术和碎片化过程的复杂组合以及依赖基于非常薄弱的数据基础的数据工程实践的情况下积累数据的结果。
在很大程度上,这些基础是基于提取、转换和加载(ETL)方法的--从多个源中提取数据,通过ETL服务器将数据转换为特定格式,然后将数据加载到数据仓库中,在那里可以对其进行分析,并有望以商业智能的形式呈现。但是,数据转换过程可能会有些复杂,并且需要大量计算,因为它需要被转换成一种可以被业务线数据库识别和使用的格式。由于该过程涉及大量的I/O活动、字符串处理和数据解析,因此也需要花费大量的时间。
一个更好的数据管理策略是先对字母“ETL”进行一点洗牌,然后采用一个从提取数据时就开始处理的过程,然后将其加载到特定的数据存储库中,这些存储库可以将数据分别转换为更有用的和相关的形式。这种ELT方法是先将数据加载到你的目标系统,然后再进行转换,并会将这些任务转移到单独的基于云的数据仓库当中。
不是使用单个的ETL引擎/服务器来转换所有结构化和非结构化的原始数据,而是使用ELT方法,将数据段传送到特定的云数据仓库当中,在那里这些部分将被单独的转换。结果是更少的I/O时间和更快的解析。
少一些混乱,多一些智能
基于ELT结构的未来状态数据架构将着重于建立一个强大的数据基础层和一个基于平台的方法,为整个组织提供一个无所不包的数据管理解决方案。无论是物联网数据、点击流、销售和营销智能、业务指标还是用户分析,未来的架构都将依赖一个内聚的平台来缩小数据获取和释放价值之间的差距。
未来状态架构的一些关键考虑因素包括:
- 基础层功能的实现,包括连接器、事件流、源写回和MapReduce。下一层还将包括数据管理生命周期、数据建模、模式实施、数据隐私、治理、批准、安全、数据项目和管理。
- 该架构的核心是一个发现和自我学习引擎,它可以从生态系统中的各种来源抓取和检索数据--能够适应不断变化的业务需求,并吸收适当数量的可计算数据。
- 为了满足符合数据隐私法规的现实,数据结构和持久性抽象需要为数据驻留提供解决方案。
未来状态架构的最终目标是通过获取可计算的数据元素来消除长时间运行的查询和与业务数据的连接,从而优化数据存储和处理资源的使用。这不仅可以将存储的数据量减少到我们今天所需存储的一小部分,还可以提高企业释放有用且可操作商业智能的速度。