当你读完这篇文章时,人类通过网络和设备产生的数据将增加2730万TB。这只是定义不可控的数据量的众多方法之一,以及如果企业不坚持先进的集成技术,它将给企业带来的挑战。为什么竖井中的数据是一种威胁,需要单独讨论。这篇文章精选了现有集成解决方案面临的各种挑战。
不断增长的数据量是一个令人担忧的问题,因为接受IDG调查的20%的企业正在从1000个或更多来源中提取数据,为他们的分析系统提供数据。因此,对迈出第一步犹豫不决的实体最有可能与以下挑战发生争执。数据集成需要彻底改革,只有考虑到以下差距才能实现。下面是一个简要概述。
完全不同的数据源
来自不同来源的数据有多种格式,如Excel、JSON、CSV等,或数据库如Oracle、MongoDB、MySQL等。例如,两个数据源可能有相同字段的不同数据类型或同一伙伴数据的不同定义。
异类数据源产生不同格式和结构的数据集。现在,不同的模式使数据集成的范围变得复杂,并且需要大量的映射来组合数据集。
数据专业人员可以手动将一个源的数据映射到另一个源,将所有数据集转换为一种格式,或者提取和转换它以使组合与其他格式兼容。所有这些都使实现有意义的无缝集成变得具有挑战性。
处理流数据
流数据是连续的、无休止的,并由记录的事件的不间断序列组成。传统的批处理技术是为具有明确定义的开始和结束的静态数据集设计的,这使得处理不间断流动的流数据变得困难。这使同步、可伸缩性、检测异常、提取有价值的见解和增强决策变得复杂。
为了解决这个问题,企业需要能够对传入数据流进行实时分析、聚合和转换的系统。企业可以通过缩小传统架构和动态数据流之间的差距来利用持续信息流的力量。
非结构化数据格式问题
不断增加的数据量变得更加具有挑战性,因为它拥有大量的非结构化数据。在Web2.0中,跨社交平台的用户生成的数据以音频、视频、图像和其他形式爆炸式增长。
非结构化数据具有挑战性,因为它缺乏预定义的格式,并且没有一致的模式或可搜索的属性。就像存储在数据库中的结构化数据集一样,这些数据集没有可搜索的属性。这使得对相关信息进行分类、索引和提取变得复杂。
不可预测的变化数据类型通常带有不相关的内容和噪声。这些都需要合成数据生成、自然语言处理、图像识别和ML技术来进行有意义的分析。复杂性并不仅限于此。很难扩展存储和处理基础设施来管理业务量的急剧增加。
然而,各种先进的工具在从混乱中提取有价值的见解方面令人印象深刻。例如,MonkeyLearn实现了用于查找模式的ML算法。K2view使用其专利的基于实体的合成数据生成方法。同样,Cogito使用自然语言处理来提供有价值的见解。
数据集成的未来
数据集成迅速脱离了传统的ETL(提取-转换-加载),转向自动化的ELT、基于云的集成以及其他实现ML的方法。
ELT将转换阶段转移到管道的末尾,将原始数据集直接加载到仓库、湖泊或湖边。这使系统能够在转换和更改数据之前对其进行检查。该方法在处理用于分析和商业智能的海量数据方面是有效的。
一款名为Skyvia的基于云的数据集成解决方案正在开创这一领域,使更多的企业能够合并来自多个来源的数据,并将其进一步整合到基于云的数据仓库。它不仅支持实时数据处理,而且大大提高了运行效率。
该批处理集成解决方案涵盖旧的和新的更新,并且可以轻松扩展以适应大数据量。它非常适合整合仓库中的数据、CSV导出/导入、云到云迁移等。
由于90%的数据驱动型企业可能倾向于基于云的整合,许多流行的数据产品已经在这场游戏中领先。
此外,在未来的时间里,企业可以预期其数据集成解决方案几乎可以处理任何类型的数据,而不会影响运营效率。这意味着数据解决方案应该很快就会支持先进的弹性处理,可以并行处理数TB的数据。
接下来,无服务器数据集成也将变得流行起来,因为数据科学家期待着使维护云实例所需的努力化为乌有。
迈向数据驱动的未来的垫脚石
在这篇文章中,我们讨论了来自不同数据源、分割驱动的流数据、非结构化格式等方面的挑战。企业应该立即行动起来,实施周密的规划、先进的工具和最佳实践,以实现无缝集成。
与此同时,值得注意的是,如果及时解决这些挑战,这些挑战就是潜在的增长和创新机会。通过正面应对这些挑战,企业不仅可以优化利用数据馈送,还可以为其决策提供信息。