数据的未来：现代数据管理的五大支柱-51CTO.COM

数据如今已成为推动公司成功的鲜活有机体。为了蓬勃发展，企业必须拥抱基于AI的自动化数据管理。

在当今经济中，正如俗话所说，数据是新黄金——从财务角度来看是一种宝贵资产。然而，从公司的生存角度来看，还有一个更贴切的比喻，我们都熟悉进化论，地球从岩石行星开始，最终孕育了生命，数据也经历了类似的转变，20多年前，企业内的数据就像早期地球上的散落岩石，它并未“鲜活”起来，因为将数据转化为价值所需的业务知识局限于个人头脑、Excel表格或丢失在模拟信号中。

数字化转型开始为我们生活中的一切创造数字形态，而过去十年中AI和机器学习(ML)的进步极大地改变了数据格局。我们现在正从数据中解读规则、将业务知识嵌入ML模型，并且很快，AI代理将利用这些数据代表公司做出决策。数据如今像鲜活有机体一样“活着”，以收集、管理和产品输出的形式在公司的血脉中流动，这个有机体是公司竞争优势的基石，需要细心且负责任地培育和管理。

要在当今的环境中取得成功，无论是小型、中型还是大型企业，都必须拥抱以数据为中心的思维模式。本文提出了一种方法，供企业实施现代数据管理功能，以满足其独特需求。这里的“现代”指的是一种以工程为驱动的方法，充分利用自动化和软件工程最佳实践。这种方法可重复，最大限度地减少对人工控制的依赖，利用技术和AI进行数据管理，并无缝集成到数字产品开发流程中。所提出的模型通过五大支柱来说明数据管理实践：数据平台，数据工程，分析与报告，数据科学与AI，以及数据治理。

支柱#1：数据平台

数据平台支柱包括工具、框架以及处理和托管技术，使企业能够批量和流式处理大量数据。企业必须决定其托管提供商，无论是在本地设置、像AWS、GCP、Azure这样的云解决方案，还是像Snowflake和Databricks这样的专业数据平台提供商。他们还必须选择数据处理框架(如Spark、Beam或基于SQL的处理)以及用于ML的工具。

基于业务需求和数据的性质(原始数据与结构化数据)，企业应确定是否建立数据仓库、湖仓一体或考虑使用数据网格技术。供应商的选择应与更广泛的云或本地策略相一致。例如，如果一家公司选择AWS作为其首选云提供商，并致力于主要在AWS内运营，那么利用AWS数据平台就有意义。同样，根据公司的总体技术策略，也可以选择Snowflake、Cloudera或其他平台。

然而，我不赞成组装众多工具以追求难以捉摸的“最佳品种”梦想，因为整合这些工具非常耗时，且技术发展迅速，DIY集成难以跟上。此外，一般而言，不应将数据分散在不同云提供商的多个数据库中以实现云中立。这不是我的原创说法，但云原生数据架构的一个大忌就是将数据从一个位置复制到另一个位置。这等于把钱白白送给云提供商，并在端到端价值创造中造成重大问题。

虽然技术决策至关重要，但数据平台支柱的真正目的是为创造商业价值奠定基础。缺乏对资金时间价值和商业价值的关注，可能会使数据平台的选择变成高中科学项目，因此要注意这一点。这一支柱本质上是以工程为中心的，尽管它可能最初是从手动设置开始的，但公司必须过渡到完全自动化的思维模式。长期来看，由于手动管理数据平台而导致的操作错误可能代价极高。

支柱#2：数据工程

此功能负责将原始数据转换为策划的数据产品。使用数据平台提供的工具和框架，原始数据被摄入、转换和策划以供特定用途。与以技术为中心的数据平台支柱不同，数据工程专注于构建具有嵌入业务规则的分布式并行数据管道。至关重要的是要记住，业务需求应驱动管道配置，而非反之。例如，如果保持事件顺序对业务需求至关重要，则必须实施适当的批处理、微批处理或流式配置以满足这些要求。

另一个关键领域涉及管理数据管道的运行状况，更加强调监控流经管道的数据质量。低质量的数据与管道中断一样有害，甚至更甚，因为它可能导致错误决策并向客户提供有害信息。数据可观察性领域最近经历了大幅增长，市场上提供了众多商业工具，或者可以选择使用开源组件构建DIY解决方案。最具挑战性的方面是设置数据质量问题警报的阈值，因为现实世界中的数据过于动态，以至于静态阈值无法有效发挥作用。实施ML功能有助于找到合适的阈值。虽然开始时可以手动设置阈值，但最终目标应是通过自我学习机制实现自动化。

最后，重要的是要强调这一支柱中的“工程”方面。仅仅因为工作是以数据为中心或大量使用SQL，并不能成为例外。每个SQL查询、脚本和数据移动配置都必须视为代码，遵循现代软件开发方法，并遵循DevOps和SRE最佳实践。

支柱#3：分析与报告

这一支柱代表了数据管理最传统的方面，包括描述性和诊断性分析能力。它们通常分为两大类：

1. 固定、预制或标准报告

2. 临时或个人使用报告

数据有限的小型公司可以在没有广泛自动化工程规范的情况下管理这一支柱。然而，中型和大型企业需要在其数据仓库或湖仓一体的策划数据集之上构建复杂的自助报告平台。

数据平台功能将设置报告和可视化工具，而数据工程功能将集中策划数据。但是，分析/报告功能需要推动报告和自助分析的企业工作，它还需要通过确保数据目录包含有意义、可靠的信息，并结合适当的访问控制，来推动数据的民主化。

业务分析中最具挑战性的方面之一是创建一组一致的数据定义，以确保报告不会产生冲突或不可靠的信息。GenAI的引入和自然语言数据分析的兴起将加剧这一问题。因此，语义层的概念获得了相当大的关注，并需要在成熟的设置中加以考虑。

这一支柱所需的工程规范程度与报告的关键性相关。数据的关键性和对停机时间的敏感性越高，所需的工程和自动化就越多。

支柱#4：数据科学与AI

这一支柱主要涵盖分析的预测性和规范性方面。历史上，这一支柱是分析与报告的一部分，并且在许多情况下仍然如此。然而，我故意将其分开，因为这一支柱的输出(即AI/ML模型)现在集成到面向客户的产品和服务中，这些产品和服务必须像其他技术产品一样运营。这标志着行业的重大变化，需要对ML和AI采取深入的以工程为中心的方法。

建立这一支柱需要数据科学、ML和AI技能。同样重要的是MLOps技能，以建立工程规范，以及能够端到端连接业务需求、模型开发、模型部署和模型监控的架构师。如果没有这种设置，就有可能构建出响应客户太慢、随时间推移出现训练-服务偏差的模型，并且由于缺乏生产模型监控而可能对客户造成伤害。如果模型在生产中遇到问题，最好向客户返回错误，而不是提供错误数据。这种严谨性要求强大的工程规范和运营成熟度。

然而，对小型公司来说有个好消息。由于从头开始构建模型所需的技术专业知识，数据科学以前曾是技术娴熟企业的领域。数据中心AI、GenAI等概念的进步以及开源和商业AI模型的可用性，正在将AI方程式从“内部构建”转变为“购买/重用”。这一发展将使小型企业更容易开始融入AI/ML能力。

支柱#5：数据治理

我们需要一个新的术语来描述数据治理，因为它经常与公司治理或IT治理相混淆，后者通常意味着一个管理机构监督他人的工作，以确保遵守公司政策。历史上，数据治理的运作方式类似，由于运营数据和分析数据的分离，数据治理领导者监督并批准其他团队的活动。当数据治理的范围仅限于分析系统，且运营/事务系统独立运行时，这是有意义的。

然而，这一格局正在快速演变。传统的数据治理结构仍然必要，但在有价值的数据几乎渗透到公司包括事务系统在内的各个方面的环境中，这些结构已不再足够。现代数据治理必须创建一个生态系统，确保数据在任何地方都处于良好状态，始终准确、安全、可被适当人员访问，并满足运营和分析系统的合规义务。如此广泛的数据治理需要明确定义的自动化控制和指导，完全集成到产品开发生命周期中。

例如，如果数据治理政策要求在目录中用约束和最小/最大值等控制来描述数据模式，那么这一步必须成为自动化软件开发生命周期的一部分——确保系统在部署期间检查有效的模式。网络安全在过去20年里经历了类似的演变。还记得当初保障系统安全仅仅是少数网络安全专业人员的责任，与软件开发生命周期脱节的时候吗?现在，成熟的企业使用DevSecOps实践广泛实施网络安全。数据治理需要遵循类似的路径，从政策文件和汇流页面过渡到数据政策即代码。确保数据处于良好状态是每个人的责任，数据治理生态系统必须通过自动化来实现这一点。

建立联合数据治理还需要协调运营团队和分析团队之间的激励措施，一旦每个人都意识到错误数据可能会伤害客户并给公司带来声誉风险，这一点就会实现。未来AI代理将基于数据代表公司做出决策，这一问题将更加严重。因此，我的首要建议是通过强大的工程规范来加强数据治理。

一种新型的以工程为中心的数据企业

过去十年，AI和ML的进步将数据管理从后台报告和治理功能转变为重要的竞争优势。AI/ML模型现在为面向客户的产品提供亚秒级响应时间。这种转变需要一种新的融入工程的数据企业，如本文所述的五个支柱所描述。

大多数数据管理新手企业最初将专注于简化业务运营以提高运营效率。然而，随着他们的成熟，重点将转向新的业务倡议和收入增长机会。虽然引言部分的图表将所有支柱描绘为大小相等的圆圈，但实际上，投资和努力将类似于蜘蛛图，并非所有领域都需要始终获得同等关注。

从企业报告的角度来看，小型公司可以将所有五个功能整合在一个领导者之下。中型公司可能会将数据平台和工程功能整合在一个领导者之下，而其他三个功能则归另一个领导者管理。大型、高度监管的公司可能会将五个支柱分配给多位领导者。

尽管各公司数据职能的规模、范围和大小各不相同，但有一点是确定的：在数字世界中，数据无处不在。客服人员接听的客户服务电话不再是模拟信号，它是数字数据，能够提供关于客户痛点和服务质量的关键见解。因此，每家公司都必须像数据公司一样思考，建立适当的数据管理能力，并利用数据作为竞争优势。