KeyBank银行是如何将数据分析迁入云端的-51CTO.COM

由于内部分析基础设施的容量已达到极限，总部设于俄亥俄州克利夫兰市的KeyBank银行已转向云计算，这家大型区域银行认为此举将明显提升性能并且很有可能节省成本，但此举要求他们对公司培训和管理用户的方式进行反思。

该银行每晚处理约40亿条记录。数据被加载到Hadoop数据湖中，然后被下放到40多个下游系统，包括Teradata所使用的10到12个数据集市。KeyBank银行的首席数据官，部门首席信息官兼企业架构主管Mike Onders说：“这是流行于当下且传统的内部部署体系结构。我们在Hadoop数据湖环境中拥有数以拍字节计的数据，在Teradata环境中拥有30多拍字节的数据。”

该系统可以为400个SAS和Teradata用户以及4000个Tableau用户提供服务，虽然它运行十分顺畅，但是一年多以前，KeyBank银行的Teradata设备开始达到容量极限。

Onders说：“硬件设计本身仍然可以执行预期的工作：即高性能的分析。但是在内部部署的基础设施中，你需要控制容量。由于你没有让容量发生变化，因此性能将根据不同的负载而变化”。对KeyBank银行而言，这意味着在执行月末和季度末任务时会遇到性能和排队方面的问题。

此外，Onders的团队预计，KeyBank银行需要在2021年使其Teradata环境焕然一新，而这正是KeyBank银行想极力避免却终将发生的事情。从那一刻起，Onders和他的团队要做这样一个决策，即把银行的分析数据迁移到云端是否是更好的选择。

迁移到云端

在2018年底，Onders的团队使用云数据平台Snowflake推出了一个概念验证(PoC)，随后在2019年初使用Google Cloud Platform推出了概念验证。他承认Snowflake在性能方面略有优势，但Google Cloud Platform承诺单个供应商的架构就可以管理ETL、可视化、数据存储、数据访问和机器学习，因此谷歌成了KeyBank银行的不二之选。

KeyBank银行现在在谷歌生态系统的各个测试阶段拥有五个数据集市，Onders的团队发现其查询性能比该银行的本地查询快三四倍。但是KeyBank银行的高级副总裁兼企业体系结构以及企业数据和信息服务总监Onders和Doug Kanouff不约而同地指出，满负荷呈现数据将成为真正的考验。

Kanouff说：“我们已经调查了许多集市和用户，以获取其正在执行的指示性查询。我们正在实时运行这些数据。因此，我们可以将实际数据，实际数据量用于这些比较查询。到目前为止，这种做法挺不错的。但是，一旦数据呈现满载，批量执行就会启动，最终用户的查询也会生成，一切将显得与众不同，我们必须做出反应并深入研究这些卷的内容，以确保环境能够按需运行。”

培训人们对成本进行细微调整

进行这一转变可谓困难重重，也许最大的困难就体现在业务流程和文化方面。Google Cloud前景无量，因为它几乎提供了无限的容量。但这也意味着从性能可变的固定成本模型转变为成本可变的容量模型。

Onders说：“我们必须非常认真地对这种转变进行管理和监督，因为我认为我们财务团队的高层领导者并不需要真正的可变成本模型。他们希望能够预测下个月和此后一个月的费用是多少。”

使用Google BigQuery，你需要为每个查询付费，而费用则取决于查询所需访问的数据量。在内部部署的Teradata或Hadoop环境中，如果某个用户对为期三年的交易数据运行了一个错误的测试查询，而他本可以使用为期30天的交易数据，则成本不会发生变化。但这将消耗大量的算力，并且其他用户可能会在查询运行时遇到性能不够用的问题，仅此而已。由于使用了BigQuery，这不会影响其他用户的性能，但需要花钱。

Onders说：“在谷歌的环境中，我们必须实施更多的监视和培训并确保这样一件事，既然人们可以以不同的方式做事，那么他们就不要做任何劳民伤财的事情。”

许多用户还必须接受培训，从而使他们能以不同的方式工作。尤其是SAS用户，他们要找到自己所需的数据，将其复制并加载到分析工作区中。但是谷歌对数据出口收取费用(大多数云提供商也一样)。在本地环境中，复制这些数据集不会增加成本，尽管这确实会造成数据一致性和治理方面的问题。要成功迁移到Google Cloud就必须对这些用户进行培训，使他们能够对数据进行分析。

Onders说：“在迁入谷歌时，我们将在所谓的‘数据学院’上投入更多的资金。不仅要聘请精通数据的人，而且还要培训人员，对其进行认证，让他们回答实际问题，让他们在笔记本电脑上贴上标签，以表明他们知道如何使用我们的客户端分析市场，交易市场或风险市场。你“已经通过了认证，我们已经教给你更好的使用途径，因为我不想在Google Cloud普及人们在大型机SAS架构已经习惯了的同一个模式。”

Kanouff补充说：“最大的成本考量因素在于对查询的执行，我们需要切实转变思维方式并集中精力研究这样一些问题，即什么人在做什么事，什么人在查询什么东西以及我们如何对这些查询进行优化。”

Anders考虑将数据湖也迁到Google时，数据出口的成本也是他在思考的问题。他希望在云创建一个单一的平台架构，但事实证明，数据出口的成本是一个问题。

Onders说：“从Teradata流出的数据很少，因为它更像是集市和分析最终要处理的对象，我们会将分析工具迁移到Google Cloud，因此数据出口并不多。但是当我们将数据湖迁入云端时，我们确实将数据发送到40多个下游系统。这种用法存在更大的问题，因为我们仍在对此展开对话。你不得不对某个模型展开认真思考，弄清楚它要花多少钱。”