已经深入到大规模云迁移进程中的McDermot国际公司CIO Vagesh Dave,发现自己正处于一个挑战重重的十字路口:随着工程师们吞噬了云中可用的大量计算资源,石油钻井构建IT主管每月都会收到天价账单,而且在迁移过程中几乎没有实现任何投资回报。
为了阻止这种趋势,Dave选择将一系列重型计算负载迁移回小型数据中心的本地服务器。
提到天价账单问题,Dave表示,“大约两年前,我就意识到了这个问题。我尝试将大量SAP系统放在云端,结果发现计算成本实在太高。”
Dav并非个例。许多处于云迁移中后期的CIO越来越多地陷入一个令人烦恼的泥潭——每月都要向首席财务官提交巨额云账单,却没有显示任何投资回报率。
例如,埃森哲认为,许多处于云迁移30%和50%阶段的客户正在承担过高的云成本,而预期的业务成果尚未实现。其高级董事总经理兼全球云优先战略和咨询业务负责人Ashley Skyrme表示,“我们的许多客户都正处于进退两难的境地。云迁移已经开始,但是承担的成本越来越高,因为云的可用性和可扩展性很高,而且越来越多的企业正在采用它。”
专家称,随着迁移的不断深入,云成本将很快占据企业支出的第二名,仅次于工资。
一位不愿透露姓名的内部人士称,在疫情大流行期间,销售激励措施存在偏差:在业务低迷期间,云平台销售人员被激励向企业买家出售尽可能多的云访问许可证和云使用周期,这些买家可能受到折扣或根本不会产生成比例投资回报率的月度云服务的诱惑,而加大购买力度。
此外,顶级IT高管正在逐步管理其数据中心的淘汰过程,以确保长期存在的本地应用程序中的所有业务流程都正确转换为云原生应用程序。例如,如果云原生应用程序的某个方面编码不正确,则可能会花费数百万美元——完全抵消了迁移到云的关键好处。
大多数处于这种困境中的CIO都相信,他们大规模的云投资将显示出可观的回报,尤其是那些在疫情大流行期间业务停滞不前时加大赌注并加快云迁移的人。
但这对CIO来说只能算是一个小小的安慰,他们必须在云迁移的中途向慌乱的CFO解释为什么成本会呈螺旋式上升,而几乎没有创新或新收入。随着经济的恶化,一些人正在猛踩刹车或走下坡路来削减成本。
NCR公司首席信息官Bill VanCuren表示,“云成本正在不断飙升。我们计划在大容量协议和其他技术范围内进行管理,以减少VM(虚拟机)。”
自然地,大量的云使用增加了维护或停用数据中心的成本,这些数据中心一直保持在线状态,以便在云迁移持续过程中确保业务连续性。
但专家表示,就成本上升问题而言,更重要的是不了解这一现实,即公有云上的计算、存储和消费模型是多样的、复杂的且经常被误解的。
CIO们认为,毫无疑问,在疫情大流行期间加速云迁移导致了这一瓶颈。国家电网全球首席信息官Andi Karaboutis解释称,“我将云比作‘自助餐’模式,这很容易导致过度消费。当使用云计算时,人们会看到他们可以得到更多的东西,结果最终可能会遭遇成本飙升的情况。”
云成本处于十字路口
根据IDC的《全球云支出指南》显示,公有云总支出从2020年的3077亿美元增至2021年的3836亿美元——全球企业在疫情大流行期间在云上的支出总额接近7000亿美元。
IDC云基础设施服务研究副总裁Dave McCarthy表示,目前,云支出约占整体IT预算的30%,且到2025年将超过1.3万亿美元。这笔支出包括从云基础设施和应用程序服务到服务器和存储,再到专业和托管服务的所有内容。
无限量的“自助餐”模式使开发人员和工程师能够推出创新和有前景的项目,这些项目可能会为他们的公司带来长期的新收入来源。但随着经济下滑以及对经济衰退的恐惧,高昂的月度账单越来越让会计师和首席财务官感到不安。
McCarthy在未来云峰会上表示,“螺旋上升的云资源提供的便利性减少了很多前期摩擦,但它带来了一个新问题。CFO会来质问‘为什么我们的云账单上个月翻了一番?我们并没有为此做预算,谁来负责这个问题?’”
Fidelity Investments高级副总裁兼工程效率和保证负责人Jennifer Hays表示,云模型挑战了控制成本的传统业务方法。在大多数传统公司中,工程、财务和采购之间存在孤岛,它们相互平衡并控制预算。但云完全颠覆了它。许多高管真的很担心他们在云上花费和浪费太多资金。
当谈到云成本和数据中心成本之间的核心差异时,Hays表示,“从根本上说,云计算与众不同的消费模式使我们的现实复杂化。这种去中心化的模式真正改变了为控制成本而建立的所有行为和流程。”
在此过程中,便利发挥着巨大的作用。工程师可以立即访问三个大型供应商的超过一百万个不同的SKU(库存进出计量单位),并进行购买和采购……但往往也会发生很多低效率的情况。
根据2020年的一项调查结果显示,云中30%到35%的支出都浪费在了使用访问周期上——这类似于汽车的发动机一直运转,直到汽油耗尽。在云中,资源永远不会用完——但仪表/计价器会不停运转。
早期采用者敦促克制
那些在疫情大流行之前很早就开始云迁移的人通常会更缓慢地部署服务,并且其中一些人还会利用亚马逊、微软和谷歌早期提供的有吸引力的许可协议来启动企业云的采用。
哥伦比亚特区供水和下水道管理局(DC Water)IT基础设施和运营主管Joe Edwards并非疫情大流行期间开启云迁移潮流的一员,他为此感到庆幸。
Edwards表示,“随着我们对云的使用越来越多,云成本已经上升。好在我们早在10多年前就已开启云迁移进程,目前组织97%的工作负载都在公有云中运行。”
拥有庞大旅游服务组合的Expedia是另一个早期的云采用者。Expedia开发和运行时平台副总裁Robert Duffy很早就发现的一个问题是,来自不同品牌的开发人员使用不同的工具和平台,缺乏一致的DevOps策略。Duffy制止了这种情况,并为Expedia的所有品牌标准化了一个开发工具,以控制开发成本并在公司的所有旅行服务中共享创新和投资。
Duffy解释称,对于一个准备在疫情结束后立即从创新中获利的行业来说,这是降低成本和创造新收入来源的一大胜利。
财务运营(FinOps)的兴起
云成本复杂性是真实存在的。除了不受监控的云使用之外,还需要考虑未使用的云许可证、在晚上和周末意外留下的访问权限,以及取决于用于运行代码的处理器数量的可变周期成本。例如,云原生应用程序可能需要两个CPU才能运行,而一个以当前形式——而非以云原生方式重写它——从数据中心平移(lift-and-shift)的应用程序可能只需要一个CPU,但可能会被错误配置在双CPU服务器上。
IDC的McCarthy预计,大多数企业将不得不聘请专业的FinOps来管理数百万美元的云成本,尤其是在数字化转型期间。
所谓FinOps是将DevOps、财务和业务整合在一起的变革,其目标在于优化一个企业在云计算上的支出的财务规范和技术解决方案,即根据支出的历史记录和来自预期负载的信息,FinOps可以在需要时预分配资源或估算成本。FinOps可以称为“财务运营” ,或者更直白地称为“成本优化”,是将财务问责制引入云的IT支持,进行调整以优化质量和支出。
Gartner建议,CIO可以通过调整架构、运营和商业条款来减少云服务费用。例如,建议不要升级和转移遗留应用程序等。相反地,CIO应该利用采取微服务架构设计的现代云原生应用程序。这些成本——例如,在Kubernetes上部署工作负载——难以监控,但最终往往会得到回报。
Gartner补充道,CIO还需要确保其云环境的规模适合当前要求,并且停用已经不再需要的数据中心和服务器。
National Grid的Karaboutis也建议确保合适的规模。她表示,迁移到云的CIO必须为各种用户组创建规模合适的使用模型,并采用Chargeback模型来让每个业务部门对云使用负责。因为针对每个云,Chargeback都会提供一个独立的价目表或费率卡。
Ciena公司CIO Craig Williams对此表示赞同。他解释称,“调整规模能够确保你构建适合你客户的产品,并针对他们的需求进行优化。你不会过度或低估他们的需求。IT领导者需要了解,不是简单地使用云就可以了。CIO必须进行合理规划。这有点像把食物放在冰箱里——放太多东西,你就是在浪费钱和食物。如果你放的太少,你的家人或顾客就会不高兴。”
Gartner还建议CIO与其云提供商协商商业条款,例如基于数量或时间的承诺。另一种选择是从按需实例转移到预留实例(reserved instance)。
DC Water的Edwards建议研究云的所有成本影响,包括云许可证的类型和使用计划以及云访问。Edwards解释称,“在将任何内容放入云端之前,请花时间进行分析。先做成本分析;确保在使用之前对需要使用的许可证类型和操作系统类型进行研究。”
另一位CIO建议采用混合云基础架构,因为将所有企业应用程序从本地数据中心迁移到云中存在真正的业务连续性风险。
美国百货连锁店Kohl's的首席技术官Paul Gaffney表示,“我从不建议将一切都上云。我一直觉得这是对问题的过度简单化处理,会带来很多安全风险。”