大多数时候,IT弹性一直是关于正常运行时间、确保系统不出故障,如果出现故障,需要尽快让系统恢复在线。
但是在这个现代化的数字时代,这些只是其中一部分,如今IT弹性有了更丰富的含义。
作为咨询公司Booz Allen Hamilton的首席信息官,Brad Stone表示,他会从两个方面考虑IT弹性:
- 一个是让业务不受干扰;
- 二是要有调整、应对变化和应对突发事件的能力。
他还认为,如今,弹性意味着要做到所有这些工作的同事,持续不同地提供用户所期望的体验。
“十年前,如果发生停电,他们也就容忍过去了。可是现在,用户和业务领导者希望技术应该始终是有效的、提供令人惊叹的体验。现在人们的期望值要高得多,因为IT是一个推动力,IT变得越来越重要。用户也许并不要求凡事做到完美,但是他们的标准非常非常高。”
这反过来提出了一个需求,那就是采取更广泛的方法来确保IT弹性。因此,专家和IT领导者为CIO提供了以下7种最佳实践,确保他们满足当前对弹性的期望。
1. 与业务需求保持一致
咨询和服务公司GuidePoint Security的业务弹性总监Ron Brown把IT弹性定义为确保技术始终可用,但他也承认,这种完美是不可能做到的。
他说:“你确实要在任何时间点为任何可能发生的事情做好准备。”
CIO们可以明确哪些系统对业务是最重要的,从而为这种必然性做最好的准备。他说,这么做IT部门就会知道在任何故障发生期间首先要关注的是什么。
“毫无疑问,你要做的第一件事情就是与业务保持一致,了解他们的需求以及他们愿意为期望所付出的代价,”Brown指出,分析业务影响力可以提供帮助IT部门和业务部门实现一致性。“一旦你了解了业务的需求,那么接下来你要做的,就是梳理现有的服务和能力,以及哪些部门正在使用哪些应用,如果发生故障,你就知道优先做什么才能让系统重新运转起来。”
2. 打破孤岛
网络风险管理公司Axio Global高级顾问、曾经的CISO Richard Caralli表示,弹性是“从管理运营风险延伸出来的一种新的属性”。
因此,IT运营和网络安全应该与监督业务连续性/灾难恢复计划的负责人展开合作,但是,有时候情况并非如此。
他说:“这些部门往往是孤立的,大家都有不同的风险假设和情景,但实际上他们必须是相互融合并且协同工作的。”
Caralli举例说,某个企业组织的网络安全团队可能专注于制定出色的纵深防御策略,确保能够最好地防止入侵,在入侵发生时检测到入侵行为,并做出响应。但是,如果网络安全团队没有与风险和IT团队紧密合作的话,那么可能就无法在“尽快恢复正常运行条件、且最大程度上减少后续影响”方面做的特别好。
他补充说:“如果这些团队没有在一起进行讨论的话,他们可能正在计划或者量化的是不一样的风险。他们必须一起计划和运行各种场景。如果从后续影响方面、以及预测可能发回升怎样的后果方面来评估风险的话,你就可以开始量化这些风险了,你就会知道该把钱花在什么地方,是用于预防,还是用在减少影响的措施上。”
3. 调整指标
麦肯锡公司合伙人Jorge Machado表示,随着IT弹性逐步改善,CIO们应该对用来衡量和管理运营的指标进行调整,以确保他们实现的目标是恰当的。
“如果我们回到十年前,这些指标主要就是围绕着正常运行时间、应用可用性、平均恢复时间的。但是现在,随着应用变得更加面向微服务,而且越来越分散化,我们需要以更细致入微的方式进行衡量。”
麦肯锡公司另一位合伙人Arun Gundurao建议说,衡量的重点是执行关键交易的能力,例如衡量客户交互是否失败、用户视角的应用体验、或者服务水平目标。
Gundurao说:“这就是业务对于应用或者客户旅程的关注重点,业务想要衡量的指标,也就是你想要衡量的对象。”
4. 付诸实践
在Stone看来,弹性意味着能够成功处理各种意外情况。为此,Stone要确保他的IT部门已经做好了准备,也就是说,要通过训练、测试和实践进行演练和模拟。
他说:“要进行演练,故意让集群发生故障,不通知所有人,看看大家的反应如何,就像是实战演习一样。对这种演练你必须小心谨慎,在恰当的时间进行,但必须成为日常工作的一部分。你必须制定一些标准操作流程,执行这些流程,并对其进行改进。你必须愿意让你的员工走出舒适圈,挑战自己。这也会增进他们之间的友情,因为他们知道他们可以共渡难关。”
Stone说,这样的演练让CIO和他的经理们有机会建立起对流程的信心,建立肌肉上的记忆,以及发现潜在缺陷,例如缺乏具备关键技术能力的、训练有素的员工,或者缺乏备份流程可能会导致特定应用出现故障。
5. 构建弹性
有IT顾问强调说,通过例如跨地理位置分布实例和有效负载在架构本身中构建弹性,这是非常重要。
Stone指出,确保系统具有弹性的一种方法是“简化你所做的事情,这样你就可以很好地满足期望,”这种方法还有助于防止团队过度扩张。
他说,将事件、问题和变更管理自动化,也有助于建立弹性。
Gundurao建议采用站点可靠性工程(SRE),这是一套用于基础设施和运营的原则和实践,旨在创建可扩展、可靠的系统。Machado补充说,SRE以及那些接受过SRE原则训练的人,专注于构建IT,不仅是为了确保日常运转,也是为了应对各种可能的突发情况。
埃森哲全球企业架构负责人Andrew Long认为,大型传统组织越来越多地采用数字原生组织使用的原则、技术和方法,来构建更具弹性的IT系统。他说:“这让企业能够提高自身对颠覆性商业事件的应变能力,从而变得更具竞争力。”
为此,IT领导者们正在强调速度和敏捷性、以数据为中心和去中心化,持续集成和交付,SRE和微服务,以更加模块化和可组合的方式,提供未来组织所需的业务能力,Long说。
他们还从传统的、基于瀑布的IT项目交付模式,转变为“更加以产品为中心的IT交付和运营模式,在这种模式下,往往会考虑支持IT弹性的、更广泛且更具战略性的需求。”
Long说:“几乎所有组织都在云中拥有部分IT资产,但关键要考虑的是,有哪些云特有的功能可以用来提高组织的敏捷性和弹性。”
6. 保持警惕
专家认为,组织风险、业务需求和技术都将持续发展演进,围绕IT弹性的实践也应如此。
Long说:“要与业务团队展开合作,了解在哪些方面会看到业务中断的风险、风险规模、以及至关重要的是,他们如何量化这种风险以及潜在价值。”通过清楚地了解技术环境的当前状态,你就可以更好地了解组织应该如何应对突发情况,以及关键风险区域所在的位置。
“你应该确认需要采取哪些具体的干预措施,最大限度降低风险,制定路线图以实现变革。”Long补充说,只有“大家就业务风险保持一致”,才能很好地执行路线图。
7. 和业务共同担责
Machado说,业务方面也可以在IT弹性方面发挥作用,因此业务部门的领导者也应该对此负责。
“我确实认为,你必须有一个问责制模型,与业务共同担责。因此,任何构建某个应用的人,都应该对这个应用负责,而不只是CIO的责任。”
Machado并不提倡业务部门接管IT运营、应用和系统日常管理的任务;相反,他认为,业务部门应该明白,他们的要求和优先级会给弹性带来影响。
例如,如果业务部门的领导者总是优先考虑面市时间和价值创造的速度,那么他们需要共同承担责任,了解这是否会影响弹性以及影响程度有多大。