译者 | 李睿
审校 | 孙淑娟
在大部分时间里,IT弹性一直专注于正常运行时间,确保业务系统不会出现宕机。如果出现宕机,则尽快让它们恢复在线运营。
但这只是现代数字时代的一部分。如今,IT弹性意味着更多。
博思艾伦咨询公司的首席信息官Brad Stone表示,他通常从两个方面考虑弹性:一个是让业务不受干扰;二是要具有调整、应对变化和应对突发事件的能力。此外,弹性现在意味着做到这一切的同时,不断地提供用户期望的体验。
他说,“在十年前,如果发生故障或中断,只是及时处理即可。但是当今的用户和业务主管希望科技一直发挥作用,并提供令人惊叹的体验。人们现在的期望值要高得多,因为IT是一个推动者,它变得更加重要。虽然用户可能并不要求完美,但他们的标准非常高。”
这反过来又促进采用更广泛的方法来确保当今的IT弹性。专家和IT领导者为此提供了建议首席信息官采用的7个最佳实践,以确保他们满足当前对弹性的期望。
1.与业务需求保持一致
咨询和服务机构GuidePoint Security公司的业务弹性总监Ron Brown将IT弹性定义为确保技术总是可用,尽管他承认不太可能做到完美。
他说:“企业必须做好准备,因为突发事情会在某个时候发生。”
Brown指出,首席信息官可以清楚地知道哪些系统对业务最重要,从而为这种必然性做好准备;这种清晰性让IT团队知道在任何类型的宕机期间首先应该关注什么。
他说,“毫无疑问,IT团队必须做的第一件事就是与业务团队保持一致,了解他们的需求以及愿意为其目标所付出的代价。业务影响分析可以帮助IT部门和业务部门实现这种一致性。一旦了解了业务的需求,那么将如何规划拥有的服务和功能以及哪些应用程序由哪些团队使用,以便在出现问题时知道把重点放在哪里,并让它们恢复正常。”
2.打破孤岛
现在担任网络风险管理商Axio Global公司的高级顾问Richard Caralli以前曾是一名首席信息安全官。他认为,弹性是从管理运营风险延伸出来的一种新兴属性。
为了做到这一点,IT运营和网络安全应与负责监督业务连续性/灾难恢复计划的领导者合作。然而,这种情况并不总是发生。
他说,“这些活动往往是孤立的,因此每个学科都在不同的风险假设和情景下运作,而实际上它们必须融合并协同工作。”
Caralli表示,例如,企业的网络安全团队可能专注于创建一个出色的深度防御策略,以便更好地确保它能够防止入侵,在发生入侵时进行检测,并在它们发生时做出响应。但是,如果网络安全人员没有与风险和IT团队密切合作,那么IT团队可能无法很好地规划如何以最少的后果尽快恢复正常运行条件。
他补充说,“如果他们没有在一起进行协商讨论,可能会针对不同的风险各自进行规划或量化。他们必须一起规划和运行方案。如果从影响方面看待风险,并能够预见可能发生什么样的后果,就可以开始量化风险,然后知道将资金花费在哪里,是将其用于预防方面还是花在减少影响的安全实践上。”
3.让指标更加成熟
管理咨询公司麦肯锡公司的合伙人Jorge Machado表示,随着IT弹性的发展,首席信息官应该调整用来衡量和管理运营的指标,以确保他们实现正确的目标。
Machado说,“在传统上,如果回到10年前,这将是关于正常运行时间、应用程序的可用性以及平均恢复时间。但如今,随着应用程序越来越以微服务为导向,我们不再使用单一的系统,需要以更细致入微的方式进行衡量。”
他和他的同事麦肯锡公司合伙人Arun Gundurao建议,将衡量重点放在执行关键交易的能力上,例如从用户角度衡量客户交互失败、应用程序体验或服务水平目标。
Gundura说,“这是企业关心这个应用程序或客户旅程中的重点,要衡量的是企业想要衡量的东西。”
4练习和实践
博思艾伦咨询公司的Stone认为,弹性意味着成功处理意外情况。为此,Stone需要确保其IT部门不会为突发事件而措手不及。这意味着通过练习和模拟进行培训、测试和练习。
他说,“IT团队经常进行练习,而不是事先所有人,在发生突发事件时观察团队成员的反应。这就像是实弹演习。IT团队必须在正确的时间小心行事,但这必须成为节奏的一部分。而IT团队必须有一些标准的操作程序,通过这些程序并加以完善。必须让员工感到不舒服,向他们发起挑战。而团队成员在练习中也会加深友谊,因为只有团结在一起才能度过难关。”
Stone说,这样的练习让首席信息官和他们的IT主管有机会在运作良好的流程中建立信心,并找出不足之处,例如缺乏经过关键技术培训的冗余员工,或者在某个应用程序失败时缺乏备份程序。
5.架构弹性
IT顾问强调,通过跨地理位置分布实例和有效负载,将弹性构建到架构本身非常重要。
Stone表示,确保弹性系统的一种方法是简化所做的事情,这样可以很好地满足期望。这种方法还有助于防止团队规模过度扩张。
他补充说,将事件、问题和变更管理实现自动化也有助于建立弹性。
Gundurao建议采用站点可靠性工程(SRE),这是一套用于基础设施和运营的原则和实践,旨在创建可扩展和可靠的系统。Machado补充说,站点可靠性工程(SRE)以及那些专注于构建IT技术并接受过相关培训的人员,不仅可以在顺境中顺利工作,而且还能够在困境中开展业务。
埃森哲公司全球企业架构负责人Andrew Long认为,大型传统企业越来越多地采用数字原生组织使用的原则、技术和方法来构建更具弹性的IT系统。他说,“这使企业能够提高其对破坏性业务事件的应变能力,从而变得更具竞争力。为此,IT领导者正在强调速度和敏捷性、以数据为中心和去中心化,以及持续集成和持续交付、站点可靠性工程(SRE)和微服务,以更加模块化和可组合的方式提供未来组织所需的业务能力。”
他补充道,还从传统的基于瀑布的IT项目交付转变为更以产品为中心的IT交付和运营,这往往会考虑支持IT弹性的更广泛的更具战略性的需求。
Long说,“几乎所有企业都在云中拥有部分IT资产,但关键是考虑可以利用哪些独特的云计算能力来提高企业的能力,使其变得更敏捷和更有弹性。”
6.保持警惕
专家表示,企业风险、业务需求和技术都将继续发展,围绕IT弹性的实践也应如此。
Long说,“在与企业合作的过程中,了解他们看到的业务中断风险、风险规模,以及至关重要的是,他们如何量化这种风险以及潜在价值。通过清楚地了解企业的技术环境的当前状态,可以更好地了解如何应对这种中断,以及关键风险区域所在的位置。”
他表示,确认需要采取的具体干预措施以最大限度地降低风险,并制定路线图以实现变革。只有每个人都对业务风险保持一致,才能执行这一路线图。
7.让业务团队分担责任
Machado表示,业务团队也可以在IT弹性方面发挥重要作用,因此业务团队的领导者也应该对此承担一些负责。
他解释说,“我认为业务团队必须有一个问责制模型,并且应该与员工共同承担,无论谁开发应用程序,都应该为其分担责任。这不应该只是首席信息官的职责。”
Machado并不提倡业务团队接管IT运营以及应用程序和系统的日常管理。与其相反,他们应该明白他们的要求和优先事项会影响弹性。
例如,如果业务团队主管不断地将上市时间和价值创造速度放在优先位置,那么他们需要对是否以及在多大程度上影响弹性承担责任。
原文标题:7 tips for improving IT resilience in the digital era,作者:Mary Pratt