【51CTO记者 谢海平 北京报道】YY 游戏云团队在2013年基于 OpenStack 上线了云平台1.0版本,在实际的运营过程遇到非常多的OpenStack 的质量问题,踩过很多的坑,随着规模增长,维护难度非常大,稳定性越来越低。基于质量和业务需求,YY 游戏云团队自主开发了第二代云平台,从零开始打造一套适合自己的企业私有云系统。
【讲师简介】刘亚丹:现任职YY-虎牙直播基础运维负责人,负责基础运维平台建设管理工作,9年互联网运维经历,经历服务器从数百到数千的规模,目前主要关注云计算和运维管理领域。深度参与 YY 游戏私有云1.0和2.0平台建设。深度参与YY 游戏 PaaS平台建设。对基于 OpenStack 的游戏私有云建设和运维、自主实现 SDN 虚拟网络和企业私有云建设方面经验丰富。
51CTO:YY语音为什么会部署Cloud 1.0?OpenStack又为何成为***?
刘亚丹:首先是基于公司业务发展的需要,云平台1.0主要服务于页游和web 类应用。页游业务是内存密集型业务,适合通过虚拟化提高 CPU 利用率。页游的特点是开服快、周期短、通过云化,提升页游开服效率和运维自动化水平。Web 类应用通过上层的 PaaS 平台,实现资源的弹性伸缩,故障自动隔离等特性。Openstack是非常优秀的开源项目,有非常好的设计思想,是云计算开源领域的标准。1.0版本在2014年上线前,我们对Openstack做了深入调研,结合自身的技术储备情况,认为Openstack满足我们当前和今后一段时间的发展需求。
51CTO:后来为什么舍弃了这套基于OpenStack的云平台1.0? OpenStack到底存在哪些问题?
刘亚丹:在运营基于 openstack 的1.0过程中,随着业务规模的快速增长,openstack 的自身问题逐渐被凸显出来,其中包括:稳定性,可维护性和扩展性方面的问题。
在稳定性方面,缺失稳定的版本支持,架构复杂,过多的模块、扩展、功能,导致容易出错且难以调试,组件代码质量不高;在可维护性方面,openstack 是出了名的安装部署复杂,对运维人员的素质要求非常高,且无法实现平滑版本升级;而在扩展性方面,随着业务规模的增长,各个组件的性能问题非常严重,如 dnsmasq,keystone,以及核心组件 MQ 的性能问题。以上这些问题,导致平台在使用上小问题不断,开发和运维人员救火不断,疲于奔命。
51CTO:Cloud 2.0是自主研发的,采用了什么技术?架构上做了哪些调整,哪些优化?
刘亚丹:Cloud2.0核心是实现基于硬件的VXLAN网络封装和实现自主可控的云管理平台。通过交换机硬件实现VXLAN数据包的解封装,实现真正的二层隔离的软件定义网络。在性能方面,采用万兆以太网节接入。而在存储方面,使用了分布式的块存储,实现VM的秒级快速启动和快速的故障恢复,以及存储容量和性能水平***扩展能力。
51CTO:游戏行业私有云平台建设与运维具有哪些特点?
刘亚丹: 前面提到,游戏业务天生适合运行在云上,内存密集型,非 CPU 密集型。页游具备开服快,周期短等特点。YY语音作为一个游戏平台和游戏发行方,主要提供 IaaS 的游戏私有云平台。游戏业务是一个现金流的业务,平台的稳定性非常重要,平台故障直接导致经济损失。作为私有云平台,本身的容量池不会非常庞大,平台的容量管理非常重要,容量空闲过多造成资源浪费,容量不足将导致服务不可用,而爆款游戏的资源需求非常快速,因此运维的核心在平台的稳定性保障和容量管理。保障有足够的容量满足业务需求,同时又不至于造成过多的资源空闲。
51CTO:新平台运维的重点和难点在哪儿?
刘亚丹:新的云平台运维的重点是网络和存储的运维。
网络和存储都是云平台的核心组件,任意一个组件出现故障,都将导致云平台整体故障。在网络方面,在整体架构设计上,全部采用高可用架构设计,无单点故障,由于第三方网络设备 QoS 能力还不尽完善,在QoS 上更多借助于外部的监控和预警。在存储方面,ceph 存储的容量和性能做过大量的压测和应用场景模拟,对基于当前硬件架构的集群的性能和容量有一定的经验,对相应的指标做好监控和预警,如集群的读写吞吐量,读写次数分别作监控预警,云上业务的场景较为复杂,云存储的容量直接影响 VM 的可用性。需及时把握业务的容量需求,适时补充存储容量,保证业务 SLA。
51CTO:您对DevOps如何理解?如何实践DevOps?
刘亚丹:我认为 DevOps是先进的 IT 软件开发模型,将以往开发、运维团队的关注的不同目标,转为共同的目标,即面向业务的最终用户价值交付。DevOps 更多强调的是开发、运维团队的合作,以达到软件交付的敏捷、高效、可靠。DevOps 在实践中,要求从5个方面进行落地,分别是文化(culture)、精益(Lean)、自动化(automation)、度量(mertrics)、分享(sharing)。
具体到公司内部,我们在文化上非常的包容,比如在遇到应用故障的时候,开发和运维团队更多强调问题的解决,不会过分的强调责任归谁。在业务交付链中,通过平台建立了一系列的自动化工具,整合从开发、构建,、打包、测试、部署、反馈的工具和度量体系。
51CTO:私有云建设将是未来很多企业要面临的选择,对此,能否结合您以往的这段规划、建设、运维经验,总结一下企业私有云建设,应该需要注意哪些关键问题?
刘亚丹:有三个问题需要重点关注。
***,获得支持。私有云建设在 企业 it 建设中是一个战略问题,需要得到自上而下的支持;
第二,逐项落地。私有云建设需要结合企业的自身需求,逐步落地各项功能,比如可以先从计算虚拟化开始;
三是,控制风险。私有云是未来很多企业的选择,对于 IT 从业者来说,充满挑战和机遇,在实践的过程中,需要控制好风险。
51CTO:对于云计算的发展您是如何看待的?一些新的技术您是如何看待的?
刘亚丹:云计算作为一种高效的 IT 资源供给模式,未来几年会有更多基础设施资源,通过云的方式提供服务,也会有越来越多的行业,使用云来满足企业发展。几年前,当我们讨论说云计算未来是不是像水电资源一样被人们使用,可能有很多人觉得太遥远了。但今天来看,这样的情况变得越来越现实。
一些新技术,比如人工智能领域的GPU算法的进步,以超乎想象的速度落地到应用,产生了很多机会。而一些创业公司,正是抓住了这些新技术,因而能够快速成长为独角兽型的公司,比如今日头条,快手等 App。这些公司通过机器学习算法做精准内容推荐,比传统的静态内容分发更具竞争力。作为一个技术人员,我们需要保持对新技术的好奇之心,需要不断的学习,才能跟上时代的发展步伐。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】