身为 AMD 公司的 CIO,Hasmukh Ranjan AMD 走到了云计算的十字路口。作为一家芯片制造商,AMD 是公共云计算引擎的重要供应商。Ranjan 的主要职责之一是支持为云提供动力的半导体工程。但是,作为用户,Ranjan 和所有的 CIO 一样,必须决定把他的公司的工作负载放在哪里最好。而对于 AMD 最关键的工程应用程序来说,答案并不是云,仍然是它自己的数据中心。
这是因为像 AMD 这样的芯片制造商需要超大规模的计算能力和内存,以及 PB 级的存储以运行他们的设计应用程序。尽管如此,Ranjan 在上任一年后说,AMD 近 95%的业务应用在公共云上运行。 Ranjan 说,只是 AMD 为制造处理器而创建的庞大的工程应用不会在云上运行。
他说:“对于工程来说,云供应商没有我们要找的那些高端机器。”他指出,AMD 的设计应用程序要求每个核心高达 64GB,“我们还扩展到 2 到 4TB 的系统。”
Ranjan 表示,这些庞大的需求在三个维度上继续增长:“种类、速度和数量”。这其实是指 AMD 不断扩大的产品组合、AMD 设计工作的高速度,以及芯片设计过程中产生的大量数据。
正因为如此,Ranjan 预计 AMD 的数字基础设施将在一段时间内保持混合状态,业务流程在云端,工程在内部,直到大规模的 HPC 工作负载在公共云上得到广泛支持。然而,Gartner 的分析师 Sid Nag 指出,亚马逊网络服务等云供应商提供了高达 224 个内核的实例,企业已经在云中运行 HPC 工作负载。
芯片设计性质的转变
Ranjan 说,并不是所有的 AMD 的芯片工程流程都是在企业内部进行的。他指出,AMD 有 10%到 15%的计算是在云端进行的。这在业界是很典型的。
由于工程要求,大多数芯片制造商自始至终都与 Cadence design Systems、Synopsys 和西门子等电子设计自动化(EDA)供应商合作,将设计的最终蓝图直接从数据中心提供给制造合作伙伴和晶圆厂。这个紧密集成的过程还保证了数据的完整性和安全性。
但这种情况正在发生变化。AMD 公司的 Ranjan 指出,Marvell 半导体公司在 2 月份宣布与 AWS 合作,这表明半导体公司希望在其生产的各个方面更多地使用云。根据公告,Marvell 选择 AWS 作为其 EDA 的云供应商,以采取云优先的方式进行芯片设计。
Ranjan 表示:“但是由于技术和商业原因,这个行业在采用公共云方面有点慢。对于高端系统,地面和云端的价格差异可能非常非常大。”
虽然芯片设计和制造没有什么变化,但分析师们说,所有的半导体公司都与云计算供应商有紧密的合作关系。例如,为了适应这个非常重要的垂直领域的一些工作负载,他们一起设计、建立了专门的 HPC 云服务。
麻省理工学院斯隆管理学院高级讲师、全球机遇计划创始人 George Westerman 指出,对于任何企业来说,在企业内部或在 HPC 云上运行工程设计的决策过程都是一样的:访问成本、数据传输的延迟成本以及网络安全问题。
主流供应商和芯片设计服务(如Cadence、Synopsis和Marvell)的 HPC 云实质上是半导体行业的行业云。唯一的区别是,芯片制造商直接与他们的制造伙伴或晶圆厂合作,为生产产品进行内部工程设计。
位于加州圣何塞的技术制造咨询公司 TechInsights 的产品总监 Risto Puhakka 说:“半导体方面的规模比现在的云计算方面的规模要大。这些数据流令人难以置信的庞大。他们创建了专门的管道,将这些数据转移到台积电,为他们的晶圆加工制作掩码。”
改造 IT
同时,在 Ranjan 收购和培养更多的工程人才以生产最好的产品的同时,他也在改造公司的数字基础设施以满足业务目标——尽可能地使用云。例如,Ranjan 说,AMD 最近将其 SAP 应用程序转移到公共云上。
CIO 的任务还包括确保 AMD 拥有庞大的数据库和分析能力,为其工程团队提供足够的资源。在这里,AMD 在 AWS、微软 Azure、谷歌云平台和甲骨文云上实施了领先的数据仓库、自动化应用程序和人工智能算法。所有这些都是为了与 AMD 的高层愿望保持一致,即通过芯片的进步更好地支持所有云客户的 HPC 工作负载。Ranjan 正在通过为他的工程师提供最先进的混合平台来设计芯片来解决这一问题。
Ranjan 认为,一切似乎都在向好的方向发展。他表示:“大部分的计算都发生在我们在美国的大型数据中心--一个在亚特兰大,其余的分布在世界各地。AMD 公司 54%的服务器机龄都不到两年。我们做到了与时俱进。这不仅能够实现非常高效的计算,而且也是可持续发展的最佳点。”
人工智能的价值
就商业而言,半导体行业在过去十年中一直处于过山车式的供需关系中。最近,疫情减缓了材料供应,这反过来又减缓了制造过程,并导致芯片严重短缺。Ranjan 说,由于可能的经济衰退减缓了对消费设备、个人电脑和服务器的需求,这种短缺近来已有所缓解(汽车行业除外)。
但是,让 AMD、Inetl 和 Nvidia 等公司保持强劲需求的是云管理程序的持续增长,以及最近对机器学习模型和平台(如ChatGPT)日益增长的需求。
Ranjan 的设计师也是人工智能的大消费者,这些工具正稳步融入 AMD 的设计流程中。除了来自 Cadence、Synopsis 和西门子的高度专业化 EDA 工具外,半导体工作流程还需要源代码管理系统和越来越多的 AI。
Ranjan 说:“我们正试图用现有的新人工智能技术和工具来补充这一环境。它们处于不同的部署阶段,有些是内部开发,有些是与不同的人工智能供应商合作。”
迎难而上
虽然 Ranjan 与云的关系可能是非典型的,但他认为,他的核心工作与所有企业的 CIO 是一样:将 IT 投资与整个组织的业务需求和目标相结合。
要做到这一点,Ranjan 认为 CIO 需要比业务方面领先半步,以便扩展和支持公司不断发展的指令,并提供公司各方面所需的基础设施,包括业务和技术。
这是一种平衡的行为,但 CIO 在核心管理层中的角色已经与行业的整体数字化转型同步发展了。IT 部门不再只是一个成本中心,事实上恰恰相反。
Ranjan 说:“我们的梦想是为公司创造价值,并与公司的业务保持一致。我首先要寻找的是,我正在创建的解决方案是否 100%符合公司不断变化的业务需求。我渴望每天都处于这种模式。”
来源:www.cio.com