机器“掘金潮”:面向人工智能时代扩展基础设施

2025年04月22日 21:36    发布者:eechina
作者:是德科技Jenn Mullen

在淘金热时期,怀揣着致富梦想的探矿者们纷纷涌入美国西部,希望通过淘金发家致富。如今,科技领域的开拓者也同样跃跃欲试,希望在人工智能(AI)领域大展拳脚。普华永道(PWC)估计,到2030年,全球经济总收益的45%将由人工智能驱动,越来越多的行业将受益于人工智能带来的生产力和产品性能提升。普华永道的研究进一步指出,人工智能有望为全球GDP额外贡献15.7万亿美元,增幅约为14%。然而,这一具有划时代意义的经济机遇,对计算能力和功率密度的需求已经远远超过了当前的承载能力。

无论是为淘金者提供商品、服务和安全保障,还是为企业提供服务器、存储系统、网络设施和数据存储,基础设施始终是推动发展的重要驱动力。随着人工智能应用的增加,对人工智能就绪的计算、存储和网络容量的需求早已超过了其可用性。这一划时代的经济机遇推动了对计算能力和功率密度的需求,使其超出了现有能力所能处理的范围。

全球政府和商界领袖都将目光投向了人工智能(AI)所带来的无限可能。政府的政策框架和投资计划,为各方在人工智能“淘金热”中抢占一席之地提供了政策框架和资金支持。

企业和产业界也在大力投资基础设施建设,以支持未来的创新发展。据《福布斯》11月估计,2025年,大型科技公司在人工智能方面的支出将超过2500亿美元,其中大部分投入将用于基础设施建设。仅微软一家公司今年就将投资800亿美元用于建设具备训练强大人工智能模型所需能力和速度的数据中心。这些数字看似惊人,但为了满足对计算能力的需求,确保人工智能创新不会停滞不前,这些投资是必不可少的。

计算能力:当今世界最宝贵的资源

人工智能数据中心提供人工智能工作负载所需的海量数据存储空间、闪电般快速的网络连接,以及高性能计算(HPC)能力,并以此推动人工智能的创新。人工智能数据中心还拥有精密的冷却和功率管理系统,能够应对人工智能硬件因高密度功率需求而带来的相关挑战。如果没有这些独特的功能,如今推动人工智能突破极限的开拓性创新就不可能实现。然而,随着越来越多的企业希望利用人工智能的潜力,人工智能数据中心的设计及其采用的系统也必须不断发展。

人工智能系统扎根于机器学习(ML)和深度学习技术,这两种技术都以计算强度大而“声名在外”。人工智能模型在训练过程中会处理大量数据。它们会在整个训练过程中调整和完善参数,以优化性能。即使对于基本模型而言,这也是一个计算密集型过程。

短短几年间,基于人工智能的应用已经发展到了收益递减的阶段。业界需要越来越复杂的模型来增强现有用例,并推动生成式人工智能(gen AI)等新兴用例的发展。然而,随着模型越来越先进,其对计算能力的要求也与日俱增,训练高级人工智能和机器学习算法所需的计算能力也会呈指数级攀升。OpenAI早期的生成式人工智能机器模型就是这种庞大计算能力需求的典型展示。在六年时间里,该公司的机器学习模型运行所需的计算能力增长了惊人的30万倍。

六年前,在获取训练模型(这些模型后来发展成为ChatGPT)的资源方面,OpenAI几乎不会遇到什么竞争对手。然而如今训练生成式人工智能模型的“参与者”大幅增加,所有人都在争夺那增长幅度极为有限的资源。生产下一个ChatGPT所需的大规模计算能力变得珍贵而有限。扩大这种资源的使用范围是一件成本高昂的事情,这一点从为构建这些资源而进行的投资规模就可见一斑。随着人工智能的飞速发展,人工智能数据中心开发人员正在寻找解决方案,以确保这些关键的创新驱动因素能够适应和扩展,从而满足未来的需求。

为不可预测的情况制定应对之策

在人工智能时代构筑数据中心意味着要确保这些设施能够适应大规模GPU集群的功耗,适应云计算和边缘计算之间动态变化的平衡,并提高容量以跟上不断增长的需求,避免出现中断或停机的情况。除了通过建设新数据中心来扩充容量外,确保数据中心的可靠性和安全性也至关重要。目前,传统的数据中心测试解决方案用于设计和测试构成人工智能数据中心的各类组件和系统。但这种方法已经难以为继,人们亟需一种全新途径。

人工智能数据中心由错综复杂的系统组成,而这些系统又是由一个个独立组件组成的复杂网络。其中任何一个环节出现问题,这些支撑创新和市场资本支出的基础设施就会受到影响。因此,人工智能数据中心的可靠性取决于其最薄弱的环节。在追求高性能的前沿领域,每一块芯片、每一根电缆、每一次互连、每一台交换机、每一台服务器和每一块GPU都蕴含着巨大的潜力,也都伴随着同等程度的风险。为了降低这种风险,每个组件都必须能作为一个系统,在日益增长的需求下独立、协调地工作。

构建能够应对人工智能工作负载巨大需求的网络,意味着要对每个组件、连接和配置进行验证。由于其所涉及的巨大风险和规模,即使是最小的效率提升、运营改进或性能增强,都会抵消创新的收益递减。因此,要想在这场现代“淘金热”中获得成功和利润,就必须采用能够承受未来各种挑战的新技术堆栈。

面向未来的人工智能创新

为满足未来对人工智能就绪型网络、半导体和数据中心设备的需求,就必须具备人工智能就绪型测试和仿真工具的技术堆栈。在这场“淘金热”中,无数数字勘探者会竞相角逐,争抢先机,而具备人工智能就绪的测试和仿真工具将帮助参与者脱颖而出。是德科技正在帮助人工智能数据中心设计人员进行面向未来的设计,并针对此类复杂环境的动态需求量身打造强大的工具技术堆栈。凭借涵盖仿真器、模拟器和测试硬件的全栈产品组合,是德科技解决方案可轻松模拟真实世界中的人工智能工作负载,对网络组件进行验证,并优化从物理硬件到应用层行为等各个层面的系统级性能。