IBM在自家云上打造相当全球第15快的AI超级电脑

IBM在自家云上打造相当全球第15快的AI超级电脑

IBM已经有2座全球前10大的超级电脑系统,如Summit和Sierra,但随着企业转向以云端为主的IT基础架构,蓝色巨人也亟欲展示其云端服务的能力。IBM研究院本周公布去年在自家IBM Cloud上建立专为执行人工智慧(AI)应用的云端超级电脑Vela,其速度相当於全球第15大的超级电脑。

IBM指出,超级电脑和AI本来属於两种不同领域;超级电脑多半是建立在裸机节点、高效能网路硬体(如InfiniBand、Omnipath和Slingshot)、平行档案系统及其他高效能运算(HPC)元件。但超级电脑并非为AI设计,而是为了建模或模拟任务,如执行大气变化模拟、材料开发或蛋白质摺叠等医疗研究。如果要用於执行AI模型建立,传统设计会使这类「AI超级电脑」的建造成本大为增加,且限制部署弹性。IBM研究院去年就在IBM Cloud上打造了第一台云端原生、为AI最佳化的「AI超级电脑」Vela,专门用於大量部署AI应用任务,而且已在2022年5月上线运行。

图片来源/IBM

IBM说明,Vela解决了效能及部署弹性的两难。在选择AI超级电脑基础架构上,IBM选择将节点配置为VM(virtual machine),而非配置为裸机,理由是前者更有弹性,可利用OpenShift在几分钟内动态扩大或缩减AI丛集或将运算资源在不同工作负载之间转移。但团队面临的挑战是在VM环境下配置出裸机般的效能。

Vela每个节点具备80GB A100 GPU,2颗第2代Intel Xeon Scalable处理器(Cascade Lake)、1.5TB DRAM及4个3.2 TB NVMe磁碟,IBM表示,超大记忆体及储存空间是为了能训练大型模型。为支援分散式训练,运算节点之间以多道100G网路介面卡相连,且使用IBM Cloud的VPN网路功能,确保连线安全性。

IBM表示,在IBM研究院和PyTorch的合作专案中,使用80GB记忆体使团队得以使用更大批次资料,以及Meta的FSDP(Fully Shared Date Parallel)训练策略,进行分散式训练任务,效率提升到高达90%以上,总参数超过100亿个。

此外,由於支援VM扩充(Virtual Machine Extensions,VMX)、Single-root IO virtualization(SR-IOV)及大量页面的裸机配置,使Vela的VM整体效能耗损减到低於5%。IBM说这是他们已知最低的耗损率,也让其AI超级电脑效能逼近裸机。IBM研究院希望展现,在标准的乙太网路云端基础架构上,也能轻易执行数十亿参数的AI模型。

The Next Platform估计,以Vela现有规格,其标竿测试的效能可达每秒27.9 petaflops,若按2022年11月最新的全球五百大电脑排行,约等同於全球第15大。

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x