全AMD供电和世界上第一台Exascale超级计算机Frontier自启动以来一直遇到问题

  • 发布时间:2022-10-13 16:05:44 来源:
标签:
导读 橡树岭国家实验室或ORNL是Frontier超级计算机的所在地。Frontier被标记为第一个使用AMD的EPYCTrentoCPU和InstinctMI250X计算加速器创建的百

橡树岭国家实验室或ORNL是Frontier超级计算机的所在地。Frontier被标记为第一个使用AMD的EPYCTrentoCPU和InstinctMI250X计算加速器创建的百亿亿级系统。整个系统使用HPE的Slingshot互连。它也被认为是世界上最快的超级计算机,并且是世界上唯一可操作的百亿亿级设计。

AMDMI250X计算GPU和HPE的Slingshot互连可能是围绕Frontier超级计算机性能下降和冲突的问题背后的原因

HPE的CrayEX架构是为大型应用程序创建的,从2023年开始,研究人员将能够访问这些应用程序以协助科学研究。但是,如果硬件内部出现多次故障,超级计算机无法运行一整天。

ORNLFrontier启动但最多只能产生1FP64ExaFLOPS,而该系统旨在提供1.685FP64ExaFLOPS。虽然没有就具体问题给出任何消息,但一些谣言正在曝光。

首先,为HPECray超级计算机创建的网络Slingshot互连与HPE集群发生冲突。不幸的是,确切问题的具体情况尚不清楚。其次,传闻AMDInstinctMI250X计算GPU和EPYCTrentoCPU与Slingshot互连发生冲突。同样,ORNLFrontier超级计算机的项目负责人或研究人员也没有给出任何官方消息。

在关于insideHPC(2021年12月)的一篇文章中,能源部(DOE)百亿亿次计算项目的MikeBernhardt表示,ORNLFrontier的完全集成将从明年开始提供给研究人员,但没有引用任何担忧或问题随着Frontier超级计算机的全面推出。

ORNL在百亿亿次计算工作中的合作伙伴HPE和AMD已在今年秋季提前向ORNL交付了新的Frontier系统。Frontier的安装和集成是一项庞大而复杂的工作,目前正在进行中,目前的进展表明一切都在按计划进行,明年将Frontier提供给用户进行开放科学——正如预期的那样。

MikeBernhardt(美国能源部百亿级计算项目的沟通主管)通过InsideHPC

伯恩哈特的位置说明“复杂的努力”可能导致有关该项目的谣言比比皆是。还要注意的是,AMD的MI250X计算GPU仅适用于特定客户,这就是为什么缺乏基准来支持传闻的说法。美国能源部与橡树岭前沿的领导计算设施密切合作。在错过了最初的2022年最后期限后,ORNLFrontier超级计算机计划于2023年1月1日全面投入运行。

  • 免责声明:本文由用户上传,如有侵权请联系删除!