中华网

设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
军事APP
当前位置:新闻 > 社会新闻 > 社会新闻更多页面 > 正文

华为AI训练集群:由数千颗昇腾910 AI处理器互联构成(2)

华为AI训练集群:由数千颗昇腾910 AI处理器互联构成(2)
2019-09-18 13:22:01 网易科技

Atlas 900 AI训练集群通过华为集合通信库和作业调度平台,整合HCCS、 PCIe 4.0和100G RoCE三种高速接口,充分释放昇腾910 AI处理器的强大性能。

华为集合通信库提供训练网络所需的分布式并行库,通信库+网络拓扑+训练算法进行系统级调优,实现集群线性度>80%,极大提升了作业调度效率。

散热系统

传统数据中心多以风冷技术对设备进行散热,但在人工智能时代传统数据中心却面临非常大的挑战。高功耗器件比如CPU和AI芯片带来更大的热岛效应要求更高效的冷却方式。液冷技术可以满足数据中心高功率、高密部署、低PUE的超高需求。

Atlas 900 AI训练集群采用全液冷方案,创新性设计业界最强柜级密闭绝热技术,支撑>95%液冷占比。单机柜支持高达50kW超高散热功耗,实现PUE<1.1的极致数据中心能源效率。

另外,在空间节省方面,与8kW风冷机柜相比,节省机房空间79%。极致的液冷散热技术满足了高功率、高密设备部署、低PUE的需求,极大地降低了客户的TCO。

据了解,华为已在华为云上部署了一个Atlas 900 AI训练集群,集群规模为1024颗昇腾910 AI处理器。基于当前最典型的“ResNet-50 v1.5模型”和“ImageNet-1k数据集”,Atlas 900AI训练集群只需59.8秒就可完成训练,排名全球第一。

“ImageNet-1k数据集”包含128万张图片,精度为75.9%,在同等精度下,其他两家业界主流厂家测试成绩分别是70.2s和76.8s,Atlas 900 AI训练集群比第2名快15%。

Atlas 900 AI集群主要为大型数据集神经网络训练提供超强算力,可广泛应用于科学研究与商业创新,让研究人员更快地进行图像、视频和语音等AI模型训练,让人类更高效地探索宇宙奥秘、预测天气、勘探石油和加速自动驾驶的商用进程。

原标题:华为AI训练集群Atlas900有多快?算力相当于50万台PC

(责任编辑:卢书敏 CN069)
关键词:

相关报道:

    关闭
     

    相关新闻