某市理工大学创新中心

项目简介

某大学机器人与智能装备创新中心(简称中心)是某市理工学院高水平理工科首批建设的重大科技创新平台之一,中心面向珠三角地区智能制造产业,立足于该校的属地优势,人才优势和产业环境优势,重点围绕机器人、高端智能装备领域的前沿技术,志在打造集理论研究、技术开发、性能检测、成果转化、人才培养为一体的学科交叉融合综合性科技创新平台。为了给平台提供必要的科研环境,计划引入一套高性能计算系统。

客户需求

用于进行机器学习、科学计算、物理仿真、人工智能等领域:
1.支持GPU计算:提交GPU资源计算任务,多用户合理调度GPU卡
3.支持AI深度学习:使用深度学习训练框架,多机多卡调用异构计算资源进行计算任务
2.同时支持中英文界面,便于留学生使用及用于国际交流场合

痛点难点

对服务器集群算力整合、数据存储、资源调度等都提出了很高的要求。
 

解决方案

1.由7台五舟 S904H2 节点、1台五舟 S423H2 节点作为管理点、1台Pstor443S存储系统组成高性能计算集群。集群管理网络为千兆网络,数据应用网络为1000Mb/s 高速网络。所有计算数据存储于存储系统中,计算节点从存储系统上读取计算文件,并将计算结果果存入存储系统。
2.集群环境中总的存储量容量约有98TB容量,为数据提供纠错机制。本方案中存储设备均采用硬raid6加热备形式,同时采用数据分层技术,并通过网络定向计算节点输出无阻塞的网络通路,可提供极高的 I/O 速度,同时保证了单节点中的磁盘故障。又能提供较大的存储总量,后续具有高可扩展性,以满足将来由于数据的增加面对硬件升级的要求。