PentaFleet
五舟高性能计算集群管理调度平台
五舟利用自身在服务器领域的专业优势所研发的一套超算中心管理软件,可将松散的服务器高效整合成一套性能优越的HPC集群系统,并实现集群资源统一部署、管理、监控、调度,最大限度发挥每一台设备的性能,并保障整个集群系统的高效性、可管理性。PentaFleet同时提供普通数值计算和AI计算两种软件形态,用户可根据自己的实际需求匹配合适的使用界面,可解决数值模拟和数据分析两大场景的诸多需求,并广泛应用于电子政务、科学研究、气象预报、生物制药、基因测序、图像处理、数据中心、大型邮件系统、管理信息系统、中大型网站、网络游戏服务器等诸多场景。
系统架构


方案特点
国产化
1.支持鲲鹏、飞腾多款型号国产CPU;支持麒麟、欧拉等国产操作系统
监控优势
2.丰富且直观的集群统一资源实时监控图表,包括GPU卡监控
3.详细全面的任务调度监控图表
4.对每个任务从开始到结束所占用资源的监控
方案优势
6.任务调度支持按不同的GPU卡或GPU数量进行调度
7.机房机架物理拓扑图查看
8.通过Web提交任务/定时任务、WebShell连接节点、Web连接VNC
9.支持LDAP用户认证系统
管理优势
10.针对不同用户不同配置的任务计费管理统计
11.强大的文件管理系统
12.自带Docker镜像仓库管理
13.自带AI计算框架
应用领域
灾备中心
灾备中心
高可用容灾性能集群
大数据应用
大数据应用
大数据计算任务资源调度
医院
医院
医疗影像系统(PACS)数据、资料归档、数据计算
交通
交通
视频、音频、图片等数据的计算和管理
教育
教育
教育资源、图书资源、数字档案、数据计算、资源调度、高性能集群
政府
政府
智慧政务、大数据计算
成功案例
某市理工大学创新中心
某大学机器人与智能装备创新中心(简称中心)是某市理工学院高水平理工科首批建设的重大科技创新平台之一,中心面向珠三角地区智能制造产业,立足于该校的属地优势,人才优势和产业环境优势,重点围绕机器人、高端智能装备领域的前沿技术,志在打造集理论研究、技术开发、性能检测、成果转化、人才培养为一体的学科交叉融合综合性科技创新平台。为了给平台提供必要的科研环境,计划引入一套高性能计算系统。
查看详情
上海某医疗公司科研项目
某医疗研究公司总部位于上海浦东区,其长期专注于国际高新技术研发及肿瘤领域的临床应用转化,其中一个科研项目是收集多种人类和动物的正常和肿瘤细胞系,并对其进行研究分析,将分析成果用于与广大科研工作者交流。该工作设计大量的数据收集,整理与分析,用传统的计算机无法满足其庞大的计算量,因而决定采用高性能计算机集群。
查看详情
产品规格
技术指标 指标参数
系统规格
机器盘位
4/8/12/16/24/36
单盘最大容量
16TB
聚合IO带宽
可选最大可达40GB
操作系统
提供可定制操作系统,默认为CentOS7.9 x86_64
磁盘接口
SATA、SAS、SSD可扩展NVMe
文件系统功能
文件系统
XFS/EXT4/NFS/CIFS/CephFS
权限管理
OpenLDAP
调度
多调度支持
支持Slurm、PBS、Altair PBS Pro等多种调度软件
资源调度
1.能够在用户需求、业务优先级和资源的高利用率之间实现智能的、动态的平衡、并确保HPC系统的高度可靠性、可用性及可扩展性
2.报警告示、文件备份
作业调度
支持将作业均衡的分配到所有计算节点上,避免任务堆积在个别节点,因争抢CPU、内存等资源导致计算变慢。支持随机选择作业的计算节点,解决特定场景和固定调度算法下某些计算节点被频繁使用的问题,允许作业独占计算节点
GPU调度
支持GPU资源调度,可用分配为作业分配指定数量GPU资源或者分配指定GPU资源
资源监测
支持对集群内计算资源健康状况的监测和管理,自动关闭或隔离异常计算资源
资源限制
可按全局,用户组,用户,队列、存储容量、核心数、运行时间、命令权限进行资源
可靠性
数据
RAID 0/1/5/6/10/50/60
存储
支持PentaStor分布式存储
作业管理
提交作业
支持脚本、命令、Web等不同提交模式、支持创建定时作业周期性执行作业
作业操作
支持对作业进行暂停、继续、取消的实时操作
作业监控
监控集群任务运行状态,显示集群核心数使用情况、不同状态任务数量、分区使用情况以及QoS的使用情况;针对单个任务监控其CPU、GPU、内存、磁盘IO的使用情况
用户管理
安全认证
支持用户账号安全策略功能,保障安全性,使用LDAP管理用户
数据隔离
每个用户的数据存储空间相互隔离,每个用户只能访问各自空间中的
数据,无法越界访问未授权的数据
运维管理
集群监控
1.监控集群所有节点状态,提供节点可用视图,CPU平均使用率、内存平均使用率以及GPU信息等可视化数据
2.监控集群GPU资源,包括GPU温度、负载、显存等关键参数
3.支持用户对选定时间段内的CPU、内存和GPU 使用进行统计
4.统一告警管理功能,符合策略将会产生告警信息
5.支持按照告警级别检索告警信息
监控统计
支持用户对选定时间段内的CPU、内存和GPU 使用进行统计
控制台
支持VNC、Web Shell
计费
计费管理
1.支持计费账号管理
2.支持通过“先充值后扣费”方式使用集群资源,只有账号余额充足时才能运行作业
3.支持导出作业粒度的计费详表,供用户核对
容器
镜像管理
1.运行中容器保存为镜像
2.可以提升私有镜像为公有镜像,可以拷贝镜像到其它仓库
3.本地环境pull和push镜像
4.通过docker exec console配置镜像并保存
5.自定义Python包
6.定制版Tensorflflow-GPU、Caffffe、PyTorch、Mxnet的各个版本镜像
7.系统自带镜像仓库实现镜像的保存、推送和下载
8.可查看镜像仓库中的镜像列表,查看镜像的名称、标签、创建时间等信息
9.可查看镜像OS类型、Kernel版本、python版本以及安装的packages
镜像仓库
支持容器技术封装计算应用,软件厂商自有容器仓库,基于容器镜像快速部署计算应用
AI
框架
支持Tersorflflow-GPU. Caffffe、PyTorch、Mxnet、Sklearn、Xgboost各个版本工具包镜像
训练
支持Tensorflflow框架的多机多卡分布式训练,基于Horovod的分布式训练,支持Tensorflflow、 PyTorch、MxNet
基础环境
编译器函数库
GNU、Intel编译器,PGI编译器,支持C/C++/Fotran;MKL、ACML、BLAS、LAPACK、ScaLAPACK、FFTW、PLAPACK、ETSc、GSL、PLASMA、Boost、HDF、netCDF等函数库
并行环境
OpenMP、OpenMPI、MVPAICH2等MPI并行环境(支持InfifiniBand,OPA,以太网)
机房信息
可视化机房机柜信息,集群各个节点在机柜中位置一一对应,可视化查看具体节点的资源占用情况和作业执行情况
基础环境
多语言支持
简体中文、英语
浏览器兼容
支持Safari,Edge,Firefox,Chrome最新版本及部分经典旧版本
系统适配性
CentOS 7.9
CPU适配
x86,鲲鹏920,飞腾D2000、S2500