技术规格及参数 | 1.1 机型:机架式服务器,高度≥4U,提供导轨 1.2 CPU:配置≥2颗AMD EPYC 9965 CPU,单颗处理器核心数≥192,总线程数≥384,单颗处理器主频≥2.25GHz,睿频≥3.35GHz,缓存≥384MB, 1.3 配置≥2块GPU加速卡,核心数≥(略),单卡 FP32 算力≥ 91.6TFLOPs,单卡GDDR6显存≥48GB,且显存支持ECC 1.4 内存:16条 DDR5内存,单条内存≥64GB,内存频率≥6400MHz,支持内存镜像、内存热备、内存故障隔离等多种保护模式 1.5 存储控制器:配置≥1块国产自研存储控制器,支持RAID 0/1/10,支持串口远程Debug,便于远程运维;支持RAID0/1/10/5/6/50/6 1.6 本地存储:配置≥1块960GB SSD硬盘,≥1块7.68TBU.2 企业级,≥3块 16TB SATA SSD硬盘 1.7 配置≥4个千兆电口 1.8 PCIe扩展:支持≥11个PCIe5.0拓展插槽 1.9 电源:配置≥4个2600CRPS 高效白金热插拔电源,支持 2+2/3+1 冗余模式 1.10管理功能:电集成BMC管理芯片AST2600,支持IPMI 2.0、SOL、KVM、虚拟媒介等功能 1个1Gbps RJ45专用管理口 ,提供开放的管理平台,支持 IPMI2.0、Redfish、SNMP 等多种管理协议 1.11提供1套集群管理调度系统,配置满足本次采购设备所需的软件授权许可 (1)统一门户,提供计算服务运营能力,包括资源服务申请、资源审批、配额管理、数据管理、用户管理、计费功能及集群自动化运维、运营状况统计等功能;支持用户/团队管理,系统管理员可以创建团队,团队管理员可以管理组内用户,对组内用户进行添加、删除,以及资源分配工作,团队管理员还能查看所属组内用户账单信息等 (2)告警信息:支持自定义通知策略,实现页面预警、邮件告警等通知方式;符合告警策略条件将会产生相应告警信息并通过邮件、短信方式通知负责人 (3)作业管理:支持远程命令行提交、模板提交、图形提交等多种作业提交方式,支持基于Web的作业管理,支持对运行作业的输出进行实时监控,支持输出文件的下载,对VNC图形作业提供基于浏览器的远程访问功能,提供作业热图,直观展现用户作业在算力中心的分布情况,以及算力中心资源的整体使用状况 (4)调度视图:可直观查看Slurm服务状态、Agent线程数、RPC线程数、未调度作业等待时间最大值、等待调度时间大于10分钟作业列表等信息。 (5)多集群管理:支持多算力集群统一纳管,提供集群接入和集群配置功能;实现平台管理员多集群统一运营管理;用户可申请不同集群资源进行任务提交;提供存储监控、作业监控、集群监控等大屏仪表盘,直观的展示集群运行情况、节点使用情况、作业状态、集群资产等数据 (6)物理视图:为方便维护,提供直观的物理视图,按照机房-机柜-服务器的维度,真实还原设备的真实物理位置分布和位置关系。支持快速查看各类资产的告警信息。 (7)网络拓扑:以拓扑形式,展示以太网、IB网络内的各种交换机—服务器之间的连接关系和运行状态,能够展示任意两台相连资产间的流量情况。 (8)集群健康状态检查:对全部计算节点进行健康度检查,筛选出存在故障的节点,进行自动处理或报修到售后。 |