华南师范大学纳管计算资源建设项目需求公示

华南师范大学纳管计算资源建设项目需求公示

招标详情

华南师范大学
联系人联系人3648个

立即查看

可引荐人脉可引荐人脉822人

立即引荐

历史招中标信息历史招中标信息84272条

立即监控

****点击查看纳管计算**建设项目需求现做公示公告,并公开征求意见,公示期为8月18日至8月24日,如有任何意见建议请于公示期内发送邮件至****点击查看@m.scnu.****点击查看.cn。

具体需求如下:

项目概述
项目概述

1、项目名称:****点击查看纳管计算**建设项目

2、采购预算:人民币3662.08万元。

3、采购内容:面向校内各单位的教学科研计算**需求,建设一个综合性算力服务平台,作为全校算力**的中枢神经系统,对校内各单位的超算(HPC)和智算(AI Computing)算力建设需求进行全生命周期统一纳管。

项目背景

****点击查看是国家“双一流”建设高校、“211工程”****点击查看大学、**省和教育部共建高****点击查看大学重点建设高校。“十四五”期间,****点击查看智慧校****点击查看学校教育模式改革、治理现代化的创新驱动阶段,紧紧围绕“创新人才培养、教师教育发展、学校综合改革、校园科学治理”等信息化核心支撑、连接与服务工作,****点击查看学校智慧校园建设。随着人工智能、大数据、科学计算等领域的快速发展,校内各单位对超算、智算算力的需求呈现爆发式增长。当前,校内各单位分散建设的算力**需求存在重复投资、利用率低、管理分散等问题,难以满足日益增长的科研与教学需求。项目将统一规划、统一采购、统一建设、统一管理全校超算、智算算力**,整合现有及未来院系新增算力需求,构建一个物理集中、逻辑统一、服务开放的算力服务平台。

建设依据
《IEEE 1855-2023 智能计算系统架构指南》
《ISO/IEC 23894:2023 人工智能—机器学习计算**管理》
《高性能计算机系统技术要求》(GB/T 39283-2020)
《人工智能训练系统技术要求与测试方法》(GB/T 41771-2022)
《信息技术 云计算 边缘云计算技术要求》(GB/T 38624-2020)
《信息安全技术 个人信息安全规范》(GB/T 35273-2020)
《信息技术 大数据 数据治理规范》(GB/T 38555-2020)
《云计算服务安全能力要求》(GB/T 31168-2023)
《****点击查看中心建设指南》
《****点击查看中心规划建设指南》
《高校科研基础设施开放共享管理办法》
《高等学校人工智能创新行动计划》
《中华人民**国国民经济和社会发展第十四个五年规划和2035远景目标纲要》
《中国教育现代化2035》
《“十四五”时期教育强国推进工程实施方案》
《**省教育发展“十四五”规划》
《粤港澳大湾区发展规划纲要》
《**省高质量发展大会》
项目目标

本项目旨在建设一个统一的算力服务平台,对校内各单位的超算、智算算力建设需求进行统一规划、统一采购、统一建设、统一管理。项目将整合分散的计算**,构建高性能、高可靠、易扩展的算力基础设施,打造集计算、存储、网络、安全于一体的综合性算力服务平台,满足学校教学、科研及社会服务的多元化算力需求。

建设周期

本项目中标人须于合同签订后8个月内完成软硬件安装部署、网络联调、软硬件系统集成、平台试运行等并交付使用。

整体架构

计算集群自下而上可分为硬件层、系统软件层和应用层,用户可通过终端访问集群

各层说明如下:

(1)硬件层:包含计算**集群中的服务器、共享存储、千兆交换机、万兆交换机、高速网络交换机(RoCE) 等设备,作为物理IT基础设施提供平台所需的计算、存储、网络**。

(2)系统软件层:将堆叠在一起的计算**、存储**和网络**,使用集群管理软件构建成一套集群系统,通过统一的终端进行**管理、服务管理、用户管理、监控报表、集群调度、文件系统等,提供平台化服务。

(3)应用层:可支持分子动力学、生命科学、材料化学、人工智能等多学科科研应用。

项目需求
总体**需求

在科研支撑方面:需要为数值计算、人工智能(AI)、深度学习及大数据等应用提供强大的支撑环境,以实现高性能计算与**的大数据、人工智能以及深度学习的融合,****点击查看中心的价值得到更大的发挥。其中,GPU算力至少达到60PFLOPS@FP16以上,CPU算力至少达到200TFLOPS@FP64以上,分布式存储的可用空间至少达到2PB以上。在指令集架构方面,采用X86架构为主,国产化自主芯片为辅。

在架构设计方面:需采用融合架构设计,通过模块化设计灵活应对多种应用场景,既支持通用计算,也支持专用计算,既支持传统的科学工程模拟计算,更要支持人工智能、机器学习等多种新型科学研究应用。通过实现“超级计算+大数据+深度学习+人工智能(AI)”相结合,解决传统高性能计算集群面对深度学习、大数据分析问题“心有余而力不足”的现实困境。

系统性能需求

一、在系统可靠性上,为了确保本项目能够长期稳定的运行,应满足以下要求:

错误处理机制:系统需提供错误处理机制,与后台错误处理程序、错误日志共同处理用户交互过程中所产生的错误。

容错性:系统可以屏蔽用户的误操作,并对错误进行提示。

数据保护:输入错误数据时,系统不会崩溃、异常退出或者丢失数据。

错误处理:有错误操作时,系统不会崩溃、异常退出或者丢失数据。错误处理功能将操作错误、系统错误的错误代码转换为用户所能理解的语言,并向用户显示。

错误日志:系统运行过程中所遇到的无法处理的错误与其它非用户一般操作性错误,全部记入错误日志。

系统运行稳定性:7×24小时稳定运行,可靠性达到99%。

二、在扩展性需求上,主要应满足以下要求:

软件扩充能力:具备支持业务流程的参数化配置和业务功能的重组与更新,在不影响系统原有业务流程的情况下可实现对新业务的灵活增加;

软件复用能力:软件模块应具备可复用性,其中的部分模块可复用到其它系统中;

系统升级方便:系统易于升级,提供方便的升级手段。

三、在易用性需求上,主要应满足以下要求:

易理解性:系统用户界面有利于用户理解、简单直观。同时符合用户的业务操作习惯,最大限度的降低系统使用的复杂程度。

易学性:系统提示、帮助、菜单的术语和格式一致,相关界面外观、布局、交互方式一致。

易操作性:系统易于操作。

四、在可维护性需求上,需选择的软件系统需易于维护和管理,在实现必要的业务功能之外要提供一整套的系统维护工具,包括系统配置、用户管理、权限管理、数据备份等,以便提高维护人员进行维护管理的效率。

五、在先进性需求上,在技术运用上应具有前瞻性,确保系统在技术含量、系统功能、性能等方面处于国内先进水平。

计算子系统需求

智算算力涉及的是FP16、FP32、TF32等半精度浮点、单精度浮点计算与张量处理为代表,推理以INT8、FP16、BF16为代表。主要面向的是基于人工智能的图像识别、语音识别等,其逻辑简单、计算密集、并发任务高;其计算模型主要是并行数据计算,面向规则的数据结构(数组、矩阵类型的数值),具有可预测的存取模式。

超算算力以FP64双精度浮点计算与矢量处理为代表。主要面向的是科学计算、工业计算等数值仿真场景,例如基于流体力学的天气预报、飞行器设计等。通过配置CPU计算处理节点,主要以浮点型计算为主,主要面向的是数值计算HPC应用,在药物研发的大规模并行计算场景中,如利用HPC集群进行上亿个化合物的虚拟筛选,浮点型计算能充分发挥硬件的算力优势,大幅提升计算效率。

智算计算**需求

本项目建设的主要内容为AI算力,既考虑引入最先进和成熟的NVIDIA技术路线,也考虑了国内最主流的昇腾技术路线。

其中NV技术路线,计划引入H200/H20/L20三种规格的计算卡,可根据科研和教学需求匹配多样化的选择,提高算力利用率。

本项目配置2台H200 GPU节点,每个计算节点配置2颗处理器(48核,2.1GHz主频),2048GB内存,2*480G 2.5" SSD 硬盘,2块3.84TB NVMe SSD硬盘作为缓存盘,1个H200模组,配置不低于8口200GE网卡,既支持IB,也支持RoCE网络作为计算网络;1个200GE网卡作为存储网络;管理网络采用2个25GE光口网卡。

本项目配置5台H20 GPU节点,每个计算节点配置2颗处理器(48核,2.1GHz主频),2048GB内存,2*480G 2.5" SSD 硬盘,2块3.84TB NVMe SSD硬盘作为缓存盘,1个H20模组,配置不低于1口200GE网卡,既支持IB,也支持RoCE网络作为计算网络;1个200GE网卡作为存储网络;管理网络采用2个25GE光口网卡。

本项目配置了20台8卡L20服务器和4台4卡L20服务器,共计176卡,提供充沛的算力**供全校师生申请使用。每个计算节点配置2颗处理器(32核,2.1GHz主频),1024GB内存,2*480G 2.5" SSD 硬盘;1个200GE网卡作为存储网络;管理网络采用2个25GE光口网卡。

本项目配置5台Ascend AI计算节点,每台服务器上配置4颗920 CPU,1TB内存,8颗910B芯片,4块200GE网卡作为计算网卡,1个100GE网卡作为存储网卡,1块双端口25GE网卡作为管理网络。

超算计算**需求

通用计算节点主要面向HPC业务提供双精度算力。每个计算节点都是一个完整的计算系统,离不开各个部件的协同工作。所有的高性能计算,都需要CPU与内存频繁通信,超高性能的CPU只有匹配了相应的内存才可以发挥最佳的优势。本项目配置6台普通超算节点和4台胖节点,主要区别在于普通超算节点配置了0.75TB内存,胖节点配置了1.5TB内存面向大内存计算业务。每计算节点配置2颗CPU,每颗CPU拥有128个物理核心和256个线程,基础频率为2.7GHz。每个计算节点提供22TFlops计算能力,共计220TFlops计算能力。1个200GE网卡作为存储网络;管理网络采用2个25GE光口网卡。

存储子系统需求

通过建设分布式架构的全闪和混闪存储服务器构建高性能、高扩展性、高可靠的存储服务。支持文本、多媒体、二进制等任何类型的数据存储。"存储+计算框架"让数据加上“动力”引擎,让数据在传输、存储、处理和发布4个环节有机融为一体。

存储系统需针对海量数据存储应用而设计,采用通用硬件设备作为基本的构建单元,为应用提供全局统一的系统映像和完全POSIX兼容的API接口。

需通过200G高速网络构建存储服务器集群,具备极高的扩展性和可靠性。利用存储管理的相关软件功能消除集群内的单点故障,避免因为故障而导致服务中断或者数据丢失等影响,打破传统存储系统的种种限制。

根据项目计算系统需求,存储系统需配置1套全闪存分布式存储系统和1套混闪分布式存储系统,每套分布式存储系统包含3个存储节点;均允许任意1个节点故障不影响集群可用性。其中,全闪存分布式存储系统采用全NVMe硬盘作为数据盘,提供高速读写能力,裸容量不低于500TB,提供不低于90GB/s的聚合读写带宽;混闪分布式存储系统采用大容量HDD硬盘作为数据盘,裸容量不低于3200TB,提供不低于19GB/s的聚合读写带宽。

网络子系统需求

本项目按照****点击查看计算中心运营所需的多套网络互联系统,其中集群高速交换网络需采用200GE RoCE v2网络协议构建高速网络;业务网络需采用25GE接入、100GE汇聚的架构;管理网络需采用1GE接入、25GE汇聚的架构;存储系统需采用200GE高速网络构建。

网络拓扑

高速互联网络需求

集群高速互联网络需采用RoCE组网,提供低延迟、高带宽的网络互联。共需要配置3台支持RoCE v2的交换机组建两个网络集群。其中,H200训练服务器和训推一体机的计算平面单独划分为一个集群,采用200G组网接入到一台高速交换机中。H200训练服务器、H20高速推理服务器和训推一体机由于频繁读取数据进行模型训推业务,通过200G网络接入到一台高速交换机中;超算节点和L20推理服务器通过200G网络接入到另一台高速交换机中,并通过两台高速交换机之间的上行400G互联通道和存储系统互联。

业务网络需求

业务网络共需要配置6台48口25G交换机,****点击查看中心的日常业务和管理活动,包括各种业务应用和管理系统,面向集群内部数据流量的承载,****点击查看中心网络、服务器、存储等设备之间的管理数据、指令操作数据等的维护和监控数据。系统管理网络架构的总体规划遵循结构化、模块化和层次化的设计理念,实现网络层次更加清楚、功能更加明确,数据资产更加安全和管理更加方便,采用“(接入-汇聚)结构”两层扁平结构,接入层可以平滑扩展,通过增加接入节点扩大组网规模、扩大接入设备规模。接入交换机两两之间通过M-LAG技术,实现网络冗余以提升可靠性,相比较堆叠技术,M-LAG解决交换机管理面脑裂风险,并可以实现M-LAG交换机软件版本的无损升级;接入交换机通过25Gps链路下连到底层服务器、存储等设备,通过100Gbps链路上连到汇聚交换机,不同接入交换机之间通过汇聚交换机实现东西流量互访,汇聚交换机同样采用M-LAG方式实现冗余可靠与便捷管理。

管理网络需求

管理网络共需要配置2台千兆交换机,****点击查看中心集群内部带外流量的承载,用于服务器、存储、和交换机等设备的管理、配置和升级。相对于其它网络带外管理网络对延迟等性能要求不高,但是对于安全和稳定有较高需求,基于以上特点须与业务网络和高速计算网络物理隔离。

超智融合管理系统需求

建设集群管理平台可以良好支持各种GPU、CPU 等**的分配管理,为集群用户及系统管理员提供一种方便的方式,使他们能够通过web访问自己的 AI HPC**,包括但不限于:无插件的 web 体验、容易的文件管理、命令行SHELL访问、对跨不同队列处理服务器和**管理器的作业管理和监视、图形桌面环境和桌面应用程序。既可满足日常教学实验算力及管理需求,也可集中算力用于各种科研任务。

其他基础软件系统需求

根据项目的建设内容,本项目的基础软件主要包括:编译调试环境、并行环境、数学函数库、GPU开发环境等。

其它要求
设备的质量保证要求

1)所有设施、设备必须是全新的,稳定、成熟、故障率极低、能满足要求的产品。

2)供应商提供的所有货物必须是正规注册制造商制造的原装合格产品,货物的包装也应为制造商出厂时的原包装。

3)供应商应保证所提供的设施、设备在出厂前经过严格和完善的测试检验;在设备验收中出现故障或性能指标未达到要求的,经双方确认,供应商应无条件更换有关设备。

集成软硬件交付实施服务要求

1、设备上架与物理部署:提供设备物理安装、机柜布局规划、线缆连接及标签标识服务,完成设备通电自检、硬件健康状态检查。

2、网络调试与优化:划分管理网、业务网、高速网,确保网络拓扑无环路、无丢包。完成VLAN划分、路由策略等配置及网络性能调优。

3、操作系统及基础环境配置:安装指定Linux发行版,完成内核优化、驱动适配。配置NTP时间同步、DNS解析、SSH免密登录及用户权限管理。

4、集群硬件基础配置调试:调试硬件监控模块(IPMI/BMC),完成存储分区挂载及分布式文件系统部署。

5、并行计算环境部署:安装并配置MPI、CUDA、OpenMP等并行计算框架。

6、编译及运行环境调试:部署GCC/ICC/PGI等编译器,配置数学库、适配AI框架及科学计算软件。

7、集群管理及作业调度系统:安装并配置管理调度系统,支持作业队列、**分配及优先级策略。

8、系统调测:对硬件、软件及网络进行联合调试,验证系统功能、性能及稳定性,排查并解决潜在问题。

培训要求
供应商需对采购人按照平台管理者、 平台使用者分别进行至少1次培训服务。对设备的使用、操作、维修进行培训,以确保采购人能够对设备有足够的了解和熟悉,能够独立进行设备的日常维护、保养和管理。
供应商需提出全面培训计划和课程内容安排,并在征得采购人同意后实施。
培训授课人必须是经过厂家认证或授权的工程师、技术员等。
供应商必须为所有被培训人员提供培训用文字资料和讲义等相关资料。
测试与验收要求

1、开箱检验

1)所有设备、器材在开箱时必须完好,无破损。配置与装箱单相符。数量、质量及性能不低于合同要求。

2)拆箱后,供应商应对其全部产品、零件、配件、用户许可证书、资料、介质造册登记,并与装箱单对比,如有出入应立即书面记录,由供货商解决,如影响安装则按合同有关条款处理。登记册作为验收文档之一。

2、系统测试

系统安装完成后,按照系统要求的基本功能逐一测试。

1)单项测试:单项产品安装完成后,由供应商进行产品自身性能的测试。设备通电测试应单台进行,所有设备通电自检正常后,才能相互联结。

2)网络联机测试:网络系统安装完成后,由供应商和设备使用单位对所有采购的产品进行联网运行,并进行相应的联机测试。

3)系统运行正常,联机测试通过。

4)如商检或系统测试中发现设备性能指标或功能上不符合标书和合同时,将被看作性能不合格,设备使用单位有权拒收并要求赔偿。

5)供应商应负责在项目验收时将系统的全部有关产品说明书、原厂家安装手册、技术文件、资料、及安装、验收报告等文档交付设备使用单位。

3、验收要求

1)供应商须完成系统整体调试、试运行后,备齐采购人要求提供的验收文件,并提出书面验收申请。

2)采购人收到供应商验收申请后7日内组织履约验收,验收通过出具采购物资验收报告给供应商。货物验收合格之日为采购人签署采购物资验收报告的日期。

3)供应商须配合采购人对系统功能、性能、技术指标等方面检查,实现系统整体安全稳定运行。

4)验收标准:以招投标文件和合同项下约定的货物及价格、详细配置清单及技术指标、符合招标文件和投标承诺中采购人认可的合理最佳配置、参数及各项要求、国家相关标准和行业规范进行验收。

5)经采购人对供应商提供的货物进行验收,若发现供应商提供的货物不符合招投标文件及合同规定的质量要求,采购人有权拒收该货物,供应商应无条件更换被拒绝的货物,或者进行必要的修改以满足规定的要求;采购人也有权选择解除合同并要求供应商承担违约责任。

售后服务要求

1、本项目的质量保证期(简称“质保期”)为不少于3年,质保期内中标人对所供货物实行维护保养。质保期从项目实际完成验收合格之日算起。

2、质保期内,供应商负责对其提供的设备整机进行维修,并且保证每季度上门检修一次,不再向采购人收取费用。

3、供应商中标后须设有维修服务机构,设备故障报修的响应时间:周一至周五8:30~18:00期间为半小时内,其余期间为6小时内。若电话中无法解决,4小时内派工程技术人员到达现场进行维护。48小时内无法修复正常的,须提供备件以保证系统的正常使用。对有争议的故障,先修复再商议。

4、所有设备保修服务方式均为供应商或设备生产厂家上门保修,即由供应商或原厂家派员到采购人设备使用现场维修。由此产生的一切费用均由供应商或原厂家承担。

5、对于不能明确是否是硬件出现故障时,供应商应尽力配合应用开发商进行检查,在必要时,能在上述响应时间内到达现场协助排除问题。

6、应提供系统扩充、升级方面的技术支持服务。

付款方式

第1期为(预付款):支付比例40%,合同签订后采购人收到发票(中标人须提供等额增值税专用发票)后10个工作日内,支付合同总价的40%。。

第2期为(进度款):支付比例30%,待所有货物到达交货地点,开箱验收合格后且采购人收到发票(中标人须提供等额增值税专用发票)后10个工作日内支付合同总价30%。。

第3期为(尾款):支付比例30%,采购人组织验收。验收合格且采购人收到发票(中标人须提供等额增值税专用发票)后10个工作日内支付合同总价30%,付清货款。

采购需求清单

序号

设备名称

设备数量(套)

技术参数

1

AI训练服务器

4

1、 1台训推一体机
规格:配置≤4U标准机架式服务器。

处理器:配置≥4颗CPU;每颗CPU主频≥2.6GHz,核数≥48核。

内存:配置≥1024GB DDR4 内存,每条内存≥32GB,内存频率≥3200MHz。

IO扩展:最大可支持≥3个PCIe插槽。

▲AI加速卡:配置≥8张AI加速卡,单卡显存≥64GB;单卡FP32算力≥75TFlops,FP16算力≥280TFlops;卡间互联带宽≥392GB/s。

端口:支持≥4个USB端口,支持≥2个VGA接口。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB;配置≥2个NVMe SSD硬盘,每个硬盘容量≥3840GB,可提供与服务器同品牌的SSD硬盘。

RAID卡:配置≥1张RAID卡,支持组RAID 1,缓存≥2GB。

网卡:配置≥1张双端口25GE网卡(含光模块),配置≥1张双端口100GE网卡(含光模块),板载≥4张双端口200GE网卡(含光模块)。

电源:配置≥4个电源,每个电源功率不低于2600W。

管理模块:为保障管理功能安全性,BMC管理软件需具有软件自主知识产权,具备软件著作权证书。

2、1台GPU推理服务器-8卡
规格:配置≤4U标准机架式服务器。

处理器:配置≥2颗CPU;每颗CPU主频≥2.1GHz,核数≥32核。

内存:配置≥1024GB DDR5 内存,每条内存≥64GB,内存频率≥5600MHz;支持内存故障隔离功能。

IO扩展:最大可支持≥14个PCIe插槽。

▲AI加速卡:配置≥8张AI加速卡,单卡显存≥48GB,单卡FP16算力≥119TFlops。

端口:支持≥4个USB端口,支持≥2个VGA接口,支持≥1个Type-C接口。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB;最大可支持配置≥12块 NVMe SSD作为本地缓存盘对数据IO进行加速。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网卡:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥1张高速网卡,网卡速率≥200G;支持≥3个OCP 3.0灵活插拔网络接口。

电源:配置≥4个电源,每个电源功率不低于2600W。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC需支持Kerberos协议认证机制实现强化登录安全;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

3、 1台业务网络交换机
交换容量≥8Tbps,包转发率≥2400Mpps

固定接口交换机,25GE光口≥48,100GE接口≥8

支持M-LAG或vPC或DRNI等跨机箱链路捆绑技术

支持国产化CPU和转发芯片

支持IPv4和IPv6静态路由、RIPng、OSPF v3、BGP4+等路由协议

支持数据面故障快速自愈,收敛时间小于1ms

支持RDMA、PFC、ECN 等无损以太网特性

支持MAC漂移联动端口error-down

支持BFD,实现各协议的快速故障检测机制

支持Telemetry功能,支持ERSPAN增强

支持SNMP V1/V2/V3、Telnet、RMON、SSH

设备支持ID指示灯,运维人员可远程管理ID灯开启和关闭

实际配置:25G多模光模块≥48个,100G多模光模块≥8个

2

大模型推理服务器

1

1、3台GPU推理服务器-8卡
规格:配置≤4U标准机架式服务器。

处理器:配置≥2颗CPU;每颗CPU主频≥2.1GHz,核数≥32核。

内存:配置≥1024GB DDR5 内存,每条内存≥64GB,内存频率≥5600MHz;支持内存故障隔离功能。

IO扩展:最大可支持≥14个PCIe插槽。

▲AI加速卡:配置≥8张AI加速卡,单卡显存≥48GB,单卡FP16算力≥119TFlops。

端口:支持≥4个USB端口,支持≥2个VGA接口,支持≥1个Type-C接口。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB;最大可支持配置≥12块 NVMe SSD作为本地缓存盘对数据IO进行加速。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网卡:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥1张高速网卡,网卡速率≥200G;支持≥3个OCP 3.0灵活插拔网络接口。

电源:配置≥4个电源,每个电源功率不低于2600W。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC需支持Kerberos协议认证机制实现强化登录安全;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

2、3台管理服务器
规格:配置≤2U标准机架式服务器。

处理器:配置≥2颗CPU;每颗CPU主频≥2.0GHz,核数≥16核。

内存:配置≥256GB DDR5 内存,每条内存≥32GB,内存频率≥5600MHz;支持内存故障隔离功能。

IO扩展:最大可支持≥14个PCIe插槽。

端口:支持≥4个USB3.0端口;支持≥2个VGA接口;支持≥1个Type-C接口。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB;可支持配置为2个M.2 SATA SSD,并支持组硬Riad和热插拔。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网络:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥1张高速网卡,网卡速率≥200G;支持≥2个OCP3.0的灵活插拔网络接口。

电源:配置≥2个电源,每个电源功率不低于900W。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC需支持Kerberos协议认证机制实现强化登录安全;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

3

高性能服务器集群

1

1、2台GPU推理服务器-4卡
规格:配置≤4U标准机架式服务器。

处理器:配置≥2颗CPU;每颗CPU主频≥2.1GHz,核数≥32核。

内存:配置≥1024GB DDR5 内存,每条内存≥64GB,内存频率≥5600MHz;支持内存故障隔离功能。

IO扩展:最大可支持≥14个PCIe插槽。

▲AI加速卡:配置≥4张AI加速卡,单卡显存≥48GB,单卡FP16算力≥119TFlops。

端口:支持≥4个USB端口,支持≥2个VGA接口,支持≥1个Type-C接口。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB;最大可支持配置≥12块 NVMe SSD作为本地缓存盘对数据IO进行加速。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网卡:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥1张高速网卡,网卡速率≥200G;支持≥3个OCP 3.0灵活插拔网络接口。

电源:配置≥4个电源,每个电源功率不低于2600W。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC需支持Kerberos协议认证机制实现强化登录安全;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

2、2台管理网络交换机
交换容量≥2.4Tbps,包转发率≥672Mpps

GE电口≥48个,10G/25G光口≥8个

支持VLAN功能,支持Access、Trunk和Hybrid三种模式

支持IPv4和IPv6静态路由、RIPng、OSPF v3、BGP4+等路由协议

支持SNMP V1/V2/V3、Telnet、RMON、SSH

设备支持ID指示灯,运维人员可远程管理ID灯开启和关闭

实际配置:万兆多模光模块≥4个

4

高性能计算与存储平台

2

2台胖节点服务器
规格:配置≤2U标准机架式服务器。

▲处理器:配置≥2颗CPU;每颗CPU主频≥2.7GHz,核数≥128核;每颗CPU双精度算力≥11TFlops。

内存:配置≥1536GB DDR5 内存,每条内存≥64GB,内存频率≥6400MHz;支持内存故障隔离功能。

IO扩展:最大可支持≥4个PCIe插槽。

端口:支持≥4个USB3.0端口;支持≥1个VGA接口;支持≥1个Type-C接口。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网络:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥1张高速网卡,网卡速率≥200G。

电源:配置≥2个电源,每个电源功率不低于2000W。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC需支持Kerberos协议认证机制实现强化登录安全;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

5

人工智能图形图像推理服务器

1

2台GPU推理服务器-4卡
规格:配置≤4U标准机架式服务器。

处理器:配置≥2颗CPU;每颗CPU主频≥2.1GHz,核数≥32核。

内存:配置≥1024GB DDR5 内存,每条内存≥64GB,内存频率≥5600MHz;支持内存故障隔离功能。

IO扩展:最大可支持≥14个PCIe插槽。

▲AI加速卡:配置≥4张AI加速卡,单卡显存≥48GB,单卡FP16算力≥119TFlops。

端口:支持≥4个USB端口,支持≥2个VGA接口,支持≥1个Type-C接口。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB;最大可支持配置≥12块 NVMe SSD作为本地缓存盘对数据IO进行加速。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网卡:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥1张高速网卡,网卡速率≥200G;支持≥3个OCP 3.0灵活插拔网络接口。

电源:配置≥4个电源,每个电源功率不低于2600W。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC需支持Kerberos协议认证机制实现强化登录安全;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

6

基因数据分析服务器

1

1、2台GPU推理服务器-8卡
规格:配置≤4U标准机架式服务器。

处理器:配置≥2颗CPU;每颗CPU主频≥2.1GHz,核数≥32核。

内存:配置≥1024GB DDR5 内存,每条内存≥64GB,内存频率≥5600MHz;支持内存故障隔离功能。

IO扩展:最大可支持≥14个PCIe插槽。

▲AI加速卡:配置≥8张AI加速卡,单卡显存≥48GB,单卡FP16算力≥119TFlops。

端口:支持≥4个USB端口,支持≥2个VGA接口,支持≥1个Type-C接口。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB;最大可支持配置≥12块 NVMe SSD作为本地缓存盘对数据IO进行加速。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网卡:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥1张高速网卡,网卡速率≥200G;支持≥3个OCP 3.0灵活插拔网络接口。

电源:配置≥4个电源,每个电源功率不低于2600W。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC需支持Kerberos协议认证机制实现强化登录安全;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

2、1套全闪并行文件存储
规格:配置≤2U标准机架式服务器。

处理器:配置≥2颗CPU;每颗CPU主频≥2.1GHz,核数≥32核。

内存:配置≥512GB DDR5 内存,每条内存≥32GB,内存频率≥5600MHz;支持内存故障隔离功能。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB;配置≥2个NVMe SSD硬盘作为元数据盘,每个硬盘容量≥7680GB;配置≥22个NVMe SSD硬盘作为数据盘,每个硬盘容量≥7680GB;支持硬盘告警精细化,至少可以区分硬盘固件、配置信息、物理故障三类告警以上。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网络:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥1张高速网卡,网卡速率≥200G。

电源:配置≥2个电源,每个电源功率不低于1500W。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC需支持Kerberos协议认证机制实现强化登录安全;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

并行文件系统:

▲容量:3节点,裸容量≥520TB,总可用容量≥320TB;

可靠性:支持EC4+2:1,允许任意1个节点故障;

文件存储标准版软件,提供存储容量永久授权,3年原厂技术支持;

软件功能:

1.支持全局单一文件系统和统一命名空间。

2.支持采用前端切片技术,保证数据安全性的同时,提升数据读写效率,并提供专用、高速、安全的私有客户端、POSIX标准分布式文件访问协议。

3.支持Windows系列,Linux系列私有客户端,支持私有客户端/NFS/CIFS/对象多种协议原生访问同一文件,无需求额外网关,数据多协议互通,读写免搬迁,支持MPI I/O,兼容主流MPI标准,兼容主流MPI应用。

4.支持对目录、用户、用户组设置容量、目录数、文件数配额,配额对所有访问接口有效,并可在线设定、更改和取消,配额实时性为秒级,支持配额嵌套,并提供配额预警功能。

5.提供文件快照功能,支持周期定时快照,快照恢复。

6.支持设置写带宽、读带宽、写iops、读iops、文件创建、删除文件、创建目录、删除目录、Lookup、Readdir、重命名文件。

7.支持目录WORM功能。指定预保护时长,保护时长,最小保护时长和最大保护时长。该目录下的文件自创建开始,在预保护时长内允许读、写、改写、重命名以及删除等所有操作。预保护期过后,文件将进入只读保护期,在保护时长规定的时间内,文件只能被读取,不能被修改及删除。

8.支持基于客户端IP对文件设置读、写、删、列表、链接、重命名、追加写权限,客户端任何超级管理员/用户均无法逾越此权限机制,以保证数据的安全性。

9.支持小文件聚合传输和存储机制。

10.支持数据可在不同存储池间进行数据迁移,保持数据在目录结构中的路径不变,只改变其物理存储位置,且对前端应用透明。

11.支持文件/对象数据加密,避免非法途径获取存储内数据,保障数据安全可靠。

12.支持多**池管理,**池空间互相独立,支持多租户,对接不同的用户信息。

13.支持当数据不频繁使用时,通过设置周期性数据扫描预知磁盘是否损坏以及进行数据自动恢复,防止磁盘静默错误导致数据丢失。

14.提供图形界面的监控管理工具,能够查看网络、硬盘、操作系统、内核等硬件基本信息,能够准确记录某个数据文件创建客户端ID、数据删除客户端ID、删除时间等详细记录。

15.提供完备的日志功能,日志记录了系统管理员的管理操作以及用户对文件的操作,日志信息包含文件名及所执行的具体操作。

7

生命科学推理计算服务器

4

2台GPU推理服务器-8卡
规格:配置≤4U标准机架式服务器。

处理器:配置≥2颗CPU;每颗CPU主频≥2.1GHz,核数≥32核。

内存:配置≥1024GB DDR5 内存,每条内存≥64GB,内存频率≥5600MHz;支持内存故障隔离功能。

IO扩展:最大可支持≥14个PCIe插槽。

▲AI加速卡:配置≥8张AI加速卡,单卡显存≥48GB,单卡FP16算力≥119TFlops。

端口:支持≥4个USB端口,支持≥2个VGA接口,支持≥1个Type-C接口。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB;最大可支持配置≥12块 NVMe SSD作为本地缓存盘对数据IO进行加速。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网卡:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥1张高速网卡,网卡速率≥200G;支持≥3个OCP 3.0灵活插拔网络接口。

电源:配置≥4个电源,每个电源功率不低于2600W。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC需支持Kerberos协议认证机制实现强化登录安全;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

8

高性能科学计算服务器

2

3台计算服务器
规格:配置≤2U标准机架式服务器。

▲处理器:配置≥2颗CPU;每颗CPU主频≥2.7GHz,核数≥128核;每颗CPU双精度算力≥11TFlops。

内存:配置≥768GB DDR5 内存,每条内存≥32GB,内存频率≥6400MHz;支持内存故障隔离功能。

IO扩展:最大可支持≥4个PCIe插槽。

端口:支持≥4个USB3.0端口;支持≥1个VGA接口;支持≥1个Type-C接口。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网络:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥1张高速网卡,网卡速率≥200G。

电源:配置≥2个电源,每个电源功率不低于2000W。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC需支持Kerberos协议认证机制实现强化登录安全;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

9

设计服务器集群

1

1、2台GPU推理服务器-8卡
规格:配置≤4U标准机架式服务器。

处理器:配置≥2颗CPU;每颗CPU主频≥2.1GHz,核数≥32核。

内存:配置≥1024GB DDR5 内存,每条内存≥64GB,内存频率≥5600MHz;支持内存故障隔离功能。

IO扩展:最大可支持≥14个PCIe插槽。

▲AI加速卡:配置≥8张AI加速卡,单卡显存≥48GB,单卡FP16算力≥119TFlops。

端口:支持≥4个USB端口,支持≥2个VGA接口,支持≥1个Type-C接口。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB;最大可支持配置≥12块 NVMe SSD作为本地缓存盘对数据IO进行加速。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网卡:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥1张高速网卡,网卡速率≥200G;支持≥3个OCP 3.0灵活插拔网络接口。

电源:配置≥4个电源,每个电源功率不低于2600W。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC需支持Kerberos协议认证机制实现强化登录安全;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

2、1套混闪并行文件存储
规格:配置≤4U标准机架式服务器。

处理器:配置≥2颗CPU;每颗CPU主频≥2.0GHz,核数≥16核。

内存:配置≥256GB DDR5 内存,每条内存≥32GB,内存频率≥5600MHz;支持内存故障隔离功能。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB;配置≥2个NVMe SSD硬盘作为元数据盘,每个硬盘容量≥3840GB;配置≥54个SATA HDD硬盘作为数据盘,每个硬盘容量≥20TB;支持硬盘告警精细化,至少可以区分硬盘固件、配置信息、物理故障三类告警以上。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网络:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥1张高速网卡,网卡速率≥200G。

电源:配置≥2个电源,每个电源功率不低于2000W。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC支持基于Kerberos协议的用户认证管理机制,提高登录安全性;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

并行文件系统:

▲容量:3节点,裸容量≥3200TB,总可用容量≥2050TB;

可靠性:支持EC4+2:1,允许任意1个节点故障;

文件存储标准版软件,提供存储容量永久授权,3年原厂技术支持;

软件功能:

1.支持全局单一文件系统和统一命名空间。

2.支持采用前端切片技术,保证数据安全性的同时,提升数据读写效率,并提供专用、高速、安全的私有客户端、POSIX标准分布式文件访问协议。

3.支持Windows系列,Linux系列私有客户端,支持私有客户端/NFS/CIFS/对象多种协议原生访问同一文件,无需求额外网关,数据多协议互通,读写免搬迁,支持MPI I/O,兼容主流MPI标准,兼容主流MPI应用。

4.支持对目录、用户、用户组设置容量、目录数、文件数配额,配额对所有访问接口有效,并可在线设定、更改和取消,配额实时性为秒级,支持配额嵌套,并提供配额预警功能。

5.提供文件快照功能,支持周期定时快照,快照恢复。

6.支持设置写带宽、读带宽、写iops、读iops、文件创建、删除文件、创建目录、删除目录、Lookup、Readdir、重命名文件。

7.支持目录WORM功能。指定预保护时长,保护时长,最小保护时长和最大保护时长。该目录下的文件自创建开始,在预保护时长内允许读、写、改写、重命名以及删除等所有操作。预保护期过后,文件将进入只读保护期,在保护时长规定的时间内,文件只能被读取,不能被修改及删除。

8.支持基于客户端IP对文件设置读、写、删、列表、链接、重命名、追加写权限,客户端任何超级管理员/用户均无法逾越此权限机制,以保证数据的安全性。

9.支持小文件聚合传输和存储机制。

10.支持数据可在不同存储池间进行数据迁移,保持数据在目录结构中的路径不变,只改变其物理存储位置,且对前端应用透明。

11.支持文件/对象数据加密,避免非法途径获取存储内数据,保障数据安全可靠。

12.支持多**池管理,**池空间互相独立,支持多租户,对接不同的用户信息。

13.支持当数据不频繁使用时,通过设置周期性数据扫描预知磁盘是否损坏以及进行数据自动恢复,防止磁盘静默错误导致数据丢失。

14.提供图形界面的监控管理工具,能够查看网络、硬盘、操作系统、内核等硬件基本信息,能够准确记录某个数据文件创建客户端ID、数据删除客户端ID、删除时间等详细记录。

15.提供完备的日志功能,日志记录了系统管理员的管理操作以及用户对文件的操作,日志信息包含文件名及所执行的具体操作。

10

GPU服务器

1

1、1台高性能GPU推理服务器
规格:配置≤8U标准机架式服务器。

处理器:配置≥2颗CPU;每颗CPU主频≥2.1GHz,核数≥48核。

内存:配置≥1536GB DDR5 内存,每条内存≥64GB,内存频率≥5600MHz;支持内存故障隔离功能。

▲AI加速卡:配置≥8张AI加速卡,单卡显存≥141GB;单卡FP16算力≥148TFlops;卡间互联带宽≥900GB/s。

IO扩展:支持≥12个PCIe5.0 x16标准扩展插槽。

端口:支持≥4个USB端口,支持≥2个VGA接口,支持≥1个Type-C接口。

硬盘:配置≥2个SATA SSD硬盘,每个硬盘容量≥480GB;配置≥2个NVMe SSD硬盘,每个硬盘容量≥3840GB。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网卡:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥2张高速网卡,网卡速率≥200G。

电源:配置≥6个54V双输入电源模块,每个电源支持≥3000W,支持热插拔,支持N+1/N+N冗余;配置≥2个12V单输入电源模块,每个电源支持≥3000W,支持热插拔,支持1+1冗余。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC需支持Kerberos协议认证机制实现强化登录安全;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

2、1台GPU推理服务器-8卡
规格:配置≤4U标准机架式服务器。

处理器:配置≥2颗CPU;每颗CPU主频≥2.1GHz,核数≥32核。

内存:配置≥1024GB DDR5 内存,每条内存≥64GB,内存频率≥5600MHz;支持内存故障隔离功能。

IO扩展:最大可支持≥14个PCIe插槽。

▲AI加速卡:配置≥8张AI加速卡,单卡显存≥48GB,单卡FP16算力≥119TFlops。

端口:支持≥4个USB端口,支持≥2个VGA接口,支持≥1个Type-C接口。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB;最大可支持配置≥12块 NVMe SSD作为本地缓存盘对数据IO进行加速。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网卡:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥1张高速网卡,网卡速率≥200G;支持≥3个OCP 3.0灵活插拔网络接口。

电源:配置≥4个电源,每个电源功率不低于2600W。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC需支持Kerberos协议认证机制实现强化登录安全;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

11

国产GPU计算集群

1

1、2台GPU训练服务器
规格:配置≤8U标准机架式服务器。

处理器:配置≥2颗CPU;每颗CPU主频≥2.1GHz,核数≥48核。

内存:配置≥2048GB DDR5 内存,每条内存≥64GB,内存频率≥5600MHz;支持内存故障隔离功能。

▲AI加速卡:配置≥8张AI加速卡,单卡显存≥141GB;单卡FP64算力≥34TFlops,FP16算力≥1900TFlops;卡间互联带宽≥900GB/s。

IO扩展:支持≥12个PCIe5.0 x16标准扩展插槽。

端口:支持≥4个USB端口,支持≥2个VGA接口,支持≥1个Type-C接口。

硬盘:配置≥2个SATA SSD硬盘,每个硬盘容量≥480GB;配置≥2个NVMe SSD硬盘,每个硬盘容量≥3840GB。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网卡:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥9张高速网卡,网卡速率≥200G。

电源:配置≥6个54V双输入电源模块,每个电源支持≥3000W,支持热插拔,支持N+1/N+N冗余;配置≥2个12V单输入电源模块,每个电源支持≥3000W,支持热插拔,支持1+1冗余。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC支持基于Kerberos协议的用户认证管理机制,提高登录安全性;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

2、2台高速互联RoCE交换机
交换容量≥25.6Tbps,包转发率≥8000Mpps

▲固定接口交换机,400GE光口≥32,10GE光口≥2

支持M-LAG或vPC或DRNI等跨机箱链路捆绑技术

支持国产化CPU和转发芯片

支持IPv4和IPv6静态路由、RIPng、OSPF v3、BGP4+等路由协议

支持AI ECN功能

支持数据面故障快速自愈DPFR,收敛时间小于1ms

支持BFD,实现各协议的快速故障检测机制

支持Telemetry功能,支持ERSPAN增强

支持SNMP V1/V2/V3、Telnet、RMON、SSH

设备支持ID指示灯,运维人员可远程管理ID灯开启和关闭

▲实际配置:400G多模光模块≥32个

3、2台业务网络交换机
交换容量≥8Tbps,包转发率≥2400Mpps

固定接口交换机,25GE光口≥48,100GE接口≥8

支持M-LAG或vPC或DRNI等跨机箱链路捆绑技术

支持国产化CPU和转发芯片

支持IPv4和IPv6静态路由、RIPng、OSPF v3、BGP4+等路由协议

支持数据面故障快速自愈,收敛时间小于1ms

支持RDMA、PFC、ECN 等无损以太网特性

支持MAC漂移联动端口error-down

支持BFD,实现各协议的快速故障检测机制

支持Telemetry功能,支持ERSPAN增强

支持SNMP V1/V2/V3、Telnet、RMON、SSH

设备支持ID指示灯,运维人员可远程管理ID灯开启和关闭

实际配置:25G多模光模块≥48个,100G多模光模块≥8个

12

AI训练平台

1

1、 1台训推一体机
规格:配置≤4U标准机架式服务器。

处理器:配置≥4颗CPU;每颗CPU主频≥2.6GHz,核数≥48核。

内存:配置≥1024GB DDR4 内存,每条内存≥32GB,内存频率≥3200MHz。

IO扩展:最大可支持≥3个PCIe插槽。

▲AI加速卡:配置≥8张AI加速卡,单卡显存≥64GB;单卡FP32算力≥75TFlops,FP16算力≥280TFlops;卡间互联带宽≥392GB/s。

端口:支持≥4个USB端口,支持≥2个VGA接口。

硬盘:配置≥2个SATA SSD硬盘作为系统盘,每个硬盘容量≥480GB;配置≥2个NVMe SSD硬盘,每个硬盘容量≥3840GB,可提供与服务器同品牌的SSD硬盘。

RAID卡:配置≥1张RAID卡,支持组RAID 1,缓存≥2GB。

网卡:配置≥1张双端口25GE网卡(含光模块),配置≥1张双端口100GE网卡(含光模块),板载≥4张双端口200GE网卡(含光模块)。

电源:配置≥4个电源,每个电源功率不低于2600W。

管理模块:为保障管理功能安全性,BMC管理软件需具有软件自主知识产权,具备软件著作权证书。

2、1台高速互联RoCE交换机
CPU:自主可控CPU和交换芯片;
设备性能:配置≥交换容量≥25.6Tbps,包转发率≥8000Mpps;
接口:配置≥400GE光口≥32个;配套满足组网需要的光模块和线缆。
实配:配置≥双电源,6个风扇。

13

人工智能算力服务器集群平台

1

1、4台高性能GPU推理服务器
规格:配置≤8U标准机架式服务器。

处理器:配置≥2颗CPU;每颗CPU主频≥2.1GHz,核数≥48核。

内存:配置≥1536GB DDR5 内存,每条内存≥64GB,内存频率≥5600MHz;支持内存故障隔离功能。

▲AI加速卡:配置≥8张AI加速卡,单卡显存≥141GB;单卡FP16算力≥148TFlops;卡间互联带宽≥900GB/s。

IO扩展:支持≥12个PCIe5.0 x16标准扩展插槽。

端口:支持≥4个USB端口,支持≥2个VGA接口,支持≥1个Type-C接口。

硬盘:配置≥2个SATA SSD硬盘,每个硬盘容量≥480GB;配置≥2个NVMe SSD硬盘,每个硬盘容量≥3840GB。

RAID卡:配置≥1张RAID卡,支持组RAID 1。

网卡:配置≥1张双端口25GE网卡(含2个25G光模块);配置≥2张高速网卡,网卡速率≥200G。

电源:配置≥6个54V双输入电源模块,每个电源支持≥3000W,支持热插拔,支持N+1/N+N冗余;配置≥2个12V单输入电源模块,每个电源支持≥3000W,支持热插拔,支持1+1冗余。

安全:BMC和BIOS支持防篡改能力,可基于硬件可信根在启动前对固件进行完整性校验;BMC需支持Kerberos协议认证机制实现强化登录安全;采用SNMP方式登录时需支持SHA256/SHA384/SHA512鉴权和AES256加密。

管理软件:BMC管理软件需基于中国境内注册的制造商生产的芯片进行开发,并具有完全自主知识产权。

2、高性能计算集群软件平台
**管理:CPU和GPU**集中管理,统一分配,支持slurm作业调度协同,以任务方式分配计算**,任务完成时计算**回收。

管理工具:提供共享文件系统,CUDA,MPI,Libraries,作业调度系统,用户应用管理工具。
交互:提供HPC交互可视化web服务,采用B/S架构,通过浏览器进行操作,可以管理集群系统中的软硬件**和用户提交的作业。

粒度管理:可对用户申请的作业任务在占用CPU**、占用GPU**、行时长上进行限制;针对GPU**提供不同粒度的调度管理,GPU块数,单块GPU百分比。
文件管理模块:集群管理软件提供文件管理模块:支持通过浏览器操作,支持文件的上传、下载操作,支持在线复制、粘贴、删除、重命名、**、打开等操作。
作业管理:集群管理软件提供作业管理模块,支持通过浏览器操作;支持脚本提交、命令提交、模板提交;支持查看作业状态及结果;支持停止、删除、启动作业;支持回填、**预留、公平共享等多种策略。
作业脚本模板:提供预设作业脚本模板,集成常用应用的作业脚本模板,包括但不仅限于以下应用:Tensorflow,Pytorch等。

附件(2)
附件_531166322_336858265.png
下载预览
附件_531166322_336858264.png
下载预览
关键词