本次采购内容包含:1.融合运维与故障率综合评估控制系统成熟解决方案在之江某集群的部署验证,并提供接口、设计文档、培训服务及专家指导,2.融合运维与万卡故障率综合评估控制系统的定制开发服务,提供驻场服务及原厂专家开发指导服务,配合完成所需功能在之江现有产品在不少于5类AI加速卡(摩尔、天数、昆仑芯、沐曦、昇腾)的万卡规模开发。
模块 | 子模块 | 指标名称 | 指标要求 |
1.融合运维与故障率综合评估控制系统成熟解决方案在之江某集群的部署验证 | 1.1融合运维与故障率综合评估控制软件系统 | 故障发现与定位 | 控制集群故障率,能够基于业务进行故障快速感知,故障范围覆盖参数面网络、计算软件栈(含集合通信库、驱动等)、核心硬件故障(含算力、存储、网络、光模块)等集群软硬件典型故障模式;支持对故障根因进行快速界定,支持对算网存跨域故障实现域间和域内的精准定位,集群和作业故障诊断实现分钟级定位能力; 支持手动与自动的故障发现方式,实现集群健康检查、作业故障诊断与劣化分析等功能,提升集群稳定性 支持网络诊断能力,支持参数面网络连通性测试、交换机和算力卡网络链路闪断检查、交换机网络链路闪断检查、交换机典型故障检查、光纤插接正确性检查等,并提供处理建议。 |
| 监控分析 | 支持3个域全链路指标采集(计算域至少涵盖:服务器硬件、操作系统、训练作业等;网络域至少涵盖:交换机、高速网卡、光模块、集合通信库等;存储域至少涵盖一种高速存储系统); 支持存储7天的日志,支持存储7天原始指标,支持存储30天汇聚指标,查询响应时间在10秒以内。 支持多样化的数据展示,包括支持监控分析、日志分析、告警分析、作业和**的拓扑分析等,支持查看相关的监控与日志等,提升作业故障定位效率 支持故障历史回放能力,支持查看发生故障时间段内网络拓扑和流量回放。 |
| 对外接口开放 | 支持开放北向接口,接口范围至少涵盖算网存软硬件监控、健康检查、故障告警、作业故障及劣化诊断等; 支持私有化部署软件,期限终身 提供支持不少于10台AI计算节点集群管理软件授权,3年软件订阅与保障需提供北向接口示例代码、文档以及操作手册、产品使用培训等 |
| 调度平台联动 | 支持调度平台的南向接入能力,支持系统故障、作业故障与平台的联动能力。 |
| **管理 | 支持计算**、网络**、存储**的统一集中管理,提升运维人员对设备的管理效率 |
| 服务器配置管理 | 支持服务器核心配置管理,支持服务器配置、服务器升级、服务器OS部署等统一管理能力,提升日常运维效率 |
| 安全管理 | 支持查看、增加、删除、修改用户信息。可通过设定角色来决定用户管理权限。 支持角色的创建、修改、删除,支持选择角色对应的操作权限。实现用户的分权管理,提升系统安全性 |
1.2融合运维与故障率综合评估控制系统配套硬件** | 配套硬件** | 设备需包含支持测试集群(不少于10个节点)稳定运行的硬件**(包含服务器、交换机等必需的**),能够满足覆盖计算域、存储域、网络域的指标及日志的采集、存储、查询和分析。支持存储7天的日志与原始指标,支持存储30天汇聚指标,查询响应时间应小于10s |
1.3融合运维与故障率综合评估控制系统解决方案实施服务 | 实施服务 | 包含方案规划设计、软件部署安装、**纳管、系统配置与功能调测、验收测试等。 |
2.融合运维与万卡故障率综合评估控制系统的定制开发服务 | 2.1定制开发服务 | 定制开发服务 | 配合****点击查看完成上述功能项(1.1融合运维与故障率综合评估控制软件系统)在不少于5类AI加速卡(摩尔、天数、昆仑芯、沐曦、昇腾)的万卡规模开发。配合完成上述5类智算集群的指标接入、数据收集、集群健康检查的定制化开发。 需要根据甲方要求提供36人月驻场服务,人员要求如下:1. 扎实的go语言基础、python语言基础;2. 熟悉可观测性技术栈-包括但不仅限于Prometheus、Vector、Clickhouse、VictoriaMetrics等;3. 具备智算领域运维开发基础,具备实际集群稳定性保障经验。 定制开发过程中,需提供原厂专家开发指导服务。 |