[Nube] 牛彼云 2024-12-19 早间故障说明(更正)及对策。
背景:Nube 的 HKG1 可用区计算集群是 2 台双路 AMD EPYC 7713 配 2TB 内存组成的计算宿主机集群。
2024-12-19 04:12 HKT 计算宿主机节点 2 检测到如下问题
- CPU 2 MEMEFGH VPP PG voltage is outside of range.
- The system board Pfauit fail-safe voltage is outside of range.
随后计算节点 2 退出服务。运行在此节点上的所有 VM 随之停止。早上 10:00 ,技术同事上班后,检查日志发现物理宿主机退服问题。随后安排客服同事逐一将 VM 从计算宿住机节点 1 上手动开启。客户 VM 服务逐渐恢复。
对此问题的对策
- 我们会在 2 个月内,将 HKG1 宿主机集群扩充到 3 台。
- VM 将会开启高可用模式。即使再有宿主机突然退服,也会自动从其他在服宿主机上重启。
背景:Nube 的 HKG1 可用区计算集群是 2 台双路 AMD EPYC 7713 配 2TB 内存组成的计算宿主机集群。
2024-12-19 04:12 HKT 计算宿主机节点 2 检测到如下问题
- CPU 2 MEMEFGH VPP PG voltage is outside of range.
- The system board Pfauit fail-safe voltage is outside of range.
随后计算节点 2 退出服务。运行在此节点上的所有 VM 随之停止。早上 10:00 ,技术同事上班后,检查日志发现物理宿主机退服问题。随后安排客服同事逐一将 VM 从计算宿住机节点 1 上手动开启。客户 VM 服务逐渐恢复。
对此问题的对策
- 我们会在 2 个月内,将 HKG1 宿主机集群扩充到 3 台。
- VM 将会开启高可用模式。即使再有宿主机突然退服,也会自动从其他在服宿主机上重启。