Skip to content

CPU 深度诊断教程

功能概述

HrnrKitOS CPU 深度诊断工具是一款专业的服务器CPU健康检测系统,提供两种诊断模式:

快速体检 (Fast Check)

  • 耗时:2-3分钟
  • 侧重点:故障快速定位与硬件逻辑自检
  • 检测内容
    • MCA (Machine Check Architecture) 寄存器日志深度解析
    • UPI/QPI 总线拓扑完整性验证
    • 总线链路误码率检测
    • 短时 AVX-512 指令集测试
  • 适用场景:快速筛选 DOA (开箱即损) 单元、定位早期总线互联故障

全量压测 (Full Stress)

  • 耗时:45-60分钟
  • 侧重点:系统边界稳定性验证与计算精度校验
  • 检测内容
    • Linpack 算法高阶线性方程组求解
    • 残差校验 (Residual Check)
    • PTU 极限热流密度激发
    • VRM 供电瞬态响应异常检测
    • 隐藏的计算位翻转 (Bit Flip) 检测
  • 适用场景:热饱和状态下的信号完整性验证

支持平台

Intel Xeon 平台

  • Gen 1/2: Skylake/Cascade Lake
  • Gen 3: Ice Lake
  • Gen 4: Sapphire Rapids
  • Gen 5: Emerald Rapids

AMD EPYC 平台

  • Zen 2: Rome
  • Zen 3: Milan
  • Zen 4: Genoa

操作步骤

1. 客户端发现与选择

  1. 系统会自动发现网络中的在线客户端
  2. 在线客户端IP地址显示为白色,离线客户端显示为灰色
  3. 勾选需要诊断的客户端复选框
  4. 注意:被其他任务锁定的客户端无法选择(显示为禁用状态)

2. 诊断模式配置

  • 在右上角配置面板中选择诊断模式:
    • 快速体检:适合日常巡检和故障快速定位
    • 全量压测:适合新设备验收和深度稳定性验证

3. 启动诊断

  1. 点击"开始诊断"按钮
  2. 系统将向选中的客户端下发诊断任务
  3. 按钮状态变为"下发中..."表示任务正在下发

4. 监控诊断进度

在诊断过程中,可以实时观察:

状态列显示

  • 🔒 待命:客户端就绪,等待任务
  • 🔄 运行中:诊断任务正在进行
  • ✅ 完成:诊断成功完成
  • ❌ 失败:诊断过程中出现错误
  • 🔒 XX压测中:被其他测试任务锁定

诊断流水线 (Pipeline)

实时显示各个测试步骤的状态:

  • ⏳ 待开始:步骤等待执行
  • 🔄 运行中:步骤正在执行(旋转图标)
  • ✅ 通过:步骤测试通过
  • ❌ 失败:步骤测试失败
  • ⏭️ 跳过:步骤被跳过

5. 查看诊断报告

当诊断状态变为"完成"或"失败"时:

  1. 点击对应客户端的"报告"按钮
  2. 系统将弹出诊断报告预览窗口
  3. 报告内容包括:
    • 客户端基本信息
    • 诊断模式和时间
    • 最终结论(通过/失败)
    • 详细测试日志

报告功能

报告内容解析

诊断报告提供完整的测试记录:

摘要信息

  • 客户端IP地址和硬件信息
  • 使用的诊断模式
  • 测试开始时间和持续时间
  • 最终测试结论

详细测试日志

每个测试步骤包含:

  • 步骤名称和状态
  • 执行耗时
  • 详细的日志输出
  • 错误信息(如有)

PDF导出

  1. 在报告预览窗口中点击"下载 PDF"
  2. 系统将生成单页不分页的PDF报告
  3. PDF包含所有测试细节,适合存档和分享

故障排除

常见问题

客户端无法选择

  • 原因:客户端可能被其他测试任务锁定
  • 解决:等待其他测试完成或手动停止相关任务

诊断任务启动失败

  • 原因:网络连接问题或客户端离线
  • 解决:检查客户端网络连接状态

测试步骤失败

  • 原因:硬件不兼容或系统资源不足
  • 解决
    • 确认客户端硬件在支持列表中
    • 检查系统日志获取详细错误信息
    • 尝试使用快速体检模式进行基础验证

报告生成失败

  • 原因:诊断数据不完整或网络问题
  • 解决:重新执行诊断任务

硬件兼容性提示

  • 确保客户端CPU在支持平台列表中
  • 对于不支持的硬件,系统会显示警告图标和"不支持"提示
  • 在不支持的硬件上运行诊断可能导致不可预知的结果

最佳实践

新设备验收

  1. 首先执行快速体检验证基础功能
  2. 通过后执行全量压测进行深度稳定性验证
  3. 保存两份报告作为验收依据

日常维护

  1. 每月执行一次快速体检
  2. 重点关注MCA错误和总线误码率
  3. 建立基线数据用于趋势分析

故障诊断

  1. 重现问题时立即执行快速体检
  2. 关注特定测试步骤的失败信息
  3. 结合系统日志进行综合分析

技术说明

检测原理

  • MCA解析:读取机器检查架构寄存器,检测硬件级错误
  • 总线拓扑:验证CPU间互联链路的完整性
  • 计算精度:通过Linpack残差校验验证浮点计算准确性
  • 热稳定性:在极限负载下检测因过热导致的计算错误

性能影响

  • 快速体检:对系统性能影响较小,可在业务低峰期执行
  • 全量压测:会占用大量CPU资源,建议在维护窗口执行

注意:本诊断工具旨在辅助硬件故障定位,测试结果应结合其他监控数据进行综合判断。对于关键业务系统,建议在维护窗口执行全量压测。