Skip to content

功能教程:全栈硬件健康监控 (Nexus Monitor)

HrnrOS 的硬件监控模块不仅仅是被动展示数据,它是一个具备自我感知与自愈能力的全栈健康诊断平台。它能实时捕获从 CPU 寄存器错误到光模块电压波动的微小异常,并在系统崩溃前发出预警。

⚠️ 关键前置:部署监控 Agent

硬件监控的数据源依赖于运行在服务器上的 Agent 程序。在使用本模块前,请务必完成 Agent 部署:

  1. 前往 [资产管理] 页面。
  2. 勾选目标服务器,点击 “批量部署 Agent”
  3. 等待部署完成后,服务器会自动向监控平台注册并开始上报数据。

步骤 1: 全局健康看板

进入 “硬件健康监控” 页面,首先看到的是全局状态大盘。

  1. 状态总览:
    • 通过顶部的统计卡片,您可以快速了解当前有多少台服务器处于 正常 告警 故障 状态。
    • 标签云: 右侧的动态标签云展示了当前系统正在实时监控的关键指标(如 GPU ECC, NVMe Health, 光模块电压 等)。
  2. 资产列表:
    • 列表展示了每一台服务器的核心硬件摘要(CPU型号、内存总量、GPU数量等)。
    • Agent 版本管理: 在“Agent版本”列,如果发现图标变为黄色 v1.0.1 (点我升级),说明该服务器的 Agent 版本过低,点击即可一键远程热升级。

硬件监控全局看板

步骤 2: 深度硬件透视

点击列表中的任意硬件图标(如 CPU、内存、磁盘),将打开深度诊断模态框

1. CPU & 内存透视

  • CPU: 查看每个物理核心的主频、温度、L3 缓存大小。
  • 内存: 系统会绘制出物理插槽分布图,显示每条内存的 厂商序列号 (SN)频率 以及 ECC 错误计数
    • 故障定位: 如果某条内存发生 CE/UE 错误,系统会直接标红该插槽,方便运维人员携带备件精准更换。

2. 存储健康 (Smart & RAID)

  • 物理磁盘: 查看每块硬盘的 SMART 健康评分通电时间总读写量
  • RAID/逻辑卷: 实时监控 RAID 卡状态(如缓存电池电量、RAID 级别),并展示逻辑卷的降级/重建进度。

3. GPU 算力诊断

  • 专为 AI 场景设计,实时监控 GPU 的 显存使用率功耗墙温度
  • ECC 监控: 独立展示 SRAM/DRAM 的单比特跳变错误,帮助您提前发现不稳定的显卡。

深度硬件详情弹窗

步骤 3: 智能修复 (Self-Healing)

当 Agent 失联或系统出现“假死”状态时,您无需登录服务器,直接使用智能修复功能。

  1. 在列表右侧的操作列,点击红色的 ” (智能修复) 按钮。
  2. 自动执行流程:
    • Phase 1: 尝试通过 SSH 重启 Agent 服务。
    • Phase 2: 如果 SSH 不通,自动调用 IPMI 接口执行 BMC 重置。
    • Phase 3: (可选) 执行电源循环(Power Cycle)以强制恢复硬件状态。
  3. 修复过程中,系统会弹出一个日志终端,实时打印每一步的执行结果。

智能修复执行日志

步骤 4: 基准变更管理

为了防止硬件被私自更换或移除,系统引入了“基准快照”机制。

  • 告警场景: 当服务器的硬件配置(如内存条数量、磁盘型号)发生变化时,系统会立即触发 “硬件变更告警”
  • 合法变更确认:
    • 如果您确实进行了硬件升级(例如加装了内存),请在详情页点击 设为新基准”
    • 系统会将当前的硬件配置保存为新的“正确标准”,告警随即消除。