功能教程:全栈硬件健康监控 (Nexus Monitor)
HrnrOS 的硬件监控模块不仅仅是被动展示数据,它是一个具备自我感知与自愈能力的全栈健康诊断平台。它能实时捕获从 CPU 寄存器错误到光模块电压波动的微小异常,并在系统崩溃前发出预警。
⚠️ 关键前置:部署监控 Agent
硬件监控的数据源依赖于运行在服务器上的 Agent 程序。在使用本模块前,请务必完成 Agent 部署:
- 前往 [资产管理] 页面。
- 勾选目标服务器,点击 “批量部署 Agent”。
- 等待部署完成后,服务器会自动向监控平台注册并开始上报数据。
步骤 1: 全局健康看板
进入 “硬件健康监控” 页面,首先看到的是全局状态大盘。
- 状态总览:
- 通过顶部的统计卡片,您可以快速了解当前有多少台服务器处于 正常、 告警 或 故障 状态。
- 标签云: 右侧的动态标签云展示了当前系统正在实时监控的关键指标(如
GPU ECC,NVMe Health,光模块电压等)。
- 资产列表:
- 列表展示了每一台服务器的核心硬件摘要(CPU型号、内存总量、GPU数量等)。
- Agent 版本管理: 在“Agent版本”列,如果发现图标变为黄色 v1.0.1 (点我升级),说明该服务器的 Agent 版本过低,点击即可一键远程热升级。

步骤 2: 深度硬件透视
点击列表中的任意硬件图标(如 CPU、内存、磁盘),将打开深度诊断模态框。
1. CPU & 内存透视
- CPU: 查看每个物理核心的主频、温度、L3 缓存大小。
- 内存: 系统会绘制出物理插槽分布图,显示每条内存的 厂商、序列号 (SN)、频率 以及 ECC 错误计数。
- 故障定位: 如果某条内存发生 CE/UE 错误,系统会直接标红该插槽,方便运维人员携带备件精准更换。
2. 存储健康 (Smart & RAID)
- 物理磁盘: 查看每块硬盘的 SMART 健康评分、通电时间、总读写量。
- RAID/逻辑卷: 实时监控 RAID 卡状态(如缓存电池电量、RAID 级别),并展示逻辑卷的降级/重建进度。
3. GPU 算力诊断
- 专为 AI 场景设计,实时监控 GPU 的 显存使用率、功耗墙、温度。
- ECC 监控: 独立展示 SRAM/DRAM 的单比特跳变错误,帮助您提前发现不稳定的显卡。

步骤 3: 智能修复 (Self-Healing)
当 Agent 失联或系统出现“假死”状态时,您无需登录服务器,直接使用智能修复功能。
- 在列表右侧的操作列,点击红色的 “” (智能修复) 按钮。
- 自动执行流程:
- Phase 1: 尝试通过 SSH 重启 Agent 服务。
- Phase 2: 如果 SSH 不通,自动调用 IPMI 接口执行 BMC 重置。
- Phase 3: (可选) 执行电源循环(Power Cycle)以强制恢复硬件状态。
- 修复过程中,系统会弹出一个日志终端,实时打印每一步的执行结果。

步骤 4: 基准变更管理
为了防止硬件被私自更换或移除,系统引入了“基准快照”机制。
- 告警场景: 当服务器的硬件配置(如内存条数量、磁盘型号)发生变化时,系统会立即触发 “硬件变更告警”。
- 合法变更确认:
- 如果您确实进行了硬件升级(例如加装了内存),请在详情页点击 “ 设为新基准”。
- 系统会将当前的硬件配置保存为新的“正确标准”,告警随即消除。