功能教程:GPU 深度压力测试 (GPU Stress)
本模块是 hrnrOS 针对高性能计算 (HPC) 与 AI 算力集群的核心质量控制组件。专为多卡 GPU 服务器的出厂验收、显存泄漏排查及极限算力稳定性评估设计。系统将通过自动化引导,对底层的显卡计算核心及显存颗粒执行工业级强度的交叉验证。
核心验证算法与硬件支持矩阵 (Industrial Verification Spec)
系统内置了针对 GPU 架构深度优化的压测算法模型,确保每一张算力卡都能达到企业级交付标准:
| 验证标准 (Verification Standards) | 适用场景与底层算法原理 (Scenario & Logic) |
|---|---|
| 显存泄漏检测 (Memory Leak) | 采用 Robust Linear Regression 算法,自动剔除预热 (Warm-up) 阶段的噪点,精确识别显存高频读写中的微小泄漏与位翻转 (Bit Flips)。 |
| 核心满载烤机 (CUDA Core Stress) | 针对计算核心施加持续的极限浮点运算负载,验证 GPU 在长时间撞击功耗墙 (TDP) 和温度墙时的频率保持率及散热系统有效性。 |
| PCIe 带宽与拓扑验证 | 验证 GPU 与 CPU 之间、以及多卡之间 (如 NVLink) 的数据交换带宽是否达到标称峰值,排除插槽限速或线缆故障。 |
⚠️ 关键前置:显卡资产识别与驱动环境
在发起 GPU 压测任务之前,请务必确认:
- 资产库就绪: 目标服务器必须已在资产库中登记。
- 显卡拓扑识别: 系统的底层探针必须已经成功抓取到目标服务器的 PCI-E 设备树,并准确识别出了 GPU 的型号、数量以及物理槽位(这关系到后续能否精准勾选单张显卡)。
步骤 1: 创建压测引导任务与显卡圈选
本模块支持精确到“单张显卡”级别的颗粒度管控,允许您在多卡服务器上仅对部分特定 GPU 进行压测。
- 点击页面右上角的 “ 创建压测引导任务”。
- 选择目标物理机: 在弹出的设备选择列表中,圈选需要测试的服务器(如
SN: GPU-NODE-01)。 - 精确选择 GPU (GPU Selection):
- 当您选中某台服务器后,系统会自动拉起 选择 GPU 模态框。
- 界面中会列出该服务器上搭载的所有显卡列表(例如 GPU 0, GPU 1...)。您可以全部勾选,或仅勾选更换过散热硅脂的那几张卡。
- 点击 “确定选择” 完成绑定。
步骤 2: 启动任务与大盘监控
配置完成后,您需要在控制台手动触发压测流程。
- 批量启动: 在任务列表中勾选状态为
Waiting的任务,点击控制台的 “ 启动任务 (Start)”。系统将唤醒 Agent 并拉起压测引擎。 - 实时列表监控:
- 您可以点击 “ 刷新列表” 实时获取最新状态。
- 列表将直观呈现每台机器当前正在运行的 GPU 数量、当前核心温度、显存占用率等关键指标。
步骤 3: 异常干预与任务管控
由于 GPU 满载烤机极易导致整机热量飙升,系统提供了高优先级的熔断干预手段。
- 紧急终止 (Stop Test):
- 若监控面板中出现某张卡温度飙红报警(如突破 90°C),请立即勾选该任务,并点击 “ 停止任务”。
- 系统将弹出危险操作确认框。确认后,平台将强制发送
KILL信号给底层的 CUDA 压测进程,瞬间切断负载,保护昂贵的算力卡。
- 全选与批量操作: 表格左侧提供了全选框,支持一键选中当前页面的所有压测节点执行启停操作。
步骤 4: 查看在线压测报告
压测流程正常结束后,系统会自动对测试期间抓取的线性回归日志进行聚合分析。
- 在操作列中点击对应的 “查看报告” 按钮。
- 调出沉浸式报告面板: 系统将拉起黑底白纸风格的
report-modal在线预览界面。 - 核心指标验收: 报告内将详尽展示这批 GPU 的测试时长、最高温度极值、平均算力输出、以及是否通过了严苛的显存泄漏 (Memory Leak) 验证。