DeplOS

功能教程：GPU 深度压力测试 (GPU Stress)

本模块是 DeplOS 针对高性能计算 (HPC) 与 AI 算力集群的核心质量控制组件。专为多卡 GPU 服务器的出厂验收、显存泄漏排查及极限算力稳定性评估设计。系统将通过自动化引导，对底层的显卡计算核心及显存颗粒执行工业级强度的交叉验证。

系统内置了针对 GPU 架构深度优化的压测算法模型，确保每一张算力卡都能达到企业级交付标准：

验证标准 (Verification Standards)	适用场景与底层算法原理 (Scenario & Logic)
显存泄漏检测 (Memory Leak)	采用 Robust Linear Regression 算法，自动剔除预热 (Warm-up) 阶段的噪点，精确识别显存高频读写中的微小泄漏与位翻转 (Bit Flips)。
核心满载烤机 (CUDA Core Stress)	针对计算核心施加持续的极限浮点运算负载，验证 GPU 在长时间撞击功耗墙 (TDP) 和温度墙时的频率保持率及散热系统有效性。
PCIe 带宽与拓扑验证	验证 GPU 与 CPU 之间、以及多卡之间 (如 NVLink) 的数据交换带宽是否达到标称峰值，排除插槽限速或线缆故障。

在发起 GPU 压测任务之前，请务必确认：

资产库就绪： 目标服务器必须已在资产库中登记。
显卡拓扑识别： 系统的底层探针必须已经成功抓取到目标服务器的 PCI-E 设备树，并准确识别出了 GPU 的型号、数量以及物理槽位（这关系到后续能否精准勾选单张显卡）。

本模块支持精确到“单张显卡”级别的颗粒度管控，允许您在多卡服务器上仅对部分特定 GPU 进行压测。

点击页面右上角的 “ 创建压测引导任务”。
选择目标物理机： 在弹出的设备选择列表中，圈选需要测试的服务器（如 SN: GPU-NODE-01）。
精确选择 GPU (GPU Selection)：
- 当您选中某台服务器后，系统会自动拉起 选择 GPU 模态框。
- 界面中会列出该服务器上搭载的所有显卡列表（例如 GPU 0, GPU 1...）。您可以全部勾选，或仅勾选更换过散热硅脂的那几张卡。
- 点击 “确定选择” 完成绑定。

配置完成后，您需要在控制台手动触发压测流程。

批量启动： 在任务列表中勾选状态为 Waiting 的任务，点击控制台的 “ 启动任务 (Start)”。系统将唤醒 Agent 并拉起压测引擎。
实时列表监控：
- 您可以点击 “ 刷新列表” 实时获取最新状态。
- 列表将直观呈现每台机器当前正在运行的 GPU 数量、当前核心温度、显存占用率等关键指标。

由于 GPU 满载烤机极易导致整机热量飙升，系统提供了高优先级的熔断干预手段。

紧急终止 (Stop Test)：
- 若监控面板中出现某张卡温度飙红报警（如突破 90°C），请立即勾选该任务，并点击 “ 停止任务”。
- 系统将弹出危险操作确认框。确认后，平台将强制发送 KILL 信号给底层的 CUDA 压测进程，瞬间切断负载，保护昂贵的算力卡。
全选与批量操作： 表格左侧提供了全选框，支持一键选中当前页面的所有压测节点执行启停操作。

压测流程正常结束后，系统会自动对测试期间抓取的线性回归日志进行聚合分析。