服务器考机

AI提效 Claude Sonnet 4+ ChatGPT
此系列,多多少少都会用到AI。

背景

刚购置了一台服务器,准备付尾款了,但是因为服务器是全新的,只装了几台虚拟机,显卡啥的都还没有用,所以在付钱之前需要先测试一下,看看表现。

跑了一整晚,第二天,看着没问题就删掉了虚拟机,忘了截图。

服务器配置

  1. CPU: 2*96
  2. 内存:384G
  3. 硬盘:5*3.4T
  4. 显卡:2*RTX5880

准备工作

  1. 开启显卡直通
  2. 停掉所有虚拟机
  3. 新建一台临时虚拟机
    1. 分配所有CPU+350GB内存+500G硬盘+2*RTX5880
    2. 安装ubuntu 24.04

安装显卡对应的驱动

1
2
3
sudo apt install ubuntu-drivers-common
ubuntu-drivers devices
sudo ubuntu-drivers autoinstall

安装烤鸡需要的工具

  1. gpu-burn
  2. stress-ng

系统测试脚本( GPU + CPU + 内存 + IO综合烤机测试)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
#!/bin/bash

set -e

# 设置工具路径(修改为你实际的 gpu_burn 目录)
GPU_BURN_PATH="$HOME/gpu-burn/gpu_burn"

# 检查是否存在命令
command -v stress-ng >/dev/null 2>&1 || { echo >&2 "需要安装 stress-ng:sudo apt install stress-ng -y"; exit 1; }
command -v fio >/dev/null 2>&1 || { echo >&2 "需要安装 fio:sudo apt install fio -y"; exit 1; }

# 检查 GPU_BURN 是否存在
if [ ! -f "$GPU_BURN_PATH" ]; then
echo "找不到 gpu_burn,可在 https://github.com/wilicc/gpu-burn 下载并编译"
exit 1
fi

echo "开始 GPU + CPU + 内存 + IO 综合烤机测试"

# GPU 测试
"$GPU_BURN_PATH" 86400 &
GPU_PID=$!

# CPU 测试
stress-ng --cpu 0 --timeout 24h --metrics-brief &
CPU_PID=$!

# 内存测试
stress-ng --vm 4 --vm-bytes 80% --timeout 24h --metrics-brief &
MEM_PID=$!

# 磁盘I/O测试
fio --name=randwrite --ioengine=libaio --iodepth=16 --rw=randwrite --bs=4k --direct=1 --size=4G --numjobs=4 --runtime=86400 --group_reporting &
IO_PID=$!

echo "测试开始,PID: GPU=$GPU_PID, CPU=$CPU_PID, MEM=$MEM_PID, IO=$IO_PID"
wait


监控几种方案

  1. watch命令
    1
    2
    3
    4
    5
    6
    7
    8
    9
    # 每5秒刷新GPU状态
    watch -n 5 nvidia-smi

    # 每10秒刷新(减少刷新频率)
    watch -n 10 nvidia-smi

    # 只看关键信息
    watch -n 5 "nvidia-smi --query-gpu=name,temperature.gpu,power.draw,utilization.gpu,memory.used --format=csv"

  2. nvtop
    1
    2
    3
    4
    5
    6
    7
    bash# 安装nvtop - GPU实时监控工具
    sudo apt update
    sudo apt install nvtop -y

    # 运行nvtop
    nvtop

3.安装netdata + GPU集成插件