2023年12月7日发(作者:)

使用NVIDIA-SMI监控GPU利用率和温度

欢迎关注我的微信公众号“人小路远”哦,在这里我将会记录自己日常学习的点滴收获与大家分享,以后也可能会定期记录一下自己在外读博的所

见所闻,希望大家喜欢,感谢支持!

NVIDIA-SMI为英伟达NVIDIA显卡自带的工具,一般位置为

C:Program

,可以用来监控GPU状态和使

用情况,尤其是我们最关心的温度和使用率。

1、查看GPU当前各项信息

在命令行中进入文件所在目录,并运行。

img

各项参数含义:

第一行

GPU(显卡序号)

FAN(风扇)

Name(显卡型

号)

Temp(GPU温

度)

Perf(性能状态)

0(第一块显卡)

N/A(无风扇)

GeForce MX150

第二行

35C(35度)

P8(P0表示最大性能,P12表示状态最小性能(即 GPU 未工作时为P0,达到最大工作限度时为

P12))

WDDM(NVIDIA 高性能 GPU(如Tesla, Quadro)可以配置为 TCC(Tesla Compute Cluster)

模式或 WDDM(Windows Display Driver Model)模式。二者区别在于,TCC 模式下,GPU完全

用于计算,并不需要本地显示功能;而 WDDM 模式下,GPU 同时扮演计算卡 + 显卡的角色。)

N/A / N/A (无数据)

TCC/WDDM(两

种使用模式)

Pwr:Usage/Cap(

GPU功耗)

Bus-Id(GPU总

第一行

线)

Disp.A(Display

Active,表示GPU

的显示是否初始

化)

Memory-

Usage(显存使用

率)

Volatile GPU-

Util(GPU使用

率)

Uncorr.

ECC(Error

Correcting

Code,错误检查与

纠正)

Compute M.(计

算模式)

00000000:01:00.0(domain: bus:on)

第二行

off

64MiB / 2048 MiB

0%

N/A (无数据)

Default

2、滚动检测

以滚动条形式显示GPU设备统计信息。

# 指定刷新时间(默认为1秒)

nvidia-smi dmon –d xxx

# 指定显示哪些监控指标(默认为puc),其中:

# p:电源使用情况和温度(pwr:功耗,temp:温度)

# u:GPU使用率(sm:流处理器,mem:显存,enc:编码资源,dec:解码资源)

# c:GPU处理器和GPU内存时钟频率(mclk:显存频率,pclk:处理器频率)

# v:电源和热力异常

# m:FB内存和Bar1内存

# e:ECC错误和PCIe重显错误个数

# t:PCIe读写带宽

nvidia-smi dmon –s xxx

img

3、其他命令

3.1、列出所有可用的 NVIDIA 设备信息

nvidia-smi -L

3.2、查询GPU当前详细信息

# 查询所有GPU的当前信息

nvidia-smi -q

# 查询指定GPU的当前信息,xxx为GPU序号

nvidia-smi –q –i xxx

# 指定显示GPU卡某些信息,xxx参数可以为:MEMORY, UTILIZATION, ECC, TEMPERATURE, POWER,CLOCK, COMPUTE, PIDS, PERFORMANCE, SUPPORTED_CLOCK

nvidia-smi -q –d xxx

# 动态刷新信息,按Ctrl+C停止,可指定刷新频率,以秒为单位

nvidia-smi –q –l xxx

# 将查询的信息输出到具体的文件中,不在终端显示

nvidia-smi –q –f xxx