2023年12月7日发(作者:)
使用NVIDIA-SMI监控GPU利用率和温度
欢迎关注我的微信公众号“人小路远”哦,在这里我将会记录自己日常学习的点滴收获与大家分享,以后也可能会定期记录一下自己在外读博的所
见所闻,希望大家喜欢,感谢支持!
NVIDIA-SMI为英伟达NVIDIA显卡自带的工具,一般位置为
C:Program
,可以用来监控GPU状态和使
用情况,尤其是我们最关心的温度和使用率。
1、查看GPU当前各项信息
在命令行中进入文件所在目录,并运行。
img
各项参数含义:
第一行
GPU(显卡序号)
FAN(风扇)
Name(显卡型
号)
Temp(GPU温
度)
Perf(性能状态)
0(第一块显卡)
N/A(无风扇)
GeForce MX150
第二行
35C(35度)
P8(P0表示最大性能,P12表示状态最小性能(即 GPU 未工作时为P0,达到最大工作限度时为
P12))
WDDM(NVIDIA 高性能 GPU(如Tesla, Quadro)可以配置为 TCC(Tesla Compute Cluster)
模式或 WDDM(Windows Display Driver Model)模式。二者区别在于,TCC 模式下,GPU完全
用于计算,并不需要本地显示功能;而 WDDM 模式下,GPU 同时扮演计算卡 + 显卡的角色。)
N/A / N/A (无数据)
TCC/WDDM(两
种使用模式)
Pwr:Usage/Cap(
GPU功耗)
Bus-Id(GPU总
第一行
线)
Disp.A(Display
Active,表示GPU
的显示是否初始
化)
Memory-
Usage(显存使用
率)
Volatile GPU-
Util(GPU使用
率)
Uncorr.
ECC(Error
Correcting
Code,错误检查与
纠正)
Compute M.(计
算模式)
00000000:01:00.0(domain: bus:on)
第二行
off
64MiB / 2048 MiB
0%
N/A (无数据)
Default
2、滚动检测
以滚动条形式显示GPU设备统计信息。
# 指定刷新时间(默认为1秒)
nvidia-smi dmon –d xxx
# 指定显示哪些监控指标(默认为puc),其中:
# p:电源使用情况和温度(pwr:功耗,temp:温度)
# u:GPU使用率(sm:流处理器,mem:显存,enc:编码资源,dec:解码资源)
# c:GPU处理器和GPU内存时钟频率(mclk:显存频率,pclk:处理器频率)
# v:电源和热力异常
# m:FB内存和Bar1内存
# e:ECC错误和PCIe重显错误个数
# t:PCIe读写带宽
nvidia-smi dmon –s xxx
img
3、其他命令
3.1、列出所有可用的 NVIDIA 设备信息
nvidia-smi -L
3.2、查询GPU当前详细信息
# 查询所有GPU的当前信息
nvidia-smi -q
# 查询指定GPU的当前信息,xxx为GPU序号
nvidia-smi –q –i xxx
# 指定显示GPU卡某些信息,xxx参数可以为:MEMORY, UTILIZATION, ECC, TEMPERATURE, POWER,CLOCK, COMPUTE, PIDS, PERFORMANCE, SUPPORTED_CLOCK
nvidia-smi -q –d xxx
# 动态刷新信息,按Ctrl+C停止,可指定刷新频率,以秒为单位
nvidia-smi –q –l xxx
# 将查询的信息输出到具体的文件中,不在终端显示
nvidia-smi –q –f xxx


发布评论