PyTorch编写代码遇到的问题及解决方案编程频道|福州电脑网

2023年11月29日发(作者：)

PyTorch编写代码遇到的问题及解决⽅案

PyTorch编写代码遇到的问题

错误提⽰：no module named xxx

xxx为⾃定义⽂件夹的名字

因为搜索不到，所以将当前路径加⼊到包的搜索⽬录

解决⽅法：

import sys

('..') #将上层⽬录加⼊到搜索路径中

('/home/xxx') # 绝对路径

import os

(()) # #将当前⼯作路径加⼊到搜索路径中

还可以在当前终端的命令⾏设置

export PYTHONPATH=$PYTHONPATH:./

错误提⽰：AttributeError: ‘NoneType' object has no attribute ‘shape' height, width, channel =

在Linux系统下报错AttributeError: ‘NoneType' object has no attribute ‘shape'

img=()，读取⼀张图⽚时，是包含三个量的元组，分别是：

[0]：图像的⾼度

[1]：图像的宽度

[2]：图像的通道数

解决⽅法：读的⽂件出错或者查看⽂件路径是否正确

错误提⽰：TypeError: slice indices must be integers or None or have an index method

cropped_im = img[ny1 : ny2, nx1 : nx2, :]

解决⽅法：需要将ny1 : ny2, nx1 : nx2转换成int类型

错误提⽰：Input type (Tensor) and weight type (ensor) should be the same

以下三⼩段分别是Data type CPU tensor GPU tensor

32-bit floating point ensor ensor

64-bit floating point Tensor Tensor

出错在类型转换

更改为32

import orms as transforms

import numpy as np

transform = or()

版本问题旧式写法

import torch

x = (0.1)

y = (0.2)

z = ((x, y))

改成新式写法

x = ([0.1])

y = ([0.2])

z = ((x, y))

print(z)

结果

tensor([0.1000, 0.2000])

错误提⽰：TypeError: ‘float' object is not subscriptable

多了下标 a = ()[0]

去除下标 a = ()

错误提⽰：argument ‘input' (position 1) must be Tensor, not list

需要将list转换成tensor

假设a是list

suppress = ((n_above_min_score), dtype=).to(device)

UserWarning: volatile was removed and now has no effect. Use with _grad(): instead.

#之前旧版本

...

x = Variable((1), volatile=True)

return x

#新版

with _grad():

...

x = (1)

return x

错误提⽰

RuntimeError: Attempting to deserialize object on CUDA device 1 but _count() is 1. Please use

with map_location to map your storages to an existing device.

或者是 RuntimeError: expected device cuda:0 but got device cuda:1

错误原因之⼀

使⽤了CUDA 1显卡训练保存的模型⽂件,使⽤CUDA 0验证

代码中写了

device = (“cuda” if _available() else “cpu”)

可以在命令⾏设置让哪些GPU可见

export CUDA_VISIBLE_DEVICES=1 #GPU编号

export CUDA_VISIBLE_DEVICES=0,1,2,3#4张显卡可见

也可以在代码⾥改成

checkpoint = (checkpoint,map_location=‘cuda:0')

错误提⽰

raise ConnectionError(e, request=request)

tionError: HTTPConnectionPool(host='localhost', port=8097): Max retries exceeded

with url: /update (Caused by NewConnectionError('

Tensor:

model = Model()

tensor = ([2, 3, 10, 10])

()

tensor_cuda = ()

model(tensor) # 会报错

model(tensor_cuda) # 正常运⾏

和不同，调⽤只是返回这个 tensor 对象在 GPU 内存上的拷贝，⽽不会对⾃⾝进⾏改变。因此必须对

tensor 进⾏重新赋值，即 tensor = ()

PyTorch 0.4 计算累积损失的不同

以⼴泛使⽤的模式 total_loss += [0] 为例。Python0.4.0 之前，loss 是⼀个封装了 (1,) 张量的 Variable，但

Python0.4.0 的 loss 现在是⼀个零维的标量。对标量进⾏索引是没有意义的（似乎会报 invalid index to scalar variable 的错

误）。使⽤ () 可以从标量中获取 Python 数字。所以改为：

total_loss = total_loss + ()

如果在累加损失时未将其转换为 Python 数字，则可能出现程序内存使⽤量增加的情况。这是因为上⾯表达式的右侧原本是⼀

个 Python 浮点数，⽽它现在是⼀个零维张量。因此，总损失累加了张量和它们的梯度历史，这可能会产⽣很⼤的 autograd

图，耗费内存和计算资源。

⾃适应 CPU 和 GPU设备的 trick

device = ("cuda" if _available() else "cpu")

model = Model().to(device)

total_loss = 0

for input, target in train_loader:

input, target = (device), (device)

...

total_loss = total_loss + ()

with _grad():

for input, target in test_loader:

...

的使⽤

官⽅说明：Returns a new Tensor, detached from the current graph,The result will never require gradient

假设有模型 A 和模型 B，我们需要将 A 的输出作为 B 的输⼊，但训练时我们只训练模型 B. 那么可以这样做：

input_B = output_

它可以使两个计算图的梯度传递断开，从⽽实现我们所需的功能。

pytorch中loss函数的参数设置

以CrossEntropyLoss为例：

CrossEntropyLoss(self, weight=None, size_average=None, ignore_index=-100, reduce=None,

reduction='elementwise_mean')

若 reduce = False，那么 size_average 参数失效，直接返回向量形式的 loss，即batch中每个元素对应的loss.

若 reduce = True，那么 loss 返回的是标量：

如果 size_average = True，返回 .

如果 size_average = False，返回 .

weight : 输⼊⼀个1D的权值向量，为各个类别的loss加权，如下公式所⽰：

ignore_index : 选择要忽视的⽬标值，使其对输⼊梯度不作贡献。如果 size_average = True，那么只计算不被忽视的⽬标的

loss的均值。

reduction : 可选的参数有：‘none' | ‘elementwise_mean' | ‘sum', 正如参数的字⾯意思。

多GPU的处理机制

使⽤多GPU时，应该记住 PyTorch 的处理逻辑是：

在各个GPU上初始化模型。

前向传播时，把batch分配到各个GPU上进⾏计算。

得到的输出在主GPU上进⾏汇总，计算loss并反向传播，更新主GPU上的权值。

把主GPU上的模型复制到其它GPU上。

训练时损失出现nan的问题

训练模型时出现损失为 nan 的情况

可能导致梯度出现 nan 的三个原因：

梯度爆炸。也就是说梯度数值超出范围变成 nan. 通常可以调⼩学习率、加 BN 层或者做梯度裁剪来试试看有没有解决。

损失函数或者⽹络设计。⽐⽅说，出现了除 0，或者出现⼀些边界情况导致函数不可导，⽐⽅说log(0)、sqrt(0).

脏数据。可以事先对输⼊数据进⾏判断看看是否存在 nan.

补充⼀下nan数据的判断⽅法：

注意！像 nan 或者 inf 这样的数值不能使⽤ == 或者 is 来判断！为了安全起见统⼀使⽤或者吧。

import numpy as np

if ((().numpy())):

print("Input data has NaN!")

if((())):

print("Loss value is NaN!")

pytorch 内存泄漏

_tensor(data, dtype=None,device=None)->Tensor : 为data⽣成tensor。

如果data已经是tensor，且dtype和device与参数相同，则⽣成的tensor会和data共享内存。如果data是ndarray,且dtype对

应，devices为cpu，则同样共享内存。其他情况则不共享内存。

import torch

import numpy

a = ([1, 2, 3])

t = _tensor(a)

以上为个⼈经验，希望能给⼤家⼀个参考，也希望⼤家多多⽀持。

PyTorch编写代码遇到的问题及解决方案

发布评论取消回复

最近发表

相关推荐

标签列表

PyTorch编写代码遇到的问题及解决方案

发布评论 取消回复

最近发表

相关推荐

标签列表

发布评论取消回复