2023年11月29日发(作者:)
使⽤pytorch时所遇到的⼀些问题总结
使⽤pytorch时所遇到的问题总结
1、ubuntu vscode切换虚拟环境
在ubuntu系统上,配置⼯作区⽂件夹所使⽤的虚拟环境。之前笔者误以为只需要在vscode内置的终端上将虚拟环境切换过来即可,后来发现得通过配置vscode的解释器(interpreter)
具体⽅法如下:
选中需要配置的⽂件夹,然后点击vscode左下⾓的写有“Python ***”的位置(或者使⽤快捷键“ctrl+shift+p”)--》选择⽂件夹--》从解释器列表中选择要⽤的解释器。
完成设置后,会在⽂件夹下⾯多出⼀个名为“.vscode”的⽂件夹,其中会多出⼀个名为“”的⽂件,经过设置后该⽂件内会多出⼀个条⽬来指向虚拟环境中的python的路径,
例如:
Path:"/home/lh/anaconda3/envs/pytorch/bin/python"
2、使⽤DataLoader时报错:
raise RuntimeError('already started')
出错位置在使⽤DataLoader时,将参数“num_workers”设置为⼤于0的值了,推测原因是没有打开多线程功能,解决⽅法为将num_workers设置为0。
如果需要要使⽤多个⼦线程来加载数据,那么就需要让主程序在“if __name__ = 'main'"中运⾏。
3、pytorch中使⽤TensorBoard
问题(1):
Import Error:TensorBoard logging requires TensorBoard with Python summary writer installed
这是由于当前的环境中没有安装TensorBoard。如果电脑上安装有anaconda,那么直接使⽤命令“conda install tensorboard”即可。
问题(2):调出tensorboard界⾯
当在程序中调⽤SummaryWriter之后,在控制台中会给出如下信息:
其中需要注意的是“--port 41889”。然后我们在控制台中输⼊命令“tensorboard --logdir='log' --port=41889”,--logdir⽤来指向之前所指定的⽇志⽬录,--port就是之前控制台中给出的端⼝号。输⼊指令后,
控制台中会给出⼀个⽹址,打开该⽹址就可以在浏览器中打开tensorboard界⾯了。
4、pytorch使⽤dataloader时,
报出“TypeError:default_collect:batch must contain tensors, numpy arrays, numbers,dicts or lists; found
这是因为在创建t对象的时候没有将数据库内的图像转为torch张量,在创建数据库对象的时候将参数transform进⾏如下设置就可以了:transform=or()。
5、报错
RuntimeError:Input type (ensor) and weight type (ensor) should be the same
这是由于传⼊模型的数据是放在CPU内存中的,⽽模型本⾝被放置在GPU内存中了。因此只需要将输⼊的数据放置到GPU内存中就可以解决问该问题了。
6、pytorch,同名函数后⾯加⼀个'_',例如:'clamp()'与'clamp_()'
⼀般来说,如果函数后带了⼀个下划线,就意味着在改变当前张量的值的同时返回⼀个修改后的副本;如果不带下划线,那么就只返回修改后的副本,⽽不改变原来张量的值。
例如:
import torch
a=(3)
print('a:{}'.format(a))
print("clamp效果:")
b=(0, 0.5)
print('b:{}'.format(b))
print('a:{}'.format(a))
print("clamp_效果:")
b=_(0, 0.5)
print('b:{}'.format(b))
print('a:{}'.format(a))
结果为如下图,可见张量a在调⽤clamp_函数后其本⾝的值也会发⽣改变,但是调⽤clamp的时候则只会返回⼀个修改后的副本。
7、python中(1)与(1,)的区别
‘(1)'这种写法得到的是⼀个int类型的数据,⽽‘(1, )'得到的是⼀个turple类型的数据。验证如下:
8、tqdm进度条
()所传⼊的参数指的是进度条前进的步长,⽽不是当前进度。
补充:Pytorch中常见的报错解决⽅案
本⽂⽤于记录所在pytorch所遇到过的运⾏时错误,持续更新。
1、变量所在设备(CPU,GPU)不⼀致问题
RuntimeError: Input type (ensor) and weight type (ensor) should be the same
可能原因:现在假设代码要在GPU上运⾏,并且你已经进⾏my_(device)操作了。注意只有my_model中的属性(也就是self.开头的变量)才会进⾏.to(device)。如果出现这个错误,可能是有的中
间变量需要⼿动再显式地.to(device)⼀下~
2、在Conv2d中padding或stride的参数个数错误的问题
RuntimeError: expected padding to be a single integer value or a list of 1 values to match the convolution dimensions, but got padding=[0, 0]
原因⼀:
对于⼀张⼆维图⽚来说,它的padding也是⼆维的,即横、纵⽅向上都需要设置padding(当然这两个数字⼀般是⼀样的)。现在为什么提⽰我们padding应该是⼀维的呢?⼀定是输⼊数据维度不对。
原因⼆:
上⾯说的是最可能的情况,如果你发现图⽚已经是四维的却还有这个报错,请检查你Conv2d()的输⼊参数。
例如,如果你把stride设置为⼀维的[3]⽽不是⼆维3(注意3会被⾃动处理成[3, 3]),同时padding为⼆维的0。
pytorch发现stride是⼀维的,⽽padding却是⼆维的,就会报错。
3、inplace operation问题
one of the variables needed for gradient computation has been modified by an inplace operationone of the variables needed for gradient computation has been modified by an inplace
operation
inplace操作可能会使得backward⽆法进⾏(因为当前Tensor可能会在另⼀个地⽅被⽤到),⽐如forward出现了如下代码:
x += y
你可能需要该成:
x = x + y
以上为个⼈经验,希望能给⼤家⼀个参考,也希望⼤家多多⽀持。


发布评论