# Linux下查看所有GPU上的使用者和GPU占用情况
# 查看GPU实时运行状态
1、先安装(pip install gpustat)
watch -n 2 --color gpustat --c
2、watch -n 0.5 -d nvidia-smi
查看一次:nvidia-smi
1
2
3
4
5
6
7
2
3
4
5
6
7
# 清理显存占用进程
使用如下命令查看到top或者ps中看不到的进程,之后再kill掉:
fuser -v /dev/nvidia*
kill -9 进程号
批量清理显卡中残留进程:
sudo fuser -v /dev/nvidia* |awk '{for(i=1;i<=NF;i++)print "kill -9 " $i;}' | sudo sh
清理指定GPU显卡中残留进程,如GPU 2:
sudo fuser -v /dev/nvidia2 |awk '{for(i=1;i<=NF;i++)print "kill -9 " $i;}' | sudo sh
1
2
3
4
5
6
7
8
9
10
11
12
13
2
3
4
5
6
7
8
9
10
11
12
13
# pytorch下tensorboard的使用(tensorflow训练时的可视化工具在pytorch上的使用)
# 多个GPU并行训练
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")#cuda:0代表起始的; #device_id为0,如果直接是cuda,同样默认是从0开始,可以根据实际需要修改起始位置,如cuda:1
if torch.cuda.device_count() > 1: #查看当前电脑的可用的gpu的数量,若gpu数量>1,就多gpu训练
model = torch.nn.DataParallel(model)#多gpu训练,自动选择gpu
model.to(device)
1
2
3
4
5
2
3
4
5
# 如何配置pycharm连接远程深度学习服务器
# Ubuntu新建用户
# 连接服务器的jupyter notebook
ssh -L 8887:localhost:8888 gjy@10.3.11.156 -p 22
1
浏览器浏览 http://localhost:8887/tree (opens new window)
# 新建项目时连接配置