linuxubuntu20.04深度学习gpu环境配置(cudatoolkit11.7+cudnnv8.4.1)(代码片段)

XavierJiezou XavierJiezou     2022-10-22     535

关键词:

文章目录


引言

本文以 Ubuntu 20.04 操作系统为例,演示如何配置深度学习 GPU 环境。方便起见,我们这里可以直接跳过 NVIDIA 显卡驱动的安装,因为安装 CUDA 的时候会自动安装。

准备

开始安装之前,需要修改 apt-get 的镜像源,不然国内下载速度很慢。我们这里以阿里源为例演示如何修改。

  1. 备份官方源
sudo mv /etc/apt/sources.list /etc/apt/sources.list.bak
  1. 运行 sudo vi /etc/apt/sources.list 打开文件,并按 i 插入以下内容,按 ESC 后再按 :wq 保存退出
deb http://mirrors.aliyun.com/ubuntu/ focal main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal main restricted universe multiverse

deb http://mirrors.aliyun.com/ubuntu/ focal-security main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal-security main restricted universe multiverse

deb http://mirrors.aliyun.com/ubuntu/ focal-updates main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal-updates main restricted universe multiverse

# deb http://mirrors.aliyun.com/ubuntu/ focal-proposed main restricted universe multiverse
# deb-src http://mirrors.aliyun.com/ubuntu/ focal-proposed main restricted universe multiverse

deb http://mirrors.aliyun.com/ubuntu/ focal-backports main restricted universe multiverse
deb-src http://mirrors.aliyun.com/ubuntu/ focal-backports main restricted universe multiverse
  1. 更新数据源列表
sudo apt-get update

安装

CUDA Toolkit 11.7

安装参考 NVIDIA 官网提供的教程

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda-repo-ubuntu2004-11-7-local_11.7.0-515.43.04-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-11-7-local_11.7.0-515.43.04-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2004-11-7-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda
sudo reboot # 非必需

执行完上述安装操作后,需要配置环境变量,让该系统下的所有用户都能使用:

  1. 打开全局配置文件
sudo vi /etc/profile
  1. 在文件末尾添加如下内容后保存退出。
export PATH=/usr/local/cuda-11.7/bin$PATH:+:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.7/lib64\\S$LD_LIBRARY_PATH:+:$LD_LIBRARY_PATH
  1. 激活环境变量
source /etc/profile
  1. 运行 nvcc -V 来校验安装是否成功,若正确显示版本号则说明安装成功
$ nvcc -V
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2022 NVIDIA Corporation
Built on Tue_May__3_18:49:52_PDT_2022
Cuda compilation tools, release 11.7, V11.7.64
Build cuda_11.7.r11.7/compiler.31294372_0

cuDNN v8.4.1

安装参考 NVIDIA 官方提供的教程

  1. 官网下载合适版本的离线安装包


2. 开始安装

sudo dpkg -i cudnn-local-repo-ubuntu2004-8.4.1.50_1.0-1_amd64.deb
sudo cp /var/cudnn-local-repo-ubuntu2004-8.4.1.50/cudnn-local-E3EC4A60-keyring.gpg /usr/share/keyrings/
cd /var/cudnn-local-repo-ubuntu2004-8.4.1.50/
sudo dpkg -i libcudnn8_8.4.1.50-1+cuda11.6_amd64.deb
sudo dpkg -i libcudnn8-dev_8.4.1.50-1+cuda11.6_amd64.deb
sudo dpkg -i libcudnn8-samples_8.4.1.50-1+cuda11.6_amd64.deb
  1. 校验安装是否成功(最终输出 Test passed! 则说明安装成功)
cp -r /usr/src/cudnn_samples_v8/ $HOME
cd  $HOME/cudnn_samples_v8/mnistCUDNN
make clean && make
./mnistCUDNN

校验安装时如果遇到下述错误:

```bash
test.c:1:10: fatal error: FreeImage.h: No such file or directory
    1 | #include "FreeImage.h"
      |          ^~~~~~~~~~~~~
compilation terminated.
>>> WARNING - FreeImage is not set up correctly. Please ensure FreeImage is set up correctly. <<<

可通过如下方式解决,然后重新进行校验

sudo apt-get -y install  libfreeimage3 libfreeimage-dev

Miniconda

安装时请选择位置为 /opt/miniconda,因为我们是要所有的用户都能使用。

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py39_4.9.2-Linux-x86_64.sh
sudo bash Miniconda3-py39_4.9.2-Linux-x86_64.sh

最后,别忘了配置环境变量。首先打开全局配置文件:

sudo vi /etc/profile

文件末尾写入以下内容后保存退出:

export PATH="/opt/miniconda3/bin:$PATH"

PyTorch

PyTorch 是目前比较主流的深度学习框架之一,深受学术界的青睐。

直接通过如下命令安装即可:

conda create -n pytorch
conda activate pytorch
pip install torch torchvision torchaudio

检验安装是否成功,以及 CUDA 加速是否可用:

python -c "import torch;print(torch.cuda.is_available())"

输出为 True 表述 CUDA 加速可用,False 表述 CUDA 加速不可用。

TensorFlow

TensorFlow 是谷歌提出的一个非常热门的深度学习框架。因其1、2版本并不兼容,因此我们需要分别创建一个环境来安装。

2.x 版本的安装:

conda create -n tf2
conda activate tf2
pip install tensorflow

检验 CUDA 加速是否可用:

python -c "import tensorflow as tf;print(tf.config.list_physical_devices('GPU'))"

能正确输出各显卡的索引就表示安装成功了。

[PhysicalDevice(name='/physical_device:GPU:0', device_type='GPU'), PhysicalDevice(name='/physical_device:GPU:1', device_type='GPU'), PhysicalDevice(name='/physical_device:GPU:2', device_type='GPU'), PhysicalDevice(name='/physical_device:GPU:3', device_type='GPU'), PhysicalDevice(name='/physical_device:GPU:4', device_type='GPU'), PhysicalDevice(name='/physical_device:GPU:5', device_type='GPU'), PhysicalDevice(name='/physical_device:GPU:6', device_type='GPU'), PhysicalDevice(name='/physical_device:GPU:7', device_type='GPU')]

1.x 版本的安装:

conda create -n tf1.15 python=3.7
conda activate tf1.15
conda install cudatoolkit=10.0
conda install cudnn=7.6
pip install tensorflow-gpu==1.15
pip uninstall protobuf
pip install protobuf==3.20.1

检验 CUDA 加速是否可用:

python -c "import tensorflow as tf;print(tf.test.is_gpu_available())"

输出为 True 表示可用,False 表示不可用。

GPUstat

这是一个可以替换 nvidia-smi 查看显卡信息的一个工具。可以非常清楚地看到各个显卡的温度、利用率、正在使用的用户以及各用户占用的显存等。

使用如下命令安装:

sudo apt install python3-pip
sudo pip install gpustat

用法非常简单,记住下面这一条命令就行:

gpustat -i

NetSM

这是一个跨平台的命令行网速监测工具,可以看到服务器实时网速显示。

通过如下命令安装:

sudo apt install python3-pip
sudo pip install netsm

用法非常简单,记住下面这一条命令就行:

netsm show

Tmux

跑耗时较长的任务时,可以打开 tmux 将任务挂起,即使你关闭了窗口,任务仍然在后台运行。

sudo apt-get install tmux

Axel

区别于 wget 单线程下载的多线程下载工具。用法很简单,通过 -n 参数指定线程数即可,例如:axel -n 10 下载链接

sudo apt-get install axel

提示

上述配置了三个深度学习 GPU 环境,分别是 PyTorch,TensorFlow 2 和 TensorFlow 1。且都是通过管理员来配置的。其他普通用户使用时,仅需使用 conda 在新建环境时克隆即可,下面给一个例子。

例如,普通用户要使用 PyTorch 环境,但他同时还需要安装 requests 包,直接在名为 pytorch 的环境里面是没有办法安装,因为缺少写入权限。因此可以通过如下克隆的方式安装:

conda create -n pytorch2 --clone pytorch
conda activate pytorch2
pip install requests

这样既节省了服务器的存储空间,又避免了重复安装环境的烦恼。


更新:突然发现不用克隆了,直接激活使用即可:

conda activate pytorch
pip install requests

因为默认会安装 requests 到用户家目录下,不会和其他用户的环境产生冲突。

参考

简易记录:安装GPU驱动,CUDA和cuDNN
使用ubuntu 20.04 进行机器学习配置环境 必须做的事情
【Linux】在Ubuntu上安装和使用miniconda
Administering a multi-user conda installation
Start Locally | PyTorch
Anaconda 镜像使用帮助
使用 pip 安装 TensorFlow

ubuntu20.04极简配置一个深度学习环境(代码片段)

目录ubuntu的内核配置系统更新查看所有内核删除冗余的内核锁定ubuntu的内核解锁ubuntu的内核安装cuda11.3和cudnn8.2.1安装CUDA11.3安装cudnn8.2.1安装OpenCV4.6.0支持cuda加速安装相关依赖编译安装测试卸载安装pytorch1.11ubuntu的内核配置避免安... 查看详情

小白入门深度学习|第一篇:配置深度学习环境

文章目录一、配置Python3环境二、安装CPU版本的tf2环境三、安装jupyternotebook四、安装GPU版本tf2环境1.找到显卡对应的CUDA2.下载相应的CUDA3.下载相应的cudnn4.添加环境变量5.安装tensorflow-gpu一、配置Python3环境这里推荐去Python官网下载安... 查看详情

ubuntu20.04下jupyternotebook配置

...jupyternotebook3、修改Jupyternotebook默认目录路径,参考Python:linuxUbuntu16.04下Jupyternotebook改变默认目录路径 查看详情

python深度学习环境安装(tensorflow-gpu)(代码片段)

...3.完成创建总结一、安装Anaconda本文主要通过Anaconda来配置深度学习环境。可以通过Anaconda官网下载附链接& 查看详情

linuxubuntu20.04使用apt安装tomcat9(代码片段)

Ubuntu20.04使用apt安装tomcat9前言系统环境:ubuntu20.04java版本:openjdkversion“11.0.11”2021-04-20开发环境:IDEA1、apt安装#更新源sudoaptupdate#在apt中搜索tomcatsudoaptsearchtomcat#安装tomcat9和tomcat9-adminsudoap 查看详情

小白入门深度学习|第一篇:配置深度学习环境(代码片段)

文章目录一、配置Python3环境二、安装CPU版本的tf2环境三、安装jupyternotebook四、安装GPU版本tf2环境1.找到显卡对应的CUDA2.下载相应的CUDA3.下载相应的cudnn4.添加环境变量5.安装tensorflow-gpu一、配置Python3环境这里推荐去Python官网下载安... 查看详情

深度学习环境配置9——ubuntu下的tensorflow-gpu==2.4.0环境配置(代码片段)

深度学习环境配置9——Ubuntu下的tensorflow-gpu==2.4.0环境配置注意事项一、2022/09/04更新学习前言各个版本tensorflow2的配置教程环境内容环境配置一、Anaconda安装1、Anaconda的下载2、Anaconda的安装二、Cudnn和CUDA的下载和安装1、Cudnn... 查看详情

windows10配置tensorflow深度学习环境(gpu版)各种坑(代码片段)

我们配置一个tensorflow-gpu版的深度学习环境windows1064python3.5vs2017(需要C++部分)cuda9.0cudnn7.1GeForceGTX10601.安装python我们选择python3.5,直接从官网下载windows10版本的安装就行,可以选择默认安装路径,并添加环境变量。测试打卡cmd,输... 查看详情

ubuntu20.04极简配置一个深度学习环境(代码片段)

目录ubuntu的内核配置系统更新查看所有内核删除冗余的内核锁定ubuntu的内核解锁ubuntu的内核安装cuda11.3和cudnn8.2.1安装CUDA11.3安装cudnn8.2.1安装OpenCV4.6.0支持cuda加速安装相关依赖编译安装测试卸载安装pytorch1.11ubuntu的内核配置避免安... 查看详情

使用amazonaws搭建gpu版tensorflow深度学习环境(代码片段)

原文链接:http://ramhiser.com/2016/01/05/installing-tensorflow-on-an-aws-ec2-instance-with-gpu-support/原文作者在第一段就说啦,如果想省事的话,直接用他的AMI就好啦~使用AWS的好处是便宜,使用竞价性的价格每小时只要几毛钱࿰... 查看详情

[人工智能-深度学习-38]:环境搭建-训练主机硬件选择全指南(cpu/gpu/内存/硬盘/电源)

...式机还是笔记本1.2简单汇总第2章台式机的GPU选择2.1GPU是深度学习训练的必然选择&# 查看详情

ubuntu22.04深度学习gpu环境配置:nvidiacuda11.7cudnn8.5详细解读(20220910)

...装了最新版本的Ubuntu22.04LTS操作系统,并已经配备了支持深度学习的英伟达GPU,本文将手把手详细解读如何配置环境,包括安装必要的软件:例如驱动515,CUDA11.7,以及cuDNN8.5等。一、显卡驱动最先要做的就是安装显卡驱动。这一... 查看详情

ubuntu22.04深度学习gpu环境配置:nvidiacuda11.7cudnn8.5详细解读(20220910)

...装了最新版本的Ubuntu22.04LTS操作系统,并已经配备了支持深度学习的英伟达GPU,本文将手把手详细解读如何配置环境,包括安装必要的软件:例如驱动515,CUDA11.7,以及cuDNN8.5等。一、显卡驱动最先要做的就是安装显卡驱动。这一... 查看详情

ubuntu22.04深度学习gpu环境配置:nvidiacuda11.7cudnn8.5详细解读(20220910)

...装了最新版本的Ubuntu22.04LTS操作系统,并已经配备了支持深度学习的英伟达GPU,本文将手把手详细解读如何配置环境,包括安装必要的软件:例如驱动515,CUDA11.7,以及cuDNN8.5等。一、显卡驱动最先要做的就是安装显卡驱动。这一... 查看详情

[人工智能-深度学习-42]:开发环境-windows如何查看gpu的使用情况

作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客本文网址:https://blog.csdn.net/HiWangWenBing/article/details/121275804目录第1章命令行显示1.1概述与准备1.2查看命令帮助信息1.3 周期... 查看详情

通晓的回答下哪家gpu服务器更适合深度学习领域?

参考技术A上海风虎信息作为深度学习服务器的专业厂商,专注于为科研院所和高校师生打造高性能GPU服务器,建议您选择深度学习服务器时需要注意以下几点:1.深度学习需要大量的并行计算资源,而且动辄计算几天甚至数周,... 查看详情

[人工智能-深度学习-41]:开发环境-gpu进行训练安装与搭建(pytrochtensorflownvidiacuda)详细过程(代码片段)

作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:https://blog.csdn.net/HiWangWenBing/article/details/121241620目录第1章英伟达Nvidia CUDA编程框架简介1.1概述1.2不同模块的版... 查看详情

深度学习笔记1:“安装cudapytorch调试gpu环境“方法以及常见误区(代码片段)

序因为我的电脑是在18年买的,比较旧(GTX1050),安装的Python版本又很新(3.8.8),接下来面临的主要问题就是版本兼容问题。对于安装方法,网上总结的很全了,这里总结一下重要的安装要点&... 查看详情