求助tensorflow下遇到cudacomputecapability问题

author author     2023-03-23     194

关键词:

参考技术A

首先需要看你的PC配置是否够,TF的GPU模式只支持N卡,然后计算能力高于3.0,具体可以查:


安装教程可以参考:



Ubuntu16.04上gtx1080的cuda安装
July 17 2016
目前tensorflow是一个非常流行的深度学习计算框架,常规硬件及系统的安装方法官方的doc已经说的很清楚了,但是 因为系统是ubuntu16.04,显卡是GTX1080,所以不可避免的要折腾起来。在上一篇已经在16.04上安装好了驱动。接下来其实 重点安装的是CUDA和cuDNN.
首先说为什么要安装CUDA和cuDNN,关于采用GPU计算比CPU有速度有多少提升的benchmark找找就有,这次重点是怎么让tensorflow充分用的 上GTX1080能力。具体的就是如何把支持GTX1080的CUDA和cuDNN装起来,然后让tensorflow认识我们新装的CUDA和cuDNN。
首先总体说下安装步骤:
1 首先要注册NVIDIA developer的帐号,分别下载CUDA和cuDNN
2 确认准备gcc版本,安装依赖库sudo apt-get install freegl
3 安装CUDA
4 解压cuDNN
5 clone tensorflow源码,configure配置
6 编译安装
7 最后一哆嗦,测试!
准备工作
在正式开始前,需要做几个准备工作,主要是大概先看下文档
cuda FAQ
tensorflow 的安装文档
cuda-gpu的支持列表/计算能力/FAQ
cudnn 5.1有多牛
cuda tookit下载页面
CUDA_Installation_Guide_Linux.pdf
cudnn User Guide
文档看过之后接下来就是实际动手的过程:
1 注册NVIDIA developer的帐号,分别下载CUDA和cuDNN
1.1 下载CUDA 打开cuda toolkit下载页面,GTX1080 要用的是CUDA 8。先点击JOIN,注册帐号。 完了后,再回到cuda toolkit下载页面。选择 linux, x86-64, ubuntu, 16.04, runfile(local)
1.2 下载cuDNN 进入cudnn的下载页,一堆调查,日志写时下载的是[Download cuDNN v5 (May 27, 2016), for CUDA 8.0 RC],点开选linux,不出意外的话这个就是下载地址.
2 确认GCC版本,安装依赖库
确认本机gcc版本,16.04默认的是gcc 5,这里安装需要的最高是gcc 4.9。接下来就安装配置gcc 4.9.
2.1 安装gcc 4.9,并修改系统默认为4.9
sudo apt-get install gcc-4.9 gcc-4.9 g++-4.9 g++-4.9
gcc --version
sudo update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-4.9 10
sudo update-alternatives --install /usr/bin/cc cc /usr/bin/gcc 30
sudo update-alternatives --set cc /usr/bin/gcc
sudo update-alternatives --install /usr/bin/c++ c++ /usr/bin/g++ 30
sudo update-alternatives --set c++ /usr/bin/g++
gcc --version


2.2 一个小依赖
sudo apt-get install freegl


3 安装CUDA
需要注意的是这个地方有个选择安装低版本驱动的地方,选n 大致的安装流程如下:
3.1 安装CUDA
chmod  +x /cuda_8.0.27_linux.run
./cuda_8.0.27_linux.run

....

Do you accept the previously read EULA?
accept/decline/quit: accept

Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 361.62?
(y)es/(n)o/(q)uit: n

Install the CUDA 8.0 Toolkit?
(y)es/(n)o/(q)uit: y

Enter Toolkit Location
[ default is /usr/local/cuda-8.0 ]:

Do you want to install a symbolic link at /usr/local/cuda?
(y)es/(n)o/(q)uit: y

Install the CUDA 8.0 Samples?
(y)es/(n)o/(q)uit: y

Enter CUDA Samples Location
[ default is /home/h ]: /home/h/Documents/cuda_samples

....



3.2 写入环境变量
vim ~/.bashrc
#添加下面变量
export PATH=/usr/local/cuda-8.0/bin$PATH:+:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64$LD_LIBRARY_PATH:+:$LD_LIBRARY_PATH


3.3 安装好后简单验证
a. 进入刚配置时指定的cuda sample所在文件夹,NVIDIA_CUDA-8.0_Samples/
b. cd 0_Simple/asyncAPI;sudo make
c. NVIDIA_CUDA-8.0_Samples/0_Simple/asyncAPI$ ./asyncAPI [./asyncAPI] - Starting… GPU Device 0: “GeForce GTX 1080” with compute capability 6.1 CUDA device [GeForce GTX 1080] time spent executing by the GPU: 10.94 time spent by CPU in CUDA calls: 0.19 CPU executed 50591 iterations while waiting for GPU to finish
4 安装cuDNN
h@h:~/Downloads$ tar xvzf cudnn-8.0-linux-x64-v5.0-ga.tgz
cuda/include/cudnn.h
cuda/lib64/libcudnn.so
cuda/lib64/libcudnn.so.5
cuda/lib64/libcudnn.so.5.0.5
cuda/lib64/libcudnn_static.a

h@h:~/Downloads$ sudo cp -R cuda/lib64 /usr/local/cuda/lib64
h@h:~/Downloads$ sudo mkdir -p /usr/local/cuda/include
h@h:~/Downloads/cuda$ sudo cp include/cudnn.h /usr/local/cuda/include/
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*



5 clone, configure tensorflow
5.1 clone源码
$ git clone


5.2 configure配置
整个配置流程应该跟下面的基本一样的
h@h:~/Downloads/tensorflow$ cd ./tensorflow/
h@h:~/Downloads/tensorflow$ ./configure
Please specify the location of python. [Default is /usr/bin/python]:
***Do you wish to build TensorFlow with Google Cloud Platform support? [y/N] N***
No Google Cloud Platform support will be enabled for TensorFlow
***Do you wish to build TensorFlow with GPU support? [y/N] y***
GPU support will be enabled for TensorFlow
Please specify which gcc nvcc should use as the host compiler. [Default is /usr/bin/gcc]:
**Please specify the location where CUDA  toolkit is installed. Refer to README.md for more details. [Default is /usr/local/cuda]: /usr/local/cuda-8.0 **

**Please specify the Cudnn version you want to use. [Leave empty to use system default]: 5.0.5**
**Please specify the location where cuDNN 5.0.5 library is installed. Refer to README.md for more details. [Default is /usr/local/cuda-8.0]: /usr/local/cuda**
Please specify a list of comma-separated Cuda compute capabilities you want to build with.
You can find the compute capability of your device at:
**Please note that each additional compute capability significantly increases your build time and binary size.
[Default is: "3.5,5.2"]: 6.1**
Setting up Cuda include
Setting up Cuda lib64
Setting up Cuda bin
Setting up Cuda nvvm
Setting up CUPTI include
Setting up CUPTI lib64
Configuration finished


6 编译安装
6.1 编译工具Bazel安装配置 
先看一眼文档 然后就执行下面的流程:
#安装java 1.8
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer

#安装好后车参考下
java -version

#添加源
echo "deb [arch=amd64] stable jdk1.8" | sudo tee /etc/apt/sources.list.d/bazel.list
curl | sudo apt-key add -

#下载
sudo apt-get update && sudo apt-get install bazel

#升级
sudo apt-get upgrade bazel


6.2 编译tensorflow的pip版本并安装
$ bazel build -c opt //tensorflow/tools/pip_package:build_pip_package

# To build with GPU support:
$ bazel build -c opt --config=cuda //tensorflow/tools/pip_package:build_pip_package

$ bazel-bin/tensorflow/tools/pip_package/build_pip_package /tmp/tensorflow_pkg

# The name of the .whl file will depend on your platform.
#注意编译完成后生成的文件名字和官方doc里面的是不一定一致的

$ sudo pip install /tmp/tensorflow_pkg/tensorflow-0.*-linux_x86_64.whl


i6700k 32g编译时间:

只编译代码不带pip INFO: Elapsed time: 967.271s, Critical Path: 538.38s

bazel-bin/tensorflow/tools/pip_package/build_pip_package INFO: Elapsed time: 65.183s, Critical Path: 48.58
7 最后测试
前面都整完了,现在该测试了,注意前面有两个动态链接库的位置,cuDNN在/usr/local/cuda/lib64, 而cuda在/usr/local/cuda-8.0/lib64,所以这个时候的bashrc应该这么写:
export PATH=/usr/local/cuda-8.0/bin$PATH:+:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:/usr/local/cuda-8.0/lib64$LD_LIBRARY_PATH:+:$LD_LIBRARY_PATH



写完后,
source ~/.bashrc
cd tensorflow/tensorflow/models/image/mnist
python convolutional.py


成功的话会出现流畅的跑动:
h@h:~/Downloads/tensorflow/tensorflow/models/image/mnist$ python convolutional.py
I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcublas.so locally
I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcudnn.so.5.0.5 locally
I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcufft.so locally
I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcuda.so.1 locally
I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcurand.so locally
Extracting data/train-images-idx3-ubyte.gz
Extracting data/train-labels-idx1-ubyte.gz
Extracting data/t10k-images-idx3-ubyte.gz
Extracting data/t10k-labels-idx1-ubyte.gz
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:925] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
I tensorflow/core/common_runtime/gpu/gpu_init.cc:102] Found device 0 with properties:
name: GeForce GTX 1080
major: 6 minor: 1 memoryClockRate (GHz) 1.8475
pciBusID 0000:01:00.0
Total memory: 7.92GiB
Free memory: 7.41GiB
I tensorflow/core/common_runtime/gpu/gpu_init.cc:126] DMA: 0
I tensorflow/core/common_runtime/gpu/gpu_init.cc:136] 0:   Y
I tensorflow/core/common_runtime/gpu/gpu_device.cc:838] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 1080, pci bus id: 0000:01:00.0)
Initialized!
Step 0 (epoch 0.00), 8.4 ms
Minibatch loss: 12.054, learning rate: 0.010000
Minibatch error: 90.6%
Validation error: 84.6%

......

Minibatch error: 0.0%
Validation error: 0.7%
Step 8500 (epoch 9.89), 4.7 ms
Minibatch loss: 1.601, learning rate: 0.006302
Minibatch error: 0.0%
Validation error: 0.9%
Test error: 0.8%

mac安装最新tensorflow遇到的坑,记录下方便后人

之前其他mac电脑安装tensorflow时候一切顺利,一行命令sudopipinstalltensorflow就高搞定了,但是今天在新mac上安装tensorflow时候出现了一个bug,搞了半天终于搞完了。。。网上还没啥相关解决措施,蛋碎一地,也没有相关用户po这问题... 查看详情

使用tensorflow及anaconda(spyder)时遇到的问题(代码片段)

(1)问题一:如何在tensorflow环境下使用spyder答:在anacondanavigator中environment中搜索tensorflow,安装适合tensorflow的spyder(2)问题二:在在tensorflow环境下使用spyder时有些库文件(比如matplotlib)显示nomodule,如何解决答:anaconda下已经... 查看详情

求助tensorflow怎样恢复预训练的模型啊

我现在只有这三个文件,缺少checkpoint文件,该怎样获取预训练的权重参数啊,求助啊参考技术Acheckpoint文件不是必须的,saver=tf.train.Saver()withtf.Session()assess:saver.restore(sess,tf.train.latest_checkpoint(参数存放路径)) 查看详情

tensorflow安装遇到一些小问题

window7下直接安装完python3.6版本,然后pipinstalltensorflow后导入包出错。Nomodulenamed‘_pywrap_tensorflow_internal默认安装的是tensorflow1.7版本,安装1.2版本解决问题。tensorflow1.2.1下载:https://pypi.python.org/packages/e1/18/23a447f822daba 查看详情

求助,在windows下安装hadoop遇到的一个问题

参考技术A  转载Hdoop的荐部署环境是linux,但是我们想要在windows体验一下还是可以的,尤其是对我这样不是经常使用Linux系统的人。Windows下安装配置Hadoop的教程还是挺多的,这里可以下载。  下面我说说安装配置过程中遇到... 查看详情

tensorflow可视化tensorboard遇到的问题

...问题解决方法:tensorboard启动路径问题,该问题很重要。tensorflow运行后的events文件的路径需要在python启动的时的路径下。 最终我的路径都是C:\Users\Josie\AppData\Local\Programs\P 查看详情

win10系统下安装tensorflow(cpu)+keras+jupyternotebook运行环境(代码片段)

...自用1、安装Anaconda(这里安装的是python3.6版本)2、创建tensorflow的conda环境 1condacreate-ntensorflowpython=3.6 3、切换到上一步创建的名为“tensorflow”的python解释器环境 1activatetensorflow 4、分别安装tensorflow和keras版本... 查看详情

大神在啊。tensorflow遇到的问题

ERROR:tensorflow:ExceptioninQueueRunner:Inputtoreshapeisatensorwith3600values,buttherequestedshapehas10800Inputtoreshapeisatensorwith3600values说的是你计算的张量最多3600个值buttherequestedshapehas10800但是你问题的要求是10800个值这个问题一般出现在cpu读取的时候数... 查看详情

求助django+vue项目时候遇到一个问题,table的data数据怎么更新

  初学Django的框架,本来准备练习增、删、查、改,到查这一步就遇到这个问题了,希望有人可以帮忙解决下,问题如下:我再html页面中有个table <i-Tableborderheight="400":columns="columns1":data="data1"></i-Table>  js如下:m... 查看详情

求助:tensorflow_gpu一直卡在这个地方pcibusid:0000:01:00.0,computecapability:6.1

TensorFlowdevice(/job:localhost/replica:0/task:0/device:GPU:0with3019MBmemory)->physicalGPU(device:0,name:GeForceGTX1050Ti,pcibusid:0000:01:00.0,computecapability:6.1)参考技术Apythonmodel_main.py换成python./legacy/train.py 参考技术B请问这个问题解决了吗刚刚也碰到这个问... 查看详情

求助,ise综合遇到问题

参考技术A(1)编dcm时钟控制测试程序时,设置好了ip,例化输出,综合时出现错误ERROR:Xst:2035-Porthasillegalconnections.Thisportisconnectedtoaninputbufferandothercomponents.查到的解决方法是禁掉自动I/OBufferinsertion功能 查看详情

linux下重启oracle服务问题!求助

在linux服务器下重启oracle服务,su-oraclesqlplus/nologconnect/assysdba进入sqlplus后,用shutdownimmediate重启,报ORA-01034:ORACLEnotavailableORA-27101:sharedmemoryrealmdoesnotexistLinuxError:2:Nosuchfileordirectory谁遇到过的码放帮忙解答下吧!谢谢检查下环境变量... 查看详情

求助mysql无法启动的问题,不知有没有人遇到过

1、右击我的电脑,选择管理选项,展开服务和应用程序,选择服务选项。然后在右侧找到MySQL服务。2、右击MySQL,选择属性,在MySQL的属性框上,选择登陆选项,再选择登陆身份,选第二项,此账户登陆,更改你的密码。3、更改... 查看详情

使用 pip 安装 TensorFlow 时遇到问题

】使用pip安装TensorFlow时遇到问题【英文标题】:TroubleinstallingTensorflowwithpip【发布时间】:2022-01-0517:37:19【问题描述】:我正在尝试通过在powershell中使用pip来安装tensorflow。我在Windows10上,没有使用虚拟环境。(我对格式的要求... 查看详情

求助帖,ue4想使用蓝图实现开关灯效果遇到困难

参考技术A只是看过了Youtube上的教程,实现了一次添加了灯具和灯光之后,再加个box,选中这个box,在蓝图中右键,添加OnComponentBeginOverlap然后添加灯光的引用,拖出ToggleVisibility然后链接触发,编译 查看详情

源码编译tensorflow遇到的问题

1,bazel编译时间过长,且最终显示不完全成功问题原因,g++版本过新把自己7.5版本的改为4.8.5版本。参考链接:https://blog.csdn.net/sinat_35496345/article/details/80478622 查看详情

求助,使用uidocumentinteractioncontroller遇到的问题

我正在尝试在整个ipad界面上呈现PDF页面,使用了图层的方法。但是网上获取的相关代码在我的应用中并不管用。我需要显示出整个PDF页面,所以我选择UIDocumentInteractionController类。下面是我的代码:-(void)previewDocumentNSString*path=[[NS... 查看详情

使用tensorflow我遇到了这样的错误

Installingcollectedpackages:numpy,scipy,six,pyyaml,Keras,opencv-python,h5py,html5lib,bleach,futures,wheel,werkzeug,markdown,protobuf,tensorflow-tensorboard,pbr,funcsigs,mock,backports.weakref,tensorfl 查看详情