如何使用 gpu 并行训练 tensorflow.keras 模型? TensorFlow 版本 2.5.0

     2023-03-11     188

关键词:

【中文标题】如何使用 gpu 并行训练 tensorflow.keras 模型? TensorFlow 版本 2.5.0【英文标题】:How to train tensorflow.keras models in parallel using gpu? Tensorflow version 2.5.0 【发布时间】:2021-09-24 09:04:17 【问题描述】:

我有以下代码运行我在不同模块中拥有的自定义模型,并将几个参数(学习率、卷积核大小等)作为输入

custom_model是在tensorflow中编译一个tensorflow.keras.models.Model并返回模型的函数。

LOW 是训练数据集

HIGH 是目标数据集

我通过 hdf5 文件加载了这两个文件,但数据集非常大,大约 10 GB。

通常我在 jupyter-lab 中运行它没有问题,并且模型不会消耗 GPU 上的资源。最后,我保存不同参数的权重。

现在我的问题是:

如何将其作为脚本并针对k1k2 的不同值并行运行。 我想像 bash 循环之类的东西会做,但我想避免重新读取数据集。 我正在使用 Windows 10 作为操作系统。

import tensorflow as tf
physical_devices = tf.config.list_physical_devices('GPU') 
for gpu_instance in physical_devices: 
    tf.config.experimental.set_memory_growth(gpu_instance, True)
import h5py

from model_custom import custom_model
winx = 100
winz = 10
k1 = 9
k2 = 5

with h5py.File('MYFILE', 'r') as hf:
    LOW = hf['LOW'][:]
    HIGH = hf['HIGH'][:]

with tf.device("/gpu:1"):
    mymodel = custom_model(winx,winz,lrate=0.001,usebias=True,kz1=k1, kz2=k2)
    myhistory = mymodel.fit(LOW, HIGH, batch_size=1, epochs=1)
    mymodel.save_weights('zkernel__kz1__kz2_.hdf5'.format(winz, k1,k2))

【问题讨论】:

【参考方案1】:

我发现这个解决方案对我来说很好用。这使得使用 MPI 和 mpi4py 在 gpus 中运行并行模型训练成为可能。当我尝试加载大文件并同时运行多个进程以使进程数乘以我加载的数据超过我的内存容量时,只有一个问题。

from mpi4py import MPI 
import tensorflow as tf
physical_devices = tf.config.list_physical_devices('GPU') 
for gpu_instance in physical_devices: 
    tf.config.experimental.set_memory_growth(gpu_instance, True)
import h5py
from model_custom import custom_model

comm = MPI.COMM_WORLD
rank = comm.Get_rank()
size = comm.Get_size()

winx = 100
winy = 100
winz = 10

if rank == 10:
    with h5py.File('mifile.hdf5', 'r') as hf:
        LOW = hf['LOW'][:]
        HIGH = hf['HIGH'][:]
else:
    HIGH = None
    LOW= None
HIGH = comm.bcast(HIGH, root=10)
LOW = comm.bcast(LOW, root=10)
    
if rank < 5:
    with tf.device("/gpu:1"):
        k = 9
        q = rank +1
        mymodel1 = custom_model(winx,winz,lrate=0.001,usebias=True,kz1=k, kz2=q)
        mymodel1._name = '__'.format(winz,k,q)
        myhistory1 = mymodel1.fit(LOW, HIGH, batch_size=1, epochs=1)
        mymodel1.save_weights(mymodel1.name +'winz__k__q_.hdf5'.format(winz, k,q))

elif 5 <= rank < 10: 
    with tf.device("/gpu:2"):
        k = 8
        q = rank +1 -5
        mymodel2 = custom_model(winx,winz,lrate=0.001,usebias=True,kz1=k, kz2=q)
        mymodel2._name = '__'.format(winz,k,q)
        myhistory2 = mymodel2.fit(LOW, HIGH, batch_size=1, epochs=1)
        mymodel2.save_weights(mymodel2.name +'winz__k__q_.hdf5'.format(winz, k,q))

然后我保存到名为 mycode.py 的 python 模块,然后在控制台中运行

mpiexec -n 11 python ./mycode.py

【讨论】:

Tensorflow 如何使用多个 GPU 进行单独训练?

】Tensorflow如何使用多个GPU进行单独训练?【英文标题】:HowtousemultipleGPUsforseparatetrainingwithTensorflow?【发布时间】:2021-04-2412:09:40【问题描述】:我浏览了许多关于在TensorFlow中使用多个GPU的文章和帖子。它在“如何使用并行GPU训... 查看详情

如何在 Tensorflow 2.0 + Keras 中进行并行 GPU 推理?

】如何在Tensorflow2.0+Keras中进行并行GPU推理?【英文标题】:HowtodoparallelGPUinferencinginTensorflow2.0+Keras?【发布时间】:2020-03-1523:49:56【问题描述】:让我们从我刚开始接触TensorFlow和一般深度学习的前提开始。我有使用tf.Model.train()、... 查看详情

Tensorflow:您如何在模型训练期间实时监控 GPU 性能?

】Tensorflow:您如何在模型训练期间实时监控GPU性能?【英文标题】:Tensorflow:HowdoyoumonitorGPUperformanceduringmodeltraininginreal-time?【发布时间】:2018-01-1414:58:03【问题描述】:我是Ubuntu和GPU的新手,最近在我们的实验室中使用了一台配... 查看详情

使用 TensorFlow 训练图像时使用 GPU 错误

】使用TensorFlow训练图像时使用GPU错误【英文标题】:UsingGPUerrorwhenuseTensorFlowtotrainimage【发布时间】:2019-04-2720:21:05【问题描述】:当我在容器tensorflow/tensorflow:latest-gpu中运行tensorflow图像训练作业时,它不起作用。错误信息:Canno... 查看详情

TensorFlow 2.0 在单 GPU 上训练模型

】TensorFlow2.0在单GPU上训练模型【英文标题】:Tensorflow2.0trainmodelonsingleGPU【发布时间】:2020-11-2706:19:03【问题描述】:我想在单个NVIDIA显卡(RTX2080super)上训练一个顺序tensorflow(版本2.3.0)模型。我正在使用以下代码sn-p来构建和... 查看详情

corr2018|horovod:fastandeasydistributeddeeplearningintensorflow(代码片段)

...GPU间通信,而且仅仅更改少量代码就可以实现多GPU训练。TensorFlow中提供了一些分布式训练的API,这些API适用于不同的环境。这就导致用户往往不知道如何更改代码以进行分布式训练,而且debug也很困难。再者,TensorFlow的分布式... 查看详情

在 Tensorflow 中训练期间的 GPU 使用率非常低

】在Tensorflow中训练期间的GPU使用率非常低【英文标题】:VerylowGPUusageduringtraininginTensorflow【发布时间】:2018-02-1904:01:09【问题描述】:我正在尝试为10类图像分类任务训练一个简单的多层感知器,这是Udacity深度学习课程作业的一... 查看详情

如何在我的 Docker 容器中开始使用 GPU 访问的 AWS Sagemaker 训练作业?

...发布时间】:2019-07-2722:59:57【问题描述】:我有一些使用tensorflow训练神经网络的python代码。我创建了一个基于tensorflow/tensorflow:latest-g 查看详情

如何让 TensorFlow 使用 100% 的 GPU?

】如何让TensorFlow使用100%的GPU?【英文标题】:HowtomakeTensorFlowuse100%ofGPU?【发布时间】:2020-02-2817:53:46【问题描述】:我有一台配备RTX2060GPU的笔记本电脑,我正在使用Keras和TF2在其上训练LSTM。我还在监控nvidia-smi的gpu使用情况,我... 查看详情

TensorFlow 在训练期间没有使用我的 M1 MacBook GPU

】TensorFlow在训练期间没有使用我的M1MacBookGPU【英文标题】:TensorFlowisnotusingmyM1MacBookGPUduringtraining【发布时间】:2021-07-2421:58:17【问题描述】:我已经安装了tensorflow-macos并且在训练时这是我的CPU使用率和GPU使用率。我可以让Tensorf... 查看详情

学习笔记tf040:多gpu并行

TensorFlow并行,模型并行,数据并行。模型并行根据不同模型设计不同并行方式,模型不同计算节点放在不同硬伯上资源运算。数据并行,比较通用简便实现大规模并行方式,同时使用多个硬件资源计算不同batch数据梯度,汇总梯... 查看详情

计算机视觉(十四):tensorflow分布式训练(代码片段)

...而大幅压缩模型训练的时间。针对不同的使用场景,TensorFlow在tf.distribute.Strategy中为我们提供了若干种分布式策略,使得我们能够更高效地训练模型。1TensorFlow分布式的分类图间并行(又称数据并行)每个机器上都... 查看详情

训练tensorflow模型的时候,gpu使用率总是出现突然的降低,波动很大,我想问问大神们原因是啥

...时间。参考技术A你的问题有点不清楚:“在命令行importtensorflow有个路径:c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\stream_executor......”?有点搞不清你怎么看到这个的。在pythoninterpreter&... 查看详情

keras-gpu的安装与配置

...的gpu加速库,可以集成到更高级别的机器学习框架中,如Tensorflow、caffe。tensorflow-gpu是tensorflow的gpu版本,但是它必须通过cuda和cudnn来调用电脑的gpu。使用以下方法可以一次性安装CUDA、cuDNN、tensorflow-gpu在gpu可用的情况下默认使用... 查看详情

如何使现有的 tensorflow 2.4 安装使用 GPU

】如何使现有的tensorflow2.4安装使用GPU【英文标题】:howtomakeexistingtensorflow2.4installationtouseGPU【发布时间】:2021-08-1119:19:29【问题描述】:我已经成功安装了python3.7.6、tensorflow2.4.1和keras2.4.0。代码也可以工作。我的电脑上有Nvidia显... 查看详情

如何确保 Keras 使用 GPU 和 tensorflow 后端?

】如何确保Keras使用GPU和tensorflow后端?【英文标题】:HowensurethatKerasisusingGPUwithtensorflowbackend?【发布时间】:2018-10-0200:17:01【问题描述】:我在Paperspace云基础架构上创建了虚拟笔记本,后端使用了TensorflowGPUP5000虚拟实例。当我开... 查看详情

TensorFlow RNN 训练 100% CPU,而仅使用 60% GPU

】TensorFlowRNN训练100%CPU,而仅使用60%GPU【英文标题】:TensorFlowRNNtraining100%CPUwhileonlyusing60%GPU【发布时间】:2017-08-0816:59:21【问题描述】:我正在编写用于训练相对较大的RNN(128单元LSTM和一些附加层)的代码。主要过程是最大化CPU... 查看详情

TensorFlow 不使用 GPU

】TensorFlow不使用GPU【英文标题】:TensorflownotutilizingGPU【发布时间】:2019-10-0919:28:38【问题描述】:我目前正在尝试训练一个聊天机器人,更具体地说是thisone。但是当我开始训练聊天机器人时,它会占用我100%的CPU和大约10%的GPU... 查看详情