正文

在 PyTorch 中使用 DataLoaders 进行 k 折交叉验证

 2023-03-12  213

关键词：

【中文标题】在 PyTorch 中使用 DataLoaders 进行 k 折交叉验证【英文标题】：k-fold cross validation using DataLoaders in PyTorch 【发布时间】：2020-07-08 01:20:57 【问题描述】：

我已将我的训练数据集拆分为 80% 的训练数据和 20% 的验证数据，并创建了如下所示的 DataLoaders。但是我不想限制我的模型的训练。所以我想把我的数据分成 K（也许 5）个折叠并执行交叉验证。但是，我不知道如何在拆分数据集后将它们组合到我的数据加载器中。

train_size = int(0.8 * len(full_dataset))
validation_size = len(full_dataset) - train_size
train_dataset, validation_dataset = random_split(full_dataset, [train_size, validation_size])

full_loader = DataLoader(full_dataset, batch_size=4,sampler = sampler_(full_dataset), pin_memory=True) 
train_loader = DataLoader(train_dataset, batch_size=4, sampler = sampler_(train_dataset))
val_loader = DataLoader(validation_dataset, batch_size=1, sampler = sampler_(validation_dataset))

提前谢谢你！

【问题讨论】：

看看torch.utils.data.ConcatDataset 【参考方案1】：

您可以通过使用 sklearn 和 dataloader 中的 KFOLD 来实现这一点。

import torch
from torch._six import int_classes as _int_classes
from torch import Tensor

from typing import Iterator, Optional, Sequence, List, TypeVar, Generic, Sized

T_co = TypeVar('T_co', covariant=True)

class Sampler(Generic[T_co]):
    r"""Base class for all Samplers.

    Every Sampler subclass has to provide an :meth:`__iter__` method, providing a
    way to iterate over indices of dataset elements, and a :meth:`__len__` method
    that returns the length of the returned iterators.

    .. note:: The :meth:`__len__` method isn't strictly required by
              :class:`~torch.utils.data.DataLoader`, but is expected in any
              calculation involving the length of a :class:`~torch.utils.data.DataLoader`.
    """

    def __init__(self, data_source: Optional[Sized]) -> None:
        pass

    def __iter__(self) -> Iterator[T_co]:
        raise NotImplementedError
        
class SubsetRandomSampler(Sampler[int]):
    r"""Samples elements randomly from a given list of indices, without replacement.

    Args:
        indices (sequence): a sequence of indices
        generator (Generator): Generator used in sampling.
    """
    indices: Sequence[int]

    def __init__(self, indices: Sequence[int], generator=None) -> None:
        self.indices = indices
        self.generator = generator

    def __iter__(self):
        return (self.indices[i] for i in torch.randperm(len(self.indices), generator=self.generator))

    def __len__(self):
        return len(self.indices) 


train_dataset = CustomDataset(data_dir=train_path, mode='train') )
val_dataset = CustomDataset(data_dir=train_path, mode='val') )

    fold = KFold(5, shuffle=True, random_state=random_seed)
    for fold,(tr_idx, val_idx) in enumerate(fold.split(dataset)):
        # initialize the model
        model = smp.FPN(encoder_name='efficientnet-b4', classes=12 , encoder_weights=None, activation='softmax2d')
    
 
     
        loss = BCEDiceLoss()
        optimizer = torch.optim.AdamW([
            'params': model.decoder.parameters(), 'lr': 1e-07/2, 
            'params': model.encoder.parameters(), 'lr': 5e-07,  
        ])
        scheduler = ReduceLROnPlateau(optimizer, factor=0.15, patience=2)
    
  
    
        print('#'*35); print('############ FOLD ',fold+1,' #############'); print('#'*35);
        train_loader = torch.utils.data.DataLoader(dataset=train_dataset, 
                                               batch_size=batch_size,
                                               num_workers=1,
                                               sampler = SubsetRandomSampler(tr_idx)
                                            )
        val_loader = torch.utils.data.DataLoader(dataset=val_dataset, 
                                               batch_size=batch_size,
                                               num_workers=1,
                                               sampler = SubsetRandomSampler(val_idx)
                                            )

所以当你编写DataLoader部分时，使用subsetRandomSampler，这样，dataloader中的采样器总是会随机采样kfold函数生成的train/valid索引。

【讨论】：

【参考方案2】：

我刚刚编写了一个使用数据加载器和数据集的交叉验证函数。这是我的代码，希望对您有所帮助。

# define a cross validation function
def crossvalid(model=None,criterion=None,optimizer=None,dataset=None,k_fold=5):
    
    train_score = pd.Series()
    val_score = pd.Series()
    
    total_size = len(dataset)
    fraction = 1/k_fold
    seg = int(total_size * fraction)
    # tr:train,val:valid; r:right,l:left;  eg: trrr: right index of right side train subset 
    # index: [trll,trlr],[vall,valr],[trrl,trrr]
    for i in range(k_fold):
        trll = 0
        trlr = i * seg
        vall = trlr
        valr = i * seg + seg
        trrl = valr
        trrr = total_size
        # msg
#         print("train indices: [%d,%d),[%d,%d), test indices: [%d,%d)" 
#               % (trll,trlr,trrl,trrr,vall,valr))
        
        train_left_indices = list(range(trll,trlr))
        train_right_indices = list(range(trrl,trrr))
        
        train_indices = train_left_indices + train_right_indices
        val_indices = list(range(vall,valr))
        
        train_set = torch.utils.data.dataset.Subset(dataset,train_indices)
        val_set = torch.utils.data.dataset.Subset(dataset,val_indices)
        
#         print(len(train_set),len(val_set))
#         print()
        
        train_loader = torch.utils.data.DataLoader(train_set, batch_size=50,
                                          shuffle=True, num_workers=4)
        val_loader = torch.utils.data.DataLoader(val_set, batch_size=50,
                                          shuffle=True, num_workers=4)
        train_acc = train(res_model,criterion,optimizer,train_loader,epoch=1)
        train_score.at[i] = train_acc
        val_acc = valid(res_model,criterion,optimizer,val_loader)
        val_score.at[i] = val_acc
    
    return train_score,val_score
        

train_score,val_score = crossvalid(res_model,criterion,optimizer,dataset=tiny_dataset)

为了直观地了解我们所做的事情的正确性，请参见下面的输出：

train indices: [0,0),[3600,18000), test indices: [0,3600)
14400 3600

train indices: [0,3600),[7200,18000), test indices: [3600,7200)
14400 3600

train indices: [0,7200),[10800,18000), test indices: [7200,10800)
14400 3600

train indices: [0,10800),[14400,18000), test indices: [10800,14400)
14400 3600

train indices: [0,14400),[18000,18000), test indices: [14400,18000)
14400 3600

【讨论】：

很好的例子，谢谢你。我认为将数据集拆分和训练分开会很棒。例如：metrics = k_fold(full_dataset, train_fn, **other_options)，其中k_fold 函数将负责数据集拆分并将train_loader 和val_loader 传递给train_fn 并将其输出收集到指标中。 train_fn 将负责每个 K 的实际训练和返回指标。【参考方案3】：

看看Cross validation for MNIST dataset with pytorch and sklearn。提问者实施了 kFold 交叉验证。特别看一下他自己的答案（19 年 11 月 23 日 10:34 回答）。他不依赖 random_split() 而是依赖 sklearn.model_selection.KFold 并从那里构造一个 DataSet 并从那里构造一个 Dataloader。

【讨论】：

如何使用pytorch同时迭代两个数据加载器？(代码片段)

...以便我可以在两个图像上训练网络。fori,datainenumerate(zip(dataloaders1,dataloaders2)):#gettheinputsinputs1=data[0][0].cuda(async=True);labels1=data[0 查看详情

如何在 pytorch 和 tensorflow 中使用张量核心？

】如何在pytorch和tensorflow中使用张量核心？【英文标题】：Howtousetensorcoresinpytorchandtensorflow?【发布时间】：2021-12-2823:30:01【问题描述】：我正在使用带有张量核心的NvidiaRTXGPU，我想确保pytorch/tensorflow正在使用它的张量核心。我在... 查看详情

如何在 pytorch 中使用 tensorboard 调试器？

】如何在pytorch中使用tensorboard调试器？【英文标题】：Howtousetensorboarddebuggerwithpytorch?【发布时间】：2020-01-2300:57:48【问题描述】：我知道pytorch从1.11版本开始支持tensorboard。但我想知道我们是否可以使用pytorch的tensorboard调试器插... 查看详情

在 CrossEntropyLoss 和 BCELoss (PyTorch) 中使用权重

】在CrossEntropyLoss和BCELoss(PyTorch)中使用权重【英文标题】：UsingweightsinCrossEntropyLossandBCELoss(PyTorch)【发布时间】：2021-08-1604:44:25【问题描述】：我正在训练一个PyTorch模型来执行二进制分类。我的少数类约占数据的10%，所以我想使... 查看详情

如何在 PyTorch 中使用 autograd.gradcheck？

】如何在PyTorch中使用autograd.gradcheck？【英文标题】：Howtouseautograd.gradcheckinPyTorch?【发布时间】：2019-12-2820:16:18【问题描述】：文档不包含任何gradcheck的示例用例，它在哪里有用？【问题讨论】：【参考方案1】：这里的文档中提... 查看详情

在 MESS 中使用 pytorch 的 Tensorboard

】在MESS中使用pytorch的Tensorboard【英文标题】：TensorboardwithpytorchinaMESS【发布时间】：2021-04-2513:34:08【问题描述】：我正在使用PyTorch并可视化训练标量，例如tensorboard中的损失。我有3个模型的事件文件位于以下目录中：├─data│... 查看详情

为啥我需要在 Python/Pytorch 中使用两次导入？ [复制]

】为啥我需要在Python/Pytorch中使用两次导入？[复制]【英文标题】：WhydoIneedtouseimporttwiceinPython/Pytorch?[duplicate]为什么我需要在Python/Pytorch中使用两次导入？[复制]【发布时间】：2021-11-1509:20:25【问题描述】：我在Youtube上关注Pytorch... 查看详情

如何在代码中使用 PyTorch PackedSequence？

】如何在代码中使用PyTorchPackedSequence？【英文标题】：HowdoyouusePyTorchPackedSequenceincode?【发布时间】：2017-11-2209:53:27【问题描述】：有人可以提供完整的工作代码（不是sn-p，而是在可变长度循环神经网络上运行的代码），说明您... 查看详情

pytorch-模型建立(代码片段)

...创建的？通过PyTorch进行数据集加载数据准备Datasets和DataLoaders批量处理模型建立python中的面向对象（OOP）Py 查看详情

在 pytorch 中使用多个损失函数

】在pytorch中使用多个损失函数【英文标题】：Usingmultiplelossfunctionsinpytorch【发布时间】：2021-02-2014:57:12【问题描述】：我正在处理图像恢复任务，我考虑了多个损失函数。我的计划是考虑3条路线：1：使用多个损失进行监控，但... 查看详情

在 pytorch 中使用 torchvision.transforms 进行数据增强

】在pytorch中使用torchvision.transforms进行数据增强【英文标题】：DataAugmentationwithtorchvision.transformsinpytorch【发布时间】：2019-07-2503:12:11【问题描述】：我发现数据增强可以在PyTorch中使用torchvision.transforms完成。我还读到在每个时期... 查看详情

我可以在 Pytorch 中使用啥来代替 caffe 重量填充物

】我可以在Pytorch中使用啥来代替caffe重量填充物【英文标题】：WhatcanIuseinPytorchtoremplacecaffe\'sweightfiller我可以在Pytorch中使用什么来代替caffe重量填充物【发布时间】：2021-01-2003:35:58【问题描述】：我正在基于下面的caffe模型编写... 查看详情

是否可以在 transform.compose 中使用非 pytorch 增强

】是否可以在transform.compose中使用非pytorch增强【英文标题】：Isitpossibletousenon-pytochaugmentationintransform.compose【发布时间】：2020-11-0509:24:20【问题描述】：我正在研究一个将图像作为Pytorch输入的数据分类问题。我想使用imgaug库，但... 查看详情

在 PyTorch 中使用 module.to() 移动成员张量

】在PyTorch中使用module.to()移动成员张量【英文标题】：Movingmembertensorswithmodule.to()inPyTorch【发布时间】：2019-07-0909:49:12【问题描述】：我正在PyTorch中构建变分自动编码器(VAE)，但在编写与设备无关的代码时遇到问题。Autoencoder是nn.... 查看详情

在 pytorch Torchtext 中使用 Vocab 获取单词的频率

】在pytorchTorchtext中使用Vocab获取单词的频率【英文标题】：GetfrequencyofwordsusingVocabinpytorchTorchtext【发布时间】：2022-01-2403:05:42【问题描述】：如何在使用build_vocab_from_iterator创建的torchtextvocab中获取标记的频率？文档链接：https://py... 查看详情

如何在 Pytorch 中测试自定义数据集？

】如何在Pytorch中测试自定义数据集？【英文标题】：HowdoyoutestacustomdatasetinPytorch?【发布时间】：2021-07-2107:09:54【问题描述】：我一直在关注Pytorch中使用来自Pytorch的数据集的教程，这些教程允许您启用是否要使用数据进行训练...... 查看详情

如何使用空间转换器在pytorch中裁剪图像？

】如何使用空间转换器在pytorch中裁剪图像？【英文标题】：Howtousespatialtransformertocroptheimageinpytorch?【发布时间】：2019-08-1718:32:59【问题描述】：空间变换网络的论文声称它可以用来裁剪图像。给定裁剪区域(top_left,bottom_right)=(x1,y1... 查看详情

在 PyTorch 中使用张量索引多维张量

】在PyTorch中使用张量索引多维张量【英文标题】：Indexingamulti-dimensionaltensorwithatensorinPyTorch【发布时间】：2019-02-0502:46:21【问题描述】：我有以下代码：a=torch.randint(0,10,[3,3,3,3])b=torch.LongTensor([1,1,1,1])我有一个多维索引b并想用它来... 查看详情