正文

小白学习pytorch教程十七pytorch中数据集torchvision和torchtext(代码片段)

刘润森！  刘润森！  2023-03-09  538

关键词：

@Author：Runsen

对于PyTorch加载和处理不同类型数据，官方提供了torchvision和torchtext。

之前使用 torchDataLoader类直接加载图像并将其转换为张量。现在结合torchvision和torchtext介绍torch中的内置数据集

Torchvision 中的数据集

MNIST

MNIST 是一个由标准化和中心裁剪的手写图像组成的数据集。它有超过 60,000 张训练图像和 10,000 张测试图像。这是用于学习和实验目的最常用的数据集之一。要加载和使用数据集，使用以下语法导入：torchvision.datasets.MNIST()。

Fashion MNIST

Fashion MNIST数据集类似于MNIST，但该数据集包含T恤、裤子、包包等服装项目，而不是手写数字，训练和测试样本数分别为60,000和10,000。要加载和使用数据集，使用以下语法导入：torchvision.datasets.FashionMNIST()

CIFAR

CIFAR数据集有两个版本，CIFAR10和CIFAR100。CIFAR10 由 10 个不同标签的图像组成，而 CIFAR100 有 100 个不同的类。这些包括常见的图像，如卡车、青蛙、船、汽车、鹿等。

torchvision.datasets.CIFAR10()
torchvision.datasets.CIFAR100()

COCO

COCO数据集包含超过 100,000 个日常对象，如人、瓶子、文具、书籍等。这个图像数据集广泛用于对象检测和图像字幕应用。下面是可以加载 COCO 的位置：torchvision.datasets.CocoCaptions()

EMNIST

EMNIST数据集是 MNIST 数据集的高级版本。它由包括数字和字母的图像组成。如果您正在处理基于从图像中识别文本的问题，EMNIST是一个不错的选择。下面是可以加载 EMNIST的位置：：torchvision.datasets.EMNIST()

IMAGE-NET

ImageNet 是用于训练高端神经网络的旗舰数据集之一。它由分布在 10,000 个类别中的超过 120 万张图像组成。通常，这个数据集加载在高端硬件系统上，因为单独的 CPU 无法处理这么大的数据集。下面是加载 ImageNet 数据集的类：torchvision.datasets.ImageNet()

Torchtext 中的数据集

IMDB

IMDB是一个用于情感分类的数据集，其中包含一组 25,000 条高度极端的电影评论用于训练，另外 25,000 条用于测试。使用以下类加载这些数据torchtext：torchtext.datasets.IMDB()

WikiText2

WikiText2语言建模数据集是一个超过 1 亿个标记的集合。它是从维基百科中提取的，并保留了标点符号和实际的字母大小写。它广泛用于涉及长期依赖的应用程序。可以从torchtext以下位置加载此数据：torchtext.datasets.WikiText2()

除了上述两个流行的数据集，torchtext库中还有更多可用的数据集，例如 SST、TREC、SNLI、MultiNLI、WikiText-2、WikiText103、PennTreebank、Multi30k 等。

深入查看 MNIST 数据集

MNIST 是最受欢迎的数据集之一。现在我们将看到 PyTorch 如何从 pytorch/vision 存储库加载 MNIST 数据集。让我们首先下载数据集并将其加载到名为的变量中data_train

from torchvision.datasets import MNIST

# Download MNIST 
data_train = MNIST('~/mnist_data', train=True, download=True)

import matplotlib.pyplot as plt

random_image = data_train[0][0]
random_image_label = data_train[0][1]

# Print the Image using Matplotlib
plt.imshow(random_image)
print("The label of the image is:", random_image_label)

DataLoader加载MNIST

下面我们使用DataLoader该类加载数据集，如下所示。

import torch
from torchvision import transforms

data_train = torch.utils.data.DataLoader(
    MNIST(
          '~/mnist_data', train=True, download=True, 
          transform = transforms.Compose([
              transforms.ToTensor()
          ])),
          batch_size=64,
          shuffle=True
          )

for batch_idx, samples in enumerate(data_train):
      print(batch_idx, samples)

CUDA加载

我们可以启用 GPU 来更快地训练我们的模型。现在让我们使用CUDA加载数据时可以使用的（GPU 支持 PyTorch）的配置。

device = "cuda" if torch.cuda.is_available() else "cpu"
kwargs = 'num_workers': 1, 'pin_memory': True if device=='cuda' else 

train_loader = torch.utils.data.DataLoader(
  torchvision.datasets.MNIST('/files/', train=True, download=True),
  batch_size=batch_size_train, **kwargs)

test_loader = torch.utils.data.DataLoader(
  torchvision.datasets.MNIST('files/', train=False, download=True),
  batch_size=batch_size, **kwargs)

ImageFolder

ImageFolder是一个通用数据加载器类torchvision，可帮助加载自己的图像数据集。处理一个分类问题并构建一个神经网络来识别给定的图像是apple还是orange。要在 PyTorch 中执行此操作，第一步是在默认文件夹结构中排列图像，如下所示：

root
├── orange
│   ├── orange_image1.png
│   └── orange_image1.png
├── apple
│   └── apple_image1.png
│   └── apple_image2.png
│   └── apple_image3.png

可以使用ImageLoader该类加载所有这些图像。

torchvision.datasets.ImageFolder(root, transform)

transforms

PyTorch 转换定义了简单的图像转换技术，可将整个数据集转换为独特的格式。

如果是一个包含不同分辨率的不同汽车图片的数据集，在训练时，我们训练数据集中的所有图像都应该具有相同的分辨率大小。如果我们手动将所有图像转换为所需的输入大小，则很耗时，因此我们可以使用transforms；使用几行 PyTorch 代码，我们数据集中的所有图像都可以转换为所需的输入大小和分辨率。

现在让我们加载 CIFAR10torchvision.datasets并应用以下转换：

将所有图像调整为 32×32
对图像应用中心裁剪变换
将裁剪后的图像转换为张量
标准化图像

import torch
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np

transform = transforms.Compose([
    # resize 32×32
    transforms.Resize(32),
    # center-crop裁剪变换
    transforms.CenterCrop(32),
    # to-tensor
    transforms.ToTensor(),
    # normalize 标准化
    transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])
])

trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
                                        download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
                                          shuffle=False)

在 PyTorch 中创建自定义数据集

下面将创建一个由数字和文本组成的简单自定义数据集。需要封装Dataset 类中的__getitem__()和__len__()方法。

__getitem__()方法通过索引返回数据集中的选定样本。
__len__()方法返回数据集的总大小。

下面是曾经封装FruitImagesDataset数据集的代码，基本是比较好的 PyTorch 中创建自定义数据集的模板。

import os
import numpy as np
import cv2
import torch
import matplotlib.patches as patches
import albumentations as A
from albumentations.pytorch.transforms import ToTensorV2
from matplotlib import pyplot as plt
from torch.utils.data import Dataset
from xml.etree import ElementTree as et
from torchvision import transforms as torchtrans

class FruitImagesDataset(torch.utils.data.Dataset):
    def __init__(self, files_dir, width, height, transforms=None):
        self.transforms = transforms
        self.files_dir = files_dir
        self.height = height
        self.width = width


        self.imgs = [image for image in sorted(os.listdir(files_dir))
                     if image[-4:] == '.jpg']

        self.classes = ['_','apple', 'banana', 'orange']

    def __getitem__(self, idx):

        img_name = self.imgs[idx]
        image_path = os.path.join(self.files_dir, img_name)

        # reading the images and converting them to correct size and color
        img = cv2.imread(image_path)
        img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB).astype(np.float32)
        img_res = cv2.resize(img_rgb, (self.width, self.height), cv2.INTER_AREA)
        # diving by 255
        img_res /= 255.0

        # annotation file
        annot_filename = img_name[:-4] + '.xml'
        annot_file_path = os.path.join(self.files_dir, annot_filename)

        boxes = []
        labels = []
        tree = et.parse(annot_file_path)
        root = tree.getroot()

        # cv2 image gives size as height x width
        wt = img.shape[1]
        ht = img.shape[0]

        # box coordinates for xml files are extracted and corrected for image size given
        for member in root.findall('object'):
            labels.append(self.classes.index(member.find('name').text))

            # bounding box
            xmin = int(member.find('bndbox').find('xmin').text)
            xmax = int(member.find('bndbox').find('xmax').text)

            ymin = int(member.find('bndbox').find('ymin').text)
            ymax = int(member.find('bndbox').find('ymax').text)

            xmin_corr = (xmin / wt) * self.width
            xmax_corr = (xmax / wt) * self.width
            ymin_corr = (ymin / ht) * self.height
            ymax_corr = (ymax / ht) * self.height

            boxes.append([xmin_corr, ymin_corr, xmax_corr, ymax_corr])

        # convert boxes into a torch.Tensor
        boxes = torch.as_tensor(boxes, dtype=torch.float32)

        # getting the areas of the boxes
        area = (boxes[:, 3] - boxes[:, 1]) * (boxes[:, 2] - boxes[:, 0])

        # suppose all instances are not crowd
        iscrowd = torch.zeros((boxes.shape[0],), dtype=torch.int64)

        labels = torch.as_tensor(labels, dtype=torch.int64)

        target = 
        target["boxes"] = boxes
        target["labels"] = labels
        target["area"] = area
        target["iscrowd"] = iscrowd
        # image_id
        image_id = torch.tensor([idx])
        target["image_id"] = image_id

        if self.transforms:
            sample = self.transforms(image=img_res,
                                     bboxes=target['boxes'],
                                     labels=labels)

            img_res = sample['image']
            target['boxes'] = torch.Tensor(sample['bboxes'])
        return img_res, target
    def __len__(self):
        return len(self.imgs)

def get_transform(train):
    if train:
        return A.Compose([
            A.HorizontalFlip(0.5),
            ToTensorV2(p=1.0)
        ], bbox_params='format': 'pascal_voc', 'label_fields': ['labels'])
    else:
        return A.Compose([
            ToTensorV2(p=1.0)
        ], bbox_params='format': 'pascal_voc', 'label_fields': ['labels'])

files_dir = '../input/fruit-images-for-object-detection/train_zip/train'
test_dir = '../input/fruit-images-for-object-detection/test_zip/test'

dataset = FruitImagesDataset(train_dir, 480, 480)

小白学习pytorch教程十七基于torch实现unet图像分割模型(代码片段)

@Author：Runsen在图像领域，除了分类，CNN今天还用于更高级的问题，如图像分割、对象检测等。图像分割是计算机视觉中的一个过程，其中图像被分割成代表图像中每个不同类别的不同段。上面图片一段代表... 查看详情

小白学习pytorch教程七基于乳腺癌数据集构建logistic二分类模型(代码片段)

...、文字分类都属于这一类。在这篇博客中，将学习如何在PyTorch中实现逻辑回归。文章目录1.数据集加载2.预处理3.模型搭建4.训练和优化1.数据集加载在这里，我将使用来自sklearn库的乳腺癌数据集。这是一个简单的二元类分类数据... 查看详情

小白学习pytorch教程九基于pytorch训练第一个rnn模型(代码片段)

@Author：Runsen当阅读一篇课文时，我们可以根据前面的单词来理解每个单词的，而不是从零开始理解每个单词。这可以称为记忆。卷积神经网络模型（CNN）不能实现这种记忆，因此引入了递归神经网络模型（RNN）来解决这一问题... 查看详情

小白学习pytorch教程八使用图像数据增强手段，提升cifar-10数据集精确度(代码片段)

@Author：Runsen上次基于CIFAR-10数据集，使用PyTorch构建图像分类模型的精确度是60%，对于如何提升精确度，方法就是常见的transforms图像数据增强手段。importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.datai 查看详情

小白学习pytorch教程十五bert：通过pytorch来创建一个文本分类的bert模型(代码片段)

@Author：Runsen2018年，谷歌发表了一篇题为《Pre-trainingofdeepbidirectionalTransformersforLanguageUnderstanding》的论文。在本文中，介绍了一种称为BERT（带转换器Transformers的双向编码Encoder器表示）的语言模型，该模型在问答、自然语言推理、... 查看详情

小白学习pytorch教程十基于大型电影评论数据集训练第一个lstm模型(代码片段)

@Author:Runsen文章目录编码建立字典并对评论进行编码对标签进行编码删除异常值填充序列数据加载器RNN模型的实现训练本博客对原始IMDB数据集进行预处理，建立一个简单的深层神经网络模型，对给定数据进行情感分析... 查看详情

小白学习pytorch教程十二迁移学习：微调vgg19实现图像分类(代码片段)

@Author：Runsen前言：迁移学习就是利用数据、任务或模型之间的相似性，将在旧的领域学习过或训练好的模型，应用于新的领域这样的一个过程。从这段定义里面，我们可以窥见迁移学习的关键点所在，... 查看详情

小白学习pytorch教程十一基于mnist数据集训练第一个生成性对抗网络(代码片段)

@Author：RunsenGAN是使用两个神经网络模型训练的生成模型。一种模型称为生成网络模型，它学习生成新的似是而非的样本。另一个模型被称为判别网络，它学习区分生成的例子和真实的例子。生成性对抗网络2014࿰... 查看详情

小白学习pytorch教程十一基于mnist数据集训练第一个生成性对抗网络(代码片段)

小白学习之pytorch框架-动手学深度学习(begin)

在这向大家推荐一本书-花书-动手学深度学习pytorch版，原书用的深度学习框架是MXNet，这个框架经过Gluon重新再封装，使用风格非常接近pytorch，但是由于pytorch越来越火，个人又比较执着，想学pytorch，好，有个大神来了，把《动... 查看详情

第十七篇pytorch学习率调整策略

文章目录摘要1、对不同层设置不同的学习率应用举例2、等间隔调整学习率StepLR应用举例3、按需调整学习率MultiStepLR应用举例4、指数衰减调整学习率ExponentialLR应用举例5、余弦退火调整学习率CosineAnnealingLR应用举例6、自适应调整... 查看详情

小白学习pytorch教程十四迁移学习：微调resnet实现男人和女人图像分类(代码片段)

@Author：Runsen上次微调了Alexnet，这次微调ResNet实现男人和女人图像分类。ResNet是ResidualNetworks的缩写，是一种经典的神经网络，用作许多计算机视觉任务。ResNet论文参见此处：https://arxiv.org/abs/1512.03385该模型... 查看详情

小白入门深度学习|第四篇：配置pytorch环境

查看详情

小白学习pytorch教程十三迁移学习：微调alexnet实现ant和bee图像分类(代码片段)

@Author：Runsen上次微调了VGG19，这次微调Alexnet实现ant和bee图像分类。多年来，CNN许多变体已经发展起来，从而产生了几种CNN架构。其中最常见的是：LeNet-5(1998)AlexNet(2012)ZFNet(2013)GoogleNet/Inception（2014 查看详情

小白学习pytorch教程十六在多标签分类任务上微调bert模型(代码片段)

@Author：RunsenBERT模型在NLP各项任务中大杀四方，那么我们如何使用这一利器来为我们日常的NLP任务来服务呢？首先介绍使用BERT做文本多标签分类任务。文本多标签分类是常见的NLP任务，文本介绍了如何使用Bert... 查看详情

pytorch安装教程

... 三、创建虚拟环境四、利用镜像下载 1.配置镜像2.安装PyTorch 五、测试环境写在前面 PyTorch是一个针对深度学习，并且使用GPU和CPU来优化的tensorlibrary(张量库)。它支持在Linu 查看详情

深度学习100例|第41天：语音识别-pytorch实现(代码片段)

...环境配置教程：小白入门深度学习|第四篇：配置PyTorch环境👉往期精彩内容深度学习100例|第1例：猫狗识别-PyTorch实现深度学习100例|第2例：人脸表情识别-PyTorch实现深度学习100例|第3天：交通标志识别-PyTorch... 查看详情

pytorch模型训练实用教程学习笔记：一数据加载和transforms方法总结(代码片段)

前言最近在重温Pytorch基础，然而Pytorch官方文档的各种API是根据字母排列的，并不适合学习阅读。于是在gayhub上找到了这样一份教程《Pytorch模型训练实用教程》，写得不错，特此根据它来再学习一下Pytorch。仓库地... 查看详情

正文

小白学习pytorch教程十七pytorch中数据集torchvision和torchtext(代码片段)

Torchvision 中的数据集

MNIST

Fashion MNIST

CIFAR

COCO

EMNIST

IMAGE-NET

Torchtext 中的数据集

IMDB

WikiText2

深入查看 MNIST 数据集

DataLoader加载MNIST

CUDA加载

ImageFolder

transforms

在 PyTorch 中创建自定义数据集

小白学习pytorch教程十七基于torch实现unet图像分割模型(代码片段)

小白学习pytorch教程七基于乳腺癌数据集​​构建logistic二分类模型(代码片段)

小白学习pytorch教程九基于pytorch训练第一个rnn模型(代码片段)

小白学习pytorch教程八使用图像数据增强手段，提升cifar-10数据集精确度(代码片段)

小白学习pytorch教程十五bert：通过pytorch来创建一个文本分类的bert模型(代码片段)

小白学习pytorch教程十基于大型电影评论数据集训练第一个lstm模型(代码片段)

小白学习pytorch教程十二迁移学习：微调vgg19实现图像分类(代码片段)

小白学习pytorch教程十一基于mnist数据集训练第一个生成性对抗网络(代码片段)

小白学习pytorch教程十一基于mnist数据集训练第一个生成性对抗网络(代码片段)

小白学习之pytorch框架-动手学深度学习(begin)

第十七篇pytorch学习率调整策略

小白学习pytorch教程十四迁移学习：微调resnet实现男人和女人图像分类(代码片段)

小白入门深度学习|第四篇：配置pytorch环境

小白学习pytorch教程十三迁移学习：微调alexnet实现ant和bee图像分类(代码片段)

小白学习pytorch教程十六在多标签分类任务上微调bert模型(代码片段)

pytorch安装教程

深度学习100例|第41天：语音识别-pytorch实现(代码片段)

pytorch模型训练实用教程学习笔记：一数据加载和transforms方法总结(代码片段)

小白学习pytorch教程七基于乳腺癌数据集构建logistic二分类模型(代码片段)