小白学习pytorch教程十基于大型电影评论数据集训练第一个lstm模型(代码片段)

刘润森! 刘润森!     2022-12-09     270

关键词:

@Author:Runsen

本博客对原始IMDB数据集进行预处理,建立一个简单的深层神经网络模型,对给定数据进行情感分析。

  • 数据集下载 here.
  • 原始数据集,没有进行处理here.
import numpy as np

# read data from text files
with open('reviews.txt', 'r') as f:
    reviews = f.read()
with open('labels.txt', 'r') as f:
    labels = f.read()

编码

在将数据输入深度学习模型之前,应该将其转换为数值,文本转换被称为编码,这涉及到每个字符转换成一个整数。在进行编码之前,需要清理数据。
有以下几个预处理步骤:

  1. 删除标点符号。
  2. 使用\\n作为分隔符拆分文本。
  3. 把所有的评论重新组合成一个大串。
from string import punctuation

# remove punctuation
reviews = reviews.lower()
text = ''.join([c for c in reviews if c not in punctuation])
print(punctuation)  # !"#$%&'()*+,-./:;<=>?@[\\]^_`|~


# split by new lines and spaces
reviews_split = text.split('\\n')
text = ' '.join(reviews_split)

# create a list of words
words = text.split()

建立字典并对评论进行编码

创建一个字典,将词汇表中的单词映射为整数。然后通过这个字典,评论可以转换成整数,然后再传送到模型网络。

from collections import Counter

word_counts = Counter(words)
vocab = sorted(word_counts, key = word_counts.get, reverse = True)

vocab2idx = vocab:idx for idx, vocab in enumerate(vocab, 1)
print("Size of Vocabulary: ", len(vocab))

Size of Vocabulary: 74072

encoded_reviews = []
for review in reviews_split:
    encoded_reviews.append([vocab2idx[vocab] for vocab in review.split()])
print("The number of reviews: ", len(encoded_reviews))

The number of reviews: 25001

对标签进行编码

Negative 和Positive应分别标记为0和1(整数)

splitted_labels = labels.split("\\n")
encoded_labels = np.array([
    1 if label == "positive" else 0 for label in splitted_labels
])

删除异常值

应删除长度为0评论,然后,将对剩余的数据进行填充,保证所有数据具有相同的长度。

length_reviews = Counter([len(x) for x in encoded_reviews])
print("Zero-length reviews: ", length_reviews[0])
print("Maximum review length: ", max(length_reviews))

Zero-length reviews: 1
Maximum review length: 2514

# reviews with length 0
non_zero_idx = [i for i, review in enumerate(encoded_reviews) if len(review) != 0]

# Remove 0-length reviews
encoded_reviews = [encoded_reviews[i] for i in non_zero_idx]
encoded_labels = np.array([encoded_labels[i] for i in non_zero_idx])

填充序列

下面要处理很长和很短的评论,需要使用0填充短评论,使其适合特定的长度,

并将长评论剪切为seq_length的单词。这里设置seq_length=200

def text_padding(encoded_reviews, seq_length):
    
    reviews = []
    
    for review in encoded_reviews:
        if len(review) >= seq_length:
            reviews.append(review[:seq_length])
        else:
            reviews.append([0]*(seq_length-len(review)) + review)
        
    return np.array(reviews)

seq_length = 200
padded_reviews = text_padding(encoded_reviews, seq_length)
print(padded_reviews[:12, :12])

数据加载器

将数据按8:1:1的比例拆分为训练集、验证集和测试集,然后使用“TensorDataset”和“DataLoader”函数来处理评论和标签数据。

ratio = 0.8
train_length = int(len(padded_reviews) * ratio)

X_train = padded_reviews[:train_length]
y_train = encoded_labels[:train_length]

remaining_x = padded_reviews[train_length:]
remaining_y = encoded_labels[train_length:]

test_length = int(len(remaining_x)*0.5)

X_val = remaining_x[: test_length]
y_val = remaining_y[: test_length]

X_test = remaining_x[test_length :]
y_test = remaining_y[test_length :]
print("Feature shape of train review set: ", X_train.shape)
print("Feature shape of   val review set: ", X_val.shape)
print("Feature shape of  test review set: ", X_test.shape)

import torch
from torch.utils.data import TensorDataset, DataLoader

batch_size = 50
device = "cuda" if torch.cuda.is_available() else "cpu"
train_dataset = TensorDataset(torch.from_numpy(X_train).to(device), torch.from_numpy(y_train).to(device))
valid_dataset = TensorDataset(torch.from_numpy(X_val).to(device), torch.from_numpy(y_val).to(device))
test_dataset = TensorDataset(torch.from_numpy(X_test).to(device), torch.from_numpy(y_test).to(device))

train_loader = DataLoader(train_dataset, batch_size = batch_size, shuffle = True)
valid_loader = DataLoader(valid_dataset, batch_size = batch_size, shuffle = True)
test_loader = DataLoader(test_dataset, batch_size = batch_size, shuffle = True)
data_iter = iter(train_loader)
X_sample, y_sample = data_iter.next()

RNN模型的实现

到目前为止,包括标记化在内的预处理已经完成。现在建立一个神经网络模型来预测评论的情绪。

  • 首先,嵌入层将单词标记转换为特定大小。

  • 第二,一个 LSTM层,由hidden_sizenum_layers定义。

  • 第三,通过完全连接的层从LSTM层的输出映射期望的输出大小。

  • 最后,sigmoid激活层以概率0到1的形式返回输出。

import torch.nn as nn
from torch.autograd import Variable

class Model(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim, num_layers):
        super(Model, self).__init__()
        
        self.hidden_dim = hidden_dim
        self.num_layers = num_layers
        
        # embedding and LSTM
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        
        self.lstm = nn.LSTM(input_size = embedding_dim, 
                            hidden_size = hidden_dim, 
                            num_layers = num_layers, 
                            batch_first = True, 
                            dropout = 0.5, 
                            bidirectional = False)
        
        # 完连接层
        self.fc = nn.Sequential(
            nn.Dropout(0.5),
            nn.Linear(hidden_dim, output_dim),
            nn.Sigmoid()
        )
        
    def forward(self, token, hidden):
        
        batch_size = token.size(0)
        
        # embedding and lstm output
        out = self.embedding(token.long())
        out, hidden = self.lstm(out, hidden)
        
        # stack up lstm outputs
        out = out.contiguous().view(-1, self.hidden_dim)
        
        # fully connected layer
        out = self.fc(out)
        
        # reshape to be batch_size first
        out = out.view(batch_size, -1)
        
        # get the last batch of labels
        out = out[:, -1]
    
        return out
    
    def init_hidden(self, batch_size):
        return (Variable(torch.zeros(self.num_layers, batch_size, self.hidden_dim).to(device)), 
                 Variable(torch.zeros(self.num_layers, batch_size, self.hidden_dim).to(device)))
  • vocab_size : 词汇量
  • embedding_dim : 嵌入查找表中的列数
  • hidden_dim : LSTM单元隐藏层中的单元数
  • output_dim : 期望输出的大小
vocab_size = len(vocab)+1 # +1 for the 0 padding + our word tokens
embedding_dim = 400
hidden_dim = 256
output_dim = 1
num_layers = 2

model = Model(vocab_size, embedding_dim, hidden_dim, output_dim, num_layers).to(device)
model

训练

对于损失函数,BCELoss被用于二分类交叉熵损失,通过给出介于0和1之间的概率进行分类。使用Adam优化器,学习率为0.001

另外,torch.nn.utils.clip_grad_norm_(model.parameters(), clip = 5),防止了RNN中梯度的爆炸和消失问题clip是要剪裁最大值。

# Loss function and Optimizer
criterion = nn.BCELoss()
optimizer = torch.optim.Adam(model.parameters(), lr = 0.001)

for epoch in range(num_epochs):
    
    model.train()
    hidden = model.init_hidden(batch_size)
    
    for i, (review, label) in enumerate(train_loader):
        review, label = review.to(device), label.to(device)
        
        # Initialize Optimizer 
        optimizer.zero_grad()
        
        hidden = tuple([h.data for h in hidden])
        
        # Feed Forward 
        output = model(review, hidden)
        
        # Calculate the Loss
        loss = criterion(output.squeeze(), label.float())
        
        # Back Propagation 
        loss.backward()
        
        # Prevent Exploding Gradient Problem 
        nn.utils.clip_grad_norm_(model.parameters(), 5)
        
        # Update 
        optimizer.step()
        
        train_losses.append(loss.item())
        
        # Print Statistics 
        if (i+1) % 100 == 0:
            
            ### Evaluation ###
            
            # initialize hidden state
            val_h = model.init_hidden(batch_size)
            val_losses = []

            model.eval()
            
            for review, label in valid_loader:
                review, label = review.to(device), label.to(device)
                val_h = tuple([h.data for h in val_h])
                output = model(review, val_h)
                val_loss = criterion(output.squeeze(), label.float())
                
                val_losses.append(val_loss.item())
                
            print("Epoch: / | Step , Train Loss :.4f, Val Loss :.4f".
                  format(epoch+1, num_epochs, i+1, np.mean(train_losses), np.mean(val_losses)))

小白学习pytorch教程十一基于mnist数据集训练第一个生成性对抗网络(代码片段)

@Author:RunsenGAN是使用两个神经网络模型训练的生成模型。一种模型称为生成网络模型,它学习生成新的似是而非的样本。另一个模型被称为判别网络,它学习区分生成的例子和真实的例子。生成性对抗网络2014࿰... 查看详情

小白学习pytorch教程十七pytorch中数据集torchvision和torchtext(代码片段)

@Author:Runsen对于PyTorch加载和处理不同类型数据,官方提供了torchvision和torchtext。之前使用torchDataLoader类直接加载图像并将其转换为张量。现在结合torchvision和torchtext介绍torch中的内置数据集Torchvision中的数据集MNISTMNIST... 查看详情

小白学习pytorch教程十七pytorch中数据集torchvision和torchtext(代码片段)

@Author:Runsen对于PyTorch加载和处理不同类型数据,官方提供了torchvision和torchtext。之前使用torchDataLoader类直接加载图像并将其转换为张量。现在结合torchvision和torchtext介绍torch中的内置数据集Torchvision中的数据集MNISTMNIST... 查看详情

小白学习pytorch教程七基于乳腺癌数据集​​构建logistic二分类模型(代码片段)

...、文字分类都属于这一类。在这篇博客中,将学习如何在PyTorch中实现逻辑回归。文章目录1.数据集加载2.预处理3.模型搭建4.训练和优化1.数据集加载在这里,我将使用来自sklearn库的乳腺癌数据集。这是一个简单的二元类分类数据... 查看详情

小白学习pytorch教程八使用图像数据增强手段,提升cifar-10数据集精确度(代码片段)

@Author:Runsen上次基于CIFAR-10数据集,使用PyTorch​​构建图像分类模型的精确度是60%,对于如何提升精确度,方法就是常见的transforms图像数据增强手段。importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.datai 查看详情

小白学习pytorch教程十七基于torch实现unet图像分割模型(代码片段)

@Author:Runsen在图像领域,除了分类,CNN今天还用于更高级的问题,如图像分割、对象检测等。图像分割是计算机视觉中的一个过程,其中图像被分割成代表图像中每个不同类别的不同段。上面图片一段代表... 查看详情

小白学习pytorch教程十二迁移学习:微调vgg19实现图像分类(代码片段)

@Author:Runsen前言:迁移学习就是利用数据、任务或模型之间的相似性,将在旧的领域学习过或训练好的模型,应用于新的领域这样的一个过程。从这段定义里面,我们可以窥见迁移学习的关键点所在,... 查看详情

基于imdb评论数据集的情感分析(代码片段)

...模型运行结果五、遇到的问题总结前言本文的主要内容是基于IMDB评论数据集的情感分析,文中包括大型电影评论数据集介绍、环境配置、实验代码、运行结果以及遇到的问题这几个部分 查看详情

小白学习pytorch教程十六在多标签分类任务上微调bert模型(代码片段)

...类,并给出了各自的步骤。参考官方教程:https://pytorch.org/tutorials/intermediate/dynamic_quantization_bert_tutorial.html复旦大学邱锡鹏老师课题组的研究论文《HowtoFine-TuneBERTforTextClassification?》。论文:https://arxiv.org/pdf/1905.05583.pdf这篇... 查看详情

小白学习pytorch教程十五bert:通过pytorch来创建一个文本分类的bert模型(代码片段)

@Author:Runsen2018年,谷歌发表了一篇题为《Pre-trainingofdeepbidirectionalTransformersforLanguageUnderstanding》的论文。在本文中,介绍了一种称为BERT(带转换器Transformers的双向编码Encoder器表示)的语言模型,该模型在问答、自然语言推理、... 查看详情

小白学习pytorch教程九基于pytorch训练第一个rnn模型(代码片段)

@Author:Runsen当阅读一篇课文时,我们可以根据前面的单词来理解每个单词的,而不是从零开始理解每个单词。这可以称为记忆。卷积神经网络模型(CNN)不能实现这种记忆,因此引入了递归神经网络模型(RNN)来解决这一问题... 查看详情

小白学习pytorch教程十四迁移学习:微调resnet实现男人和女人图像分类(代码片段)

@Author:Runsen上次微调了Alexnet,这次微调ResNet实现男人和女人图像分类。ResNet是ResidualNetworks的缩写,是一种经典的神经网络,用作许多计算机视觉任务。ResNet论文参见此处:https://arxiv.org/abs/1512.03385该模型... 查看详情

小白学习pytorch教程十三迁移学习:微调alexnet实现ant和bee图像分类(代码片段)

@Author:Runsen上次微调了VGG19,这次微调Alexnet实现ant和bee图像分类。多年来,CNN许多变体已经发展起来,从而产生了几种CNN架构。其中最常见的是:LeNet-5(1998)AlexNet(2012)ZFNet(2013)GoogleNet/Inception(2014 查看详情

小白学习pytorch教程十六在多标签分类任务上微调bert模型(代码片段)

@Author:RunsenBERT模型在NLP各项任务中大杀四方,那么我们如何使用这一利器来为我们日常的NLP任务来服务呢?首先介绍使用BERT做文本多标签分类任务。文本多标签分类是常见的NLP任务,文本介绍了如何使用Bert... 查看详情

小白学习keras教程二基于cifar-10数据集训练简单的mlp分类模型(代码片段)

@Author:Runsen分类任务的MLP当目标(y)是离散的(分类的)对于损失函数,使用交叉熵;对于评估指标,通常使用accuracy数据集描述CIFAR-10数据集包含10个类中的60000个图像—50000个用于培训,10000个用于测试有关更多信息,请参阅... 查看详情

小白学习kears教程四keras基于数字数据集建立基础的cnn模型

@Author:Runsen文章目录基本卷积神经网络(CNN)加载数据集1.创建模型2.卷积层3.激活层4.池化层5.Dense(全连接层)6.Modelcompile&train基本卷积神经网络(CNN)-CNN的基本结构:CNN与MLP相似,因为它们只向前传送信号(前馈网络),... 查看详情

小白学习keras教程五基于reuters数据集训练不同rnn循环神经网络模型

@Author:Runsen文章目录循环神经网络RNNLoadDataset1.VanillaRNN2.StackedVanillaRNN3.LSTM4.StackedLSTM循环神经网络RNN前馈神经网络(例如MLP和CNN)功能强大,但它们并未针对处理“顺序”数据进行优化换句话说,它们不具有先前输入的“记忆”... 查看详情

小白学习keras教程七基于digits数据集训练基本自动编码器无监督神经网络

@Author:Runsen本文博客目标:了解自动编码器的基本知识参考文献https://blog.keras.io/building-autoencoders-in-keras.htmlhttps://medium.com/@curiousily/credit-card-fraud-detection-using-autoencoders-in-keras-tensorflow-for-hack 查看详情