正文

keras深度学习实战（24）——从零开始构建单词向量(代码片段)

盼小辉丶  盼小辉丶  2022-12-03  732

关键词：

Keras深度学习实战（24）——从零开始构建单词向量

0. 前言

在解决文本相关问题时，传统方法通常需要对单词进行独热编码。但是，如果数据集中具有数千个不同的单词，则生成的独热编码矢量将具有数千个维度，这会导致计算代价十分高昂。此外，在这种情况下，相似的单词并不具备相似的向量。因此，我们需要研究如何对文本数据进行编码，以使相似的数据具有相似的编码向量。

1. 单词向量

1.1 Word2Vec 原理

Word2Vec 是一种可以将相似单词编码为相似向量的方法。在了解 Word2Vec 原理之前，我们首先考虑以下问题，假设我们有以下输入句子：

I love watching movie
I like watching movie

传统方法中，对单词进行独热编码，输出结果如下所示：

单词	独热编码
I	1	0	0	0	0
love	0	1	0	0	0
watching	0	0	1	0	0
movie	0	0	0	1	0
like	0	0	0	0	1

我们知道，在语义上，love 和 like 是相似的词。但是，使用独热编码单词 I 和 like 之间的欧式距离与 love 和 like 之间的欧式距离相同，不能体现出 love 和 like 之间的语义相似性。但是，我们知道 love 与 like 之间的距离应小于 I 与 like 之间的距离，因为 love 和 like 之间的语义更加相似。

1.2 构建单词向量

构建单词向量的核心思想是，在向量空间中，每个单词周围都存在着与之相似的单词。例如：“queen” 和 “princess” 单词的周围会出现类似的词，如“kingdom”。从某种意义上说，这些词的上下文同样是相似的。
依旧使用上一节中的两个句子，当我们一个句子中的某个单词作为输出，而句子中的其余单词作为输入时，可以构造以下数据集：

输入			输出
love	watching	movie	I
I	watching	movie	love
I	love	movie	watching
I	love	watching	movie
like	watching	movie	I
I	watching	movie	like
I	like	movie	watching
I	like	watching	movie

当我们将某一个单词用作输出，其余单词用作输入，将输入和输出进行独热编码后得到以下形式的向量：

输入向量					输出向量
0	1	1	1	0	1	0	0	0	0
1	0	1	1	0	0	1	0	0	0
1	1	0	1	0	0	0	1	0	0
1	1	1	0	0	0	0	0	1	0
0	0	1	1	1	1	0	0	0	0
1	0	1	1	0	0	0	0	0	1
1	0	0	1	1	0	0	1	0	0
1	0	1	0	1	0	0	0	1	0

可以看到，输入向量的第一行为 0, 1, 1, 1, 0，因为输入单词的索引为 1, 2, 3，输出为 1, 0, 0, 0, 0，因为输出单词的索引为 0。

1.3 神经网络架构

如果我们使用的神经网络中隐藏层包含三个神经元，则神经网络架构如下所示：

网络中每层的信息如下：

网络层	尺寸	描述
输入层	`5`	每个输入向量尺寸为 `5`
输入层权重	`5x3`	隐藏层中的 `3` 个神经元各有 `5` 个连接到输入层的权重
隐藏层	`3`	隐藏层包含 `3` 个神经元
输出层权重	`3x5`	由于有 `5` 个不同单词，因此 `3` 个隐藏单元输出映射到输出层的 `5` 个输出
输出层	`5`	输出向量的尺寸为 `5`，每一单词对应一个预测单词概率

在构建单词向量时，在隐藏层中并不使用激活函数。使用 softmax 函数处理输出层输出值，以便得到单词概率，使用交叉熵损失作为损失函数，使用 Adam 优化器优化网络权重值。当向网络中输入单词(而非输入语句)的独热编码时，给定单词的编码向量可以使用隐藏层的输出值表示。

2. 使用 Keras 从零开始构建单词向量

根据我们在上一小节中介绍的单词向量的生成方式，我们使用 Keras 实现单词编码向量神经网络。

(1) 首先，定义输入句子：

docs = ["I love watching movie", "I like watching movie"]

在以上语句中，我们期望 love 和 like 的词向量是相似的，因为 love 和 like 的上下文是完全相同的。
(2) 然后，我们为每个句子创建一个独热编码：

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(min_df=0, token_pattern=r"\\b\\w+\\b")
vectorizer.fit(docs)

vectorizer 定义了将文档转换为向量格式的参数。此外，通过传递参数 min_df 确保在 CountVectorizer 中不会过滤掉诸如 I 之类的词，使用定义的输入句子拟合 vectorizer 得到合适的单词向量化模型。

(3) 将文档 docs 转换为向量格式：

vector = vectorizer.transform(docs)

(4) 验证执行转换后的语句向量：

print(vectorizer.vocabulary_)
print(vector.shape)
print(vector.toarray())

vocabulary_ 返回各种单词的索引，而 vector.toarray 将返回句子的独热编码，输出结果如下：

'i': 0, 'love': 2, 'watching': 4, 'movie': 3, 'like': 1
(2, 5)
[[1 0 1 1 1]
 [1 1 0 1 1]]

(5) 创建输入和输出数据集：

x = []
y = []
for i in range(len(docs)):
    for j in range(len(docs[i].split())):
        t_x = []
        t_y = []
        for k in range(4):
            if(j==k):
                t_y.append(docs[i].split()[k])
                continue
            else:
                t_x.append(docs[i].split()[k])
        x.append(t_x)
        y.append(t_y)

x2 = []
y2 = []
for i in range(len(x)):
    x2.append(' '.join(x[i]))
    y2.append(' '.join(y[i]))

从前面的代码中，我们创建了输入和输出数据集，我们可以打印数据集，查看其内容：

print(x2)
print(y2)

打印出的输入和输出数据如下：

['love watching movie', 'I watching movie', 'I love movie', 'I love watching', 'like watching movie', 'I watching movie', 'I like movie', 'I like watching']
['I', 'love', 'watching', 'movie', 'I', 'like', 'watching', 'movie']

(6) 将前面的输入和输出单词转换为向量：

vector_x = vectorizer.transform(x2)
vector_y = vectorizer.transform(y2)

vector_x = vector_x.toarray()
vector_y = vector_y.toarray()
# 打印输入与输出数组
print('Input: ', vector_x)
print('Output: ' vector_y)

打印出的输入和输出数组如下：

Input: [[0 0 1 1 1]
 [1 0 0 1 1]
 [1 0 1 1 0]
 [1 0 1 0 1]
 [0 1 0 1 1]
 [1 0 0 1 1]
 [1 1 0 1 0]
 [1 1 0 0 1]]
Output: [[1 0 0 0 0]
 [0 0 1 0 0]
 [0 0 0 0 1]
 [0 0 0 1 0]
 [1 0 0 0 0]
 [0 1 0 0 0]
 [0 0 0 0 1]
 [0 0 0 1 0]]

(7) 根据在上一小节中定义的神经网络，构建神经网络模型：

from keras.layers import Dense
from keras.models import Sequential
model = Sequential()
model.add(Dense(3, input_shape=(5,)))
model.add(Dense(5,activation='sigmoid'))
model.summary()

模型简要架构信息输入如下：

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
dense (Dense)                (None, 3)                 18        
_________________________________________________________________
dense_1 (Dense)              (None, 5)                 20        
=================================================================
Total params: 38
Trainable params: 38
Non-trainable params: 0
_________________________________________________________________

(8) 编译并拟合模型：

model.compile(loss='categorical_crossentropy',optimizer='adam')
model.fit(vector_x, vector_y, epochs=1000, batch_size=2,verbose=1)

(9) 通过获取中间层值来提取词向量，其中输入是每个单个词的编码向量：

from keras.models import Model
layer_name = 'dense'
intermediate_layer_model = Model(inputs=model.input,outputs=model.get_layer(layer_name).output)

在以上代码中，我们从目标层中提取输出——通过模型中的名为 dense 的层获取单词编码向量。

(10) 接下来，向网络中传递单词的独热编码向量作为输入，提取中间层的输出：

for i in range(len(vectorizer.vocabulary_)):
     word = list(vectorizer.vocabulary_.keys())[i]
     word_vec = vectorizer.transform([list(vectorizer.vocabulary_.keys())[i]]).toarray()
     print(word, intermediate_layer_model.predict(word_vec))

各个单词的编码向量如下：

i [[-1.41066     0.02432728 -1.0654368 ]]
love [[-1.1692711   1.7719828   0.54331756]]
watching [[ 1.163808   1.908086  -1.5191256]]
movie [[0.01165223 2.0688105  1.532387  ]]
like [[-1.197992   1.662775   0.5817174]]

可以看出，在以上单词编码向量中，“love” 和 “like” 这两个单词之间的相关性更高，因此可以更好地表示单词向量。

3. 测量单词向量之间的相似度

有多种用于度量测量单词向量之间的相似度的方法，以下是两种较常见的度量方法：

余弦相似度
欧氏距离

两个不同向量 A 和 B 之间的余弦相似度计算如下：

$similarity=cos(\\theta)=\\frac A \\cdot B \\Vert A \\Vert_2 \\Vert B \\Vert_2=\\frac \\sum_i=1^nA_iB_i\\sqrt\\sum_i=1^nA_i^2\\sqrt\\sum_i=1^nB_i^2$

例如在上一小节构建的单词向量示例中，“love” 和 “like” 之间的余弦相似度计算方法如下：

(1) “love” 和 “like” 的单词向量如下：

enjoy = (-1.17, 1.77, 0.54)
like = (-1.20, 1.66, 0.58)

(2) “love” 向量和 “like” 向量之间的余弦相似度：

$\\frac ((-1.17)\\times(-1.20)+1.77\\times1.66+0.54\\times0.58)\\sqrt(-1.17)^2+1.77^2+0.54^2\\sqrt(-1.20)^2+1.66^2+0.58^2=0.998826867$

两个不同向量 A 和 B 之间的欧式距离计算如下：

keras深度学习实战（26）——文档向量详解(代码片段)

Keras深度学习实战（26）——文档向量详解0.前言1.文档向量基本概念2.神经网络模型与数据集分析2.1模型分析2.2数据集介绍3.利用Keras构建神经网络模型生成文档向量小结系列链接0.前言在《从零开始构建单词向量》一节中，我们... 查看详情

keras深度学习实战——使用glove模型构建单词向量(代码片段)

Keras深度学习实战——使用GloVe模型构建单词向量0.前言1.GloVe算法模型1.1模型目标1.2GloVe算法计算细节3.实现GloVe模型构建单词向量3.1数据集3.2模型实现相关链接0.前言在《使用fastText模型构建单词向量》一节中，我们学习了如何构... 查看详情

keras深度学习实战——使用glove模型构建单词向量(代码片段)

Keras深度学习实战——使用GloVe模型构建单词向量0.前言1.GloVe算法模型1.1模型目标1.2GloVe算法计算细节3.实现GloVe模型构建单词向量3.1数据集3.2模型实现相关链接0.前言在《使用fastText模型构建单词向量》一节中，我们学习了如... 查看详情

keras深度学习实战（15）——从零开始实现yolo目标检测(代码片段)

Keras深度学习实战（15）——从零开始实现YOLO目标检测0.前言1.YOLO目标检测模型1.1锚框(anchorboxes)1.2YOLO目标检测模型原理2.从零开始实现YOLO目标检测2.1加载数据集2.2计算锚框尺寸2.3创建训练数据集2.4实现YOLO目标检测模型2.5... 查看详情

keras深度学习实战——使用fasttext模型构建单词向量(代码片段)

Keras深度学习实战——使用fastText模型构建单词向量0.前言1.fastText算法模型2.模型与数据集分析2.1fastText模型分析2.2数据集分析3.使用Keras实现fastText生成单词向量相关链接0.前言fastText是另一种用于生成单词向量的神经网络模型，其... 查看详情

keras深度学习实战——使用fasttext模型构建单词向量(代码片段)

Keras深度学习实战——使用fastText模型构建单词向量0.前言1.fastText算法模型2.模型与数据集分析2.1fastText模型分析2.2数据集分析3.使用Keras实现fastText生成单词向量相关链接0.前言fastText是另一种用于生成单词向量的神经网络模型࿰... 查看详情

keras深度学习实战（28）——利用单词向量构建情感分析模型(代码片段)

Keras深度学习实战（28）——利用单词向量构建情感分析模型0.前言1.模型与数据集分析1.1模型分析1.2数据集分析2.情感分析模型2.1使用CBOW模型获取单词向量2.2构建并训练情感分析模型小结系列链接0.前言在获取单词向量的相关博... 查看详情

keras深度学习实战（25）——使用skip-gram和cbow模型构建单词向量

Keras深度学习实战（25）——使用skip-gram和CBOW模型构建单词向量0.前言1.skip-gram和CBOW模型1.1CBOW模型基本原理1.2skip-gram模型基本原理2.构建单词向量2.1数据集分析2.2使用算法CBOW模型构建单词向量2.3使用skip-gram模型构建单词向量3.使... 查看详情

keras深度学习实战（25）——使用skip-gram和cbow模型构建单词向量

keras深度学习实战（27）——循环神经详解与实现(代码片段)

Keras深度学习实战（27）——循环神经详解与实现0.前言1.循环神经网络(RecurrentNeuralNetwork,RNN)架构简介1.1传统文本处理方法的局限性1.2RNN架构简介1.3RNN内存存储机制2.从零开始构建RNN2.1模型分析2.2使用Python从零开始构建RNN模... 查看详情

keras深度学习实战（27）——循环神经详解与实现(代码片段)

keras深度学习实战——卷积神经网络详解与实现(代码片段)

Keras深度学习实战（7）——卷积神经网络详解与实现0.前言1.传统神经网络的缺陷1.1构建传统神经网络1.2传统神经网络的缺陷2.使用Python从零开始构建CNN2.1卷积神经网络的基本概念2.2卷积和池化相比全连接网络的优势3.使用... 查看详情

keras深度学习实战（26）——文档向量详解(代码片段)

Keras深度学习实战（26）——文档向量详解0.前言1.文档向量基本概念2.神经网络模型与数据集分析2.1模型分析2.2数据集介绍3.利用Keras构建神经网络模型生成文档向量小结系列链接0.前言在《从零开始构建单词向量》一节中&... 查看详情

keras深度学习实战——使用keras构建神经网络(代码片段)

Keras深度学习实战（2）——使用Keras构建神经网络0前言1.Keras简介与安装2.Keras构建神经网络初体验3.训练香草神经网络3.1香草神经网络与MNIST数据集介绍3.2训练神经网络步骤回顾3.3使用Keras构建神经网络模型3.4关键步骤总结... 查看详情

keras深度学习实战（10）——迁移学习(代码片段)

Keras深度学习实战（10）——迁移学习0.前言1.迁移学习1.1迁移学习原理1.2ImageNet数据集介绍2.利用预训练VGG16模型进行性别分类2.1VGG16架构2.2微调模型2.3错误分类的图片示例小结系列链接0.前言在《卷积神经网络的局限性》... 查看详情

keras深度学习实战（23）——dcgan详解与实现(代码片段)

Keras深度学习实战（23）——DCGAN详解与实现0.前言1.使用DCGAN生成手写数字图像2.使用DCGAN生成面部图像2.1模型分析2.2从零开始实现DCGAN生成面部图像小结系列链接0.前言在生成对抗网络(GenerativeAdversarialNetworks,GAN)一节中，我们使用... 查看详情

keras深度学习实战（23）——dcgan详解与实现(代码片段)

Keras深度学习实战（23）——DCGAN详解与实现0.前言1.使用DCGAN生成手写数字图像2.使用DCGAN生成面部图像2.1模型分析2.2从零开始实现DCGAN生成面部图像小结系列链接0.前言在生成对抗网络(GenerativeAdversarialNetworks,GAN)一节中，... 查看详情

keras深度学习实战——使用长短时记忆网络构建情感分析模型(代码片段)

Keras深度学习实战——使用长短时记忆网络构建情感分析模型0.前言1.构建LSTM模型进行情感分类1.1数据集分析1.2模型构建2.构建多层LSTM进行情感分类相关链接0.前言我们已经学习了如何使用循环神经网络(Recurrentneuralnetworks,RNN)构建... 查看详情

输入向量					输出向量
0	1	1	1	0	1	0	0	0	0
1	0	1	1	0	0	1	0	0	0
1	1	0	1	0	0	0	1	0	0
1	1	1	0	0	0	0	0	1	0
0	0	1	1	1	1	0	0	0	0
1	0	1	1	0	0	0	0	0	1
1	0	0	1	1	0	0	1	0	0
1	0	1	0	1	0	0	0	1	0

输入向量					输出向量
0	1	1	1	0	1	0	0	0	0
1	0	1	1	0	0	1	0	0	0
1	1	0	1	0	0	0	1	0	0
1	1	1	0	0	0	0	0	1	0
0	0	1	1	1	1	0	0	0	0
1	0	1	1	0	0	0	0	0	1
1	0	0	1	1	0	0	1	0	0
1	0	1	0	1	0	0	0	1	0

输入向量					输出向量
0	1	1	1	0	1	0	0	0	0
1	0	1	1	0	0	1	0	0	0
1	1	0	1	0	0	0	1	0	0
1	1	1	0	0	0	0	0	1	0
0	0	1	1	1	1	0	0	0	0
1	0	1	1	0	0	0	0	0	1
1	0	0	1	1	0	0	1	0	0
1	0	1	0	1	0	0	0	1	0