深度学习中的卷积操作(代码片段)

zyw2002 zyw2002     2022-12-16     142

关键词:

本文从信号处理中的互相关运算引入深度学习中的卷积
然后介绍了不同的卷积类型,以及如何在pytorch中使用这些卷积层。

(在看pytorch文档中的Conv1D/2D/3D的时候感到比较困惑,又很好奇深度学习中各种各样的卷积操作。于是结合整理几乎包含深度学习中所有的卷积操作,主要参考的有《Dive into Deep learning》, cs231, pytorch的官网文档,stackoverflow以及csdn和知乎上的介绍…简单记录一下)

文章目录

一、前言

1.1 数学中的卷积操作

图像中的卷积操作由数学中卷积的演化而来,所以我们先了解下数学中的卷积操作


直观理解
在信号/图像处理中,卷积定义为
两个函数在反转和移位后的乘积的积分,以下可视化展示了这一过程:


数值理解

  • 连续函数的卷积
    在数学中, 两个函数(比如 f , g f, g f,g : R d → R \\mathbbR^d \\rightarrow \\mathbbR RdR )之间的 “卷积”被定义为
    ( f ∗ g ) ( x ) = ∫ f ( z ) g ( x − z ) d z . (f * g)(\\mathbfx)=\\int f(\\mathbfz) g(\\mathbfx-\\mathbfz) d \\mathbfz . (fg)(x)=f(z)g(xz)dz.
    也就是说, 卷积是当把函数g “翻转” 并移位 x \\mathbfx x时, 测量 f f f g g g之间的乘积
  • 离散函数的卷积
    当为离散对象时, 积分就变成求 和。例如:对于由索引为 Z \\mathbbZ Z的、平方可和的、无限维向量集合中抽取的向量,我们得到以下定义:

( f ∗ g ) ( i ) = ∑ a f ( a ) g ( i − a ) . (f * g)(i)=\\sum_a f(a) g(i-a) . (fg)(i)=af(a)g(ia).

  • 二维函数的卷积
    对于二维张量, 则为 f f f的索引 ( a , b ) (a, b) (a,b) g g g的索引 ( i − a , j − b ) (i-a, j-b) (ia,jb)上的对应加和:
    ( f ∗ g ) ( i , j ) = ∑ a ∑ b f ( a , b ) g ( i − a , j − b ) . (f * g)(i, j)=\\sum_a \\sum_b f(a, b) g(i-a, j-b) . (fg)(i,j)=abf(a,b)g(ia,jb).

1.2 信号处理中的互相关运算

严格来说,卷积层是个错误的叫法,因为它所表达的运算其实是互相关运算(cross-correlation),⽽不是卷积运算。在卷积层中,输⼊张量和核张量通过互相关运算产⽣输出张量。


直观理解
互相关被称为滑动点积或两个函数的滑动内积。互相关的filters不需要反转,它直接在函数f中滑动。f和g之间的交叉区域是互相关,下图显示了相关性和互相关之间的差异:


数值理解:
在深度学习中,卷积中的filters是不需要反转的。严格来说,它们是互相关的,本质上是执行逐元素的乘法和加法,在深度学习中我们称之为卷积。

二、深度学习中的卷积

2.1 卷积操作

我们先以最简单的单通道的卷积为例,来讲解深度学习中的卷积操作~


单通道的卷积操作
首先,我们使用3x3滤波器进行二维卷积运算:
左边是卷积层的输入,例如输入图像。右边是卷积滤波器(Filter),也叫核(Kernel)。由于滤波器的形状是3x3,这被称为3x3卷积。

我们通过在输入上滑动这个滤波器来执行卷积运算。在每个位置,我们都进行逐元素矩阵乘法并对结果求和。这个总和进入特征图(feature map)。卷积运算发生的绿色区域被称为感受野(receptive field)。由于滤波器的大小,感受野也是3x3。

这里的卷积核在左上角,卷积运算“4”的输出显示在结果的特征图中。
然后我们将滤波器向右滑动并执行相同的操作,将结果也添加到特征映射中。

我们继续这样做,并在特征图中聚合卷积结果。下面的动画展示了整个卷积运算。

2.2. 填充和步幅

Padding

在应用多层卷积时,我们常常丢失边缘像素。 由于我们通常使用小卷积核,因此对于任何单个卷积,我们可能只会丢失几个像素。 但随着我们应用许多连续卷积层,累积丢失的像素数就多了。 解决这个问题的简单方法即为填充(padding)

输入图像的边界填充元素(通常填充元素是0)的方法叫做填充。


先看个动画直观感受下~ 灰色的区域是填充的地方


再来看看带填充的二维互相关运算~

通常, 如果我们添加 p h p_h ph行填充 (大约一半在顶部, 一半在底部) p w p_w pw列填充(左侧大约 一半, 右侧一半), 则输出形状将为

( n h − k h + p h + 1 ) × ( n w − k w + p w + 1 ) 。 \\left(n_h-k_h+p_h+1\\right) \\times\\left(n_w-k_w+p_w+1\\right) 。 (nhkh+ph+1)×(nwkw+pw+1)
这意味着输出的高度和宽度将分别增加 p h p_h ph p w p_w pw 在许多情况下, 我们需要设置 p h = k h − 1 p_h=k_h-1 ph=kh1 p w = k w − 1 p_w=k_w-1 pw=kw1, 使输入和输出具有相同的高 度和宽度。这样可以在构建网络时更容易地预测每个图层的输出形状。假设 k h k_h kh是奇数, 我们将在高度的两侧填充 p h / 2 p_h / 2 ph/2行。如果 k h k_h kh是偶数, 则一种可能性是在输入顶部填充 ⌈ p h / 2 ⌉ \\left\\lceil p_h / 2\\right\\rceil ph/2行, 在底部填充 ⌊ p h / 2 ⌋ \\left\\lfloor p_h / 2\\right\\rfloor ph/2行。同理, 我们填充宽度的两侧。

卷积神经网络中卷积核的高度和宽度通常为奇数,例如1、3、5或7。 选择奇数的好处是,保持空间维度的同时,我们可以在顶部和底部填充相同数量的行,在左侧和右侧填充相同数量的列。

此外,对于任何二维张量X,当满足: 1. 卷积核的大小是奇数; 2. 所有边的填充行数和列数相同; 3. 输出与输入具有相同高度和宽度 则可以得出:输出Y[i, j]是通过以输X[i, j]为中心,与卷积核进行互相关计算得到的。

Stride

在计算互相关时,卷积窗口从输入张量的左上角开始,向下、向右滑动。 在前面的例子中,我们默认每次滑动一个元素。 但是,有时候为了高效计算或是缩减采样次数,卷积窗口可以跳过中间位置,每次滑动多个元素。

我们将每次滑动元素的数量称为步幅(stride)


先看个动画直观感受下~ 注意观察stride变大时,输出的特征图变小

  • stride =1
  • stride=2

再来看看不同步幅的二维互相关运算~
下图是垂直步幅为3,水平步幅为2的二维互相关运算。
着色部分是输出元素以及用于输出计算的输入和内核张量元素:0×0+0×1+1×2+2×3=8、0×0+6×1+0×2+0×3=6。

可以看到,为了计算输出中第一列的第二个元素和第一行的第二个元素,卷积窗口分别向下滑动三行和向右滑动两列。但是,当卷积窗口继续向右滑动两列时,没有输出,因为输入元素无法填充窗口(除非我们添加另一列填充)
通常, 当垂直步幅为 s h s_h sh 、水平步幅为 s w s_w sw时, 输出形状为

⌊ ( n h − k h + p h + s h ) / s h ⌋ × ⌊ ( n w − k w + p w + s w ) / s w ⌋ . \\left\\lfloor\\left(n_h-k_h+p_h+s_h\\right) / s_h\\right\\rfloor \\times\\left\\lfloor\\left(n_w-k_w+p_w+s_w\\right) / s_w\\right\\rfloor . (nhkh+ph+sh)/sh×(nwkw+pw+sw)/sw.

如果我们设置了 p h = k h − 1 p_h=k_h-1 ph=kh1 p w = k w − 1 p_w=k_w-1 pw=14深度学习-卷积(代码片段)

1.简述人工智能、机器学习和深度学习三者的联系与区别。  人工智能是最早出现的,其次是机器学习,最后是深度学习,当今人工智能大爆炸的核心驱动。        区别和联系:   2.全连接神经网络与卷积... 查看详情

卷积神经网络笔记--吴恩达深度学习课程笔记(代码片段)

各个知识点详解LeNet-5网络LetNet网络的的讲解主要参考1998年计算机科学家YannLeCun发布的一篇论文《Gradientbasedlearningappliedtodocument-recognition》大家可以找到这篇论文结合学习,针对该网络,首先大家需要了解一下图像中的常... 查看详情

深度学习聊一聊什么是卷积神经网络,卷积是什么意思?(代码片段)

​​目录卷积举个例子那么此时问:下午2点这个人体内还有什么食物?解决方法总结神经网络中的卷积像素、灰度值卷积操作思考卷积核作用平滑卷积垂直边界卷积核与水平边界卷积核卷积核在数学的运算卷积神经网络... 查看详情

最为详细的卷积神经网络笔记--吴恩达深度学习课程笔记(代码片段)

各个知识点详解LeNet-5网络LetNet网络的的讲解主要参考1998年计算机科学家YannLeCun发布的一篇论文《Gradientbasedlearningappliedtodocument-recognition》大家可以找到这篇论文结合学习,针对该网络,首先大家需要了解一下图像中的常... 查看详情

大厂必考深度学习算法面试题总结(代码片段)

...一,滤波器与卷积核二,卷积层和池化输出大小计算三,深度学习框架的张量形状格式四,Pytorch、Keras的池化层函数理解五,Pytorch和Keras的卷积层函数理解六,softmax回归七,交叉熵损失函数八,感受野理解九,卷积和池化操作... 查看详情

14深度学习-卷积(代码片段)

1.简述人工智能、机器学习和深度学习三者的联系与区别。 联系:深度学习使得机器学习能够实现众多应用,并拓展了人工智能的领域范畴。区别:人工智能是目的,是结果;深度学习、机器学习是方法,是工具;深度学习... 查看详情

14深度学习-卷积(代码片段)

1.简述人工智能、机器学习和深度学习三者的联系与区别。(1)人工智能是目的,是结果;深度学习、机器学习是方法,是工具;(2)机器学习,一种实现人工智能的方法;机器学习都可以被精准地定义为:1、任务T;2、训练... 查看详情

机器学习十四--深度学习-卷积(代码片段)

1.简述人工智能、机器学习和深度学习三者的联系与区别。2.全连接神经网络与卷积神经网络的联系与区别。3.理解卷积计算。以digit0为例,进行手工演算。fromsklearn.datasetsimportload_digits#小数据集8*8digits=load_digits()00513910000131510155003... 查看详情

机器学习12卷积神经网络(代码片段)

1.简述人工智能、机器学习和深度学习三者的联系与区别。答:人工智能是目的,是结果;机器学习、深度学习是方法,是工具。机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习的技术。 2.全连接神经网... 查看详情

14深度学习-卷积(代码片段)

1.简述人工智能、机器学习和深度学习三者的联系与区别。答:人工智能是最早出现的,也是最大、最外侧的同心圆;其次是机器学习,稍晚一点;最内侧,是深度学习,也是当今人工智能大爆炸的核心驱动。 人工智能是目... 查看详情

第十四节,tensorflow中的反卷积,反池化操作以及gradients的使用(代码片段)

...中,反卷积更多的是充当可视化的作用,对于一个复杂的深度卷积网络,通过每层若干个卷积核的变换,我们无法 查看详情

深度学习之卷积神经网络理论详解(代码片段)

LeNet-5网络LetNet网络的的讲解主要参考1998年计算机科学家YannLeCun发布的一篇论文《Gradientbasedlearningappliedtodocument-recognition》大家可以找到这篇论文结合学习,针对该网络,首先大家需要了解一下图像中的常用操作卷积,... 查看详情

三维几何学习从零开始网格上的深度学习-2:卷积网络cnn篇(pytorch)(代码片段)

...赛道:https://bbs.csdn.net/topics/613989052从零开始网格上的深度学习-2:卷积网络CNN篇引言一、概述1.1卷积操作简述1.2网格上的面卷积二、核心代码2.1面卷积2.2网络框架三、基于CNN的网格分类3.1分类结果3.2全部代码引言本文主要内容... 查看详情

深度学习基础:8.卷积与池化(代码片段)

从本篇开始,将进入到深度学习的计算机视觉领域,在此之前有必要对传统图像处理方法做个回顾。传统图像处理在我的【计算机视觉】基础图像知识点整理和【计算机视觉】数字图像处理基础知识题这两篇博文中,... 查看详情

深度学习卷积神经网络(代码片段)

目录1CNN网络的构成2卷积层2.1卷积的计算方法2.2padding(填充)2.3stride(步长)2.4多通道卷积2.5多卷积核卷积2.6特征图大小3池化层(Pooling)3.1最大池化3.2平均池化4全连接层5卷积神经网络的构建5.1数据加载5.2数据处理5... 查看详情

「深度学习一遍过」必修14:基于pytorch研究深度可分离卷积与正常卷积的性能差异(代码片段)

本专栏用于记录关于深度学习的笔记,不光方便自己复习与查阅,同时也希望能给您解决一些关于深度学习的相关问题,并提供一些微不足道的人工神经网络模型设计思路。专栏地址:「深度学习一遍过」必修篇... 查看详情

深度学习-conv卷积(代码片段)

过滤器(卷积核)传统的图像过滤器算子有以下几种:blurkernel:减少相邻像素的差异,使图像变平滑。sobel:显示相邻元素在特定方向上的差异。sharpen:强化相邻像素的差异,使图片看起来更生动。outline:也称为edgekernel,相邻像素... 查看详情

深度学习-alexnet(第一个深度卷积网络)(代码片段)

...分享一下给大家。点击跳转到网站。简介AlexNet是第一个深度卷积网络模型,赢得了2012年ImageNet图像分类竞赛的冠军,自98年的LeNet后再次将深度学习研究引热,创造性的提出了很多方法且影响至今& 查看详情