机器学习笔记invariance&dataaugmentation

UQI-LIUWJ UQI-LIUWJ     2023-01-07     594

关键词:

Invariance vs. Sensitivity

无论是对于图像、文本还是视频,我们都希望找到好的向量表示

好的向量表示需要对我们任务所关心的特征敏感:

  • 动物识别问题中,动物的品种就是一个值得关心的特征
  • 语音识别中,音素(区分词的最小单位)就是一个值得关心的特征

好的特征也需要对任务所不关心的特征保持不变性:

  • 动物识别问题中,动物的位置、背景颜色、动物的动作等,应该不关心,需要保持不变性
  • 语音识别问题中,口音方言应该不关心,需要保持不变性

Inductive Bia 归纳偏差

Induction learning from data

归纳偏差是指模型和学习算法倾向于学习某些类型的函数。

比如CNN倾向于平移不变性、SGD倾向于flat minimum

机器学习笔记:CNN卷积神经网络_UQI-LIUWJ的博客-CSDN博客_cnn卷积神经网络

 3 数据增强 data augmentation

使得input处于同一分布,同时保证label不变

3.1 数据增强的好处

  • 帮助网络学习更鲁棒和不变的特征
  • 它创造了更多的数据。更多的数据是好的,如果它们和我们期望在未来看到的数据分布一致。

4 数据增强举例

4.1 水平翻转

 

4.1.1 为什么鲜有垂直翻折 ?

我们先看一般性的情况,垂直翻折只是其中的特例

一开始,数据很少,因此我们可能会有很多可能的分界线

如果我们使用数据增强,获得了很多同分布或者相似分布的数据,那么我们可以减少我们分界线的选择 

 但是如果我们数据增强获得的数据和原来已有的训练数据分布不同,那么我们可能会得到不正确的分界线

 而我们的图片一般都是正着拍的,所以如果我们垂直翻转图片,会影响整体图片的分布,可能会导致不正确的分界线。

4.2  Cropping 裁剪

通过随机裁剪和调整比例,可以帮助网络识别大小略有不同的目标。

平移和遮挡的不变性

4.3 旋转 rotation

旋转和朝向的不变性

4.4 颜色抖动

•模拟光照变化和白平衡问题

4.5   cutout

随机去除一部分的像素(一般是一个长方形形状的像素)

为了更好地保持整体图像的平均值,我们可以将去除的像素点设置为各channel上的均值

cutout的作用是来模拟遮挡,同时可以让模型只关注于某一部分之外其它部分的特征

比如这张图,我们就可以说,模型考虑的是狗的眼睛之外的其他特征

 

机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)

http://www.cnblogs.com/tornadomeet/p/3395593.html机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)   前言:  找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算... 查看详情

斯坦福大学andrewng-机器学习笔记--聚类&降维

  大概用了一个月,AndrewNg老师的机器学习视频断断续续看完了,以下是个人学习笔记,入门级别,权当总结。笔记难免有遗漏和误解,欢迎讨论。  鸣谢:中国海洋大学黄海广博士提供课程视频和个人笔记,在此深表感谢... 查看详情

李宏毅2020机器学习深度学习笔记1+2&&深度学习基础与实践课程笔记2

机器学习:研究如何从观测数据(observations)中寻找“规律”(skill),这些规律可以在未知数据上的表现有所改进。目的:使用“高质量”的训练数据,构建“合适”的模型,以“更佳地”完成任务。本质:让... 查看详情

斯坦福大学andrewng-机器学习笔记--逻辑回归&正则化

  大概用了一个月,AndrewNg老师的机器学习视频断断续续看完了,以下是个人学习笔记,入门级别,权当总结。笔记难免有遗漏和误解,欢迎讨论。  鸣谢:中国海洋大学黄海广博士提供课程视频和个人笔记,在此深表感谢... 查看详情

机器学习numpy&pandas快速入门笔记

Numpy&Pandas 快速入门笔记XuAn  2018-4-6######Numpy部分######1、创建arrayimport numpy as npa=np.array([[2,23,4],[21,3,43],[34,43,234]],dtype=np.int32)  #创建矩阵 使用dty 查看详情

斯坦福大学andrewng-机器学习笔记--单变量&多变量线性回归

  大概用了一个月,AndrewNg老师的机器学习视频断断续续看完了,以下是个人学习笔记,入门级别,权当总结。笔记难免有遗漏和误解,欢迎讨论。  鸣谢:中国海洋大学黄海广博士提供课程视频和个人笔记,在此深表感谢... 查看详情

机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)

...:  找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗... 查看详情

机器学习笔记:参数&超参数

1参数简单来说,模型参数就是模型内部的配置变量1.1参数的特征具体来讲,模型参数有以下特征:(1)进行模型预测时需要模型参数(2)模型参数值可以定义模型功能(3)模型参数用数据估... 查看详情

机器学习笔记(washingtonuniversity)-classificationspecialization-weekone&weektwo

1.LinearclassifierItwillusetrainingdatatolearnaweightorcoefficientforeachword.Weusethegradientascenttofindthebestmodelwiththehighestlikelihood. 2.SigmoidfunctionHowcanwemaptheoutputvalueofscore(- 查看详情

机器学习前沿02

自动机器学习https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_9244479631915180647%22%7D&n_type=1&p_from=3卷积网络的综述https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_9796916042393661444%22%7D&n_type=0&p_from=... 查看详情

机器学习笔记(washingtonuniversity)-clusteringspecialization-weekone&weektwo

,1.OnenearestneighborInput:  Queryarticle:Xq  Corpusofdocuments(Ndocs):(X1,X2,X3,...,XN)output:  XNN=mindisance(Xq,Xi) 2.K-NNAlgorithm#listofsorteddistancesmallest_distances=sort(σ1,σ2...σk)#list 查看详情

机器学习笔记(washingtonuniversity)-classificationspecialization-weeksix&week7

1.Precisoinandrecallprecisionishowpreciseiamatshowinggoodstuffonmywebsiterecallishowgoodiamatfindallthepostivereviews  Predictedy=1Predictedy=-1Truelabel= 1truepositivefalsenegativeTrue 查看详情

机器学习基石笔记综述

课程定位:注重基础、故事性 机器学习定义:data-Algo-improve 机器学习使用条件1、有优化的目标,可量化的。2、规则不容易写下来,需要学习。3、要有数据 一个可能的推荐系统:skill:预测用户给电影的打分用户的各... 查看详情

机器学习实验笔记-基于信用卡数据建立行为评分模型的机器学习方法

基于信用卡数据建立行为评分模型的机器学习方法很久之前的一个答疑,应该不会再影响评分了,记录以供复习.数据集与代码放在CSDN下载区域,也可以留言索要.https://download.csdn.net/download/lagoon_lala/87636214目录数据预处理读取数据数... 查看详情

机器学习笔记:误差的来源(bias&variance)

1bias&variance简单的模型——bias大,variance小复杂的模型——bias小,variance大2variance3bias黑线——实际的曲线蓝线——我们预测的曲线4 biasv.s.variance  如果你的模型在训练集上误差都很大,那么此时模型应该是欠拟... 查看详情

机器学习实战个人笔记

1fromnumpyimport*2importoperator3importmath45defcreateDataSet():6group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])7labels=[‘A‘,‘A‘,‘B‘,‘B‘]8returngroup,labels9defclassify0(inX,dataSet,labels,k):10dataS 查看详情

scikit-learn&tensorflow与吴恩达机器学习双修笔记——创建工作区

 本编者为机器学习的广大初学者之一,在机器学习实践此书以及吴恩达老师视频教育下,本人决定将其定期写成笔记(笔记更新进度与速度为学习进度与速度的四分之一),辅助自身学习的同时也来帮助和我... 查看详情

机器学习随手笔记(代码片段)

信息价值IV计算案例:#_*_coding:utf-8_*_#@Time:2022/5/819:57fromnumpyimportlogfrompandasimportDataFrameasdfimportpandasaspddefcreateDateset():dataSet=[[0,1,1],[0,0,0],[0,1,0],[1,0,1],[1,0,0],[1,1,1],[0,1,1],[1,1,1],[1,0,1],[1,0,1]]returndataSetdefcalcWOE(dataset,col,targe):subda... 查看详情