什么是机器学习中的过拟合和噪声?

     2023-03-12     232

关键词:

【中文标题】什么是机器学习中的过拟合和噪声?【英文标题】:What are overfitting and noise in machine learning? 【发布时间】:2017-12-17 03:31:30 【问题描述】:

谁能解释 ML 中的过度拟合和噪声是什么? 这会发生在参数分类器中吗?如何知道模型是否过度拟合数据?

【问题讨论】:

有时我想知道你们是如何在谷歌之前找到***的。过度拟合是 ML 中非常基本的概念,简单的 Google 搜索会带来过多的结果。话虽如此,请查看答案。 SO 用于编程问答,要了解更多关于 ML 的信息,请参阅 course,这是一个很好的介绍。 【参考方案1】:

过度拟合是指具有预测能力的模型过度拟合训练数据的情况。当引入新的测试数据时,这样的模型将产生非常模糊的结果。在这里,训练误差将非常低,因为模型已经调整并调整了自身以适应训练数据处于非常适应的位置。将自身变成低训练误差现象的情况称为低偏差。同样,当引入测试数据时,由于上述条件,测试数据中的错误度量会非常高。这种模型称为高方差模型。

相反,欠拟合是您的模型在训练数据本身中的拟合非常差的情况,这使其本身被称为高偏差。不能期望这样的模型在测试数据中也能提供良好的准确性。该模型在拟合测试数据时误差较大,也可以称为高方差模型。

通常我们期望一个好的模型总是低偏差/低方差模型。

有很多方法可以减少过度拟合,但其中很多都是特定于模型的特性的——

· 弹性网法(回归)

· 套索方法(回归)

· 岭方法(回归)

· RELU 激活函数(神经网络)

· 减少隐藏层的数量(神经网络)

· 剪枝(决策树回归和分类)

没有明确的方法来减少欠拟合,但理论上,如果您非常仔细地选择过程特征,则可以移除欠拟合,因为模型总是会尝试使其自身变得过拟合而不是欠拟合。

如果数据太模糊,如果没有做适当的EDA,也会导致欠拟合。因此,始终建议在任何机器学习过程之前进行适当的 eda。

是的,参数分类器也会出现这种情况。

你可以通过一些评估指标来检测过拟合-

如果是回归,则 R Squared、Adj R Squared、RMSE、MAE 等指标会过高。 如果是分类,那么准确度、精度等指标会太高。

【讨论】:

【参考方案2】:

在 ML 中,过拟合意味着模型在训练数据上表现良好,但对新数据的泛化效果不佳。当模型相对于训练数据的数量和噪声而言过于复杂时,就会发生这种情况。那么,你怎么知道你过拟合了你的数据呢?建立模型后,根据训练集对其进行测试,并获得出色的结果。但是,当您针对测试集或现实生活进行测试时,预测的准确性会非常低。因此,是时候采取纠正措施了。可以的,

通过减少训练数据中的属性数量来简化模型 收集更多训练数据 减少训练数据中的噪音。

是的,任何参数模型都可能发生过拟合。

【讨论】:

过拟合可能发生在任何模型中,无论它是否是参数化的。

机器学习算法中的过拟合与欠拟合

在机器学习表现不佳的原因要么是过度拟合或欠拟合数据。机器学习中的逼近目标函数过程监督式机器学习通常理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y).Y=f(X)Y=f(X)这种特性描述可以用于定义分类和预... 查看详情

机器学习中的过拟合问题

机器学习中的过拟合问题相关内容:1、 R语言︱ROC曲线——分类器的性能表现评价 2、机器学习中的过拟合问题3、R语言︱机器学习模型评估方案(以随机森林算法为例)  ——————————————————... 查看详情

机器学习中用来防止过拟合的方法有哪些?

是什么过拟合(overfitting)是指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时,复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。具体表现就是最终模型在训练集上效果好;在测试集上... 查看详情

如何降低神经网络模型的过拟合和欠拟合?

...(L1/L2)(2)momentium:添加动量(主要是指梯度)(3)learningratedecay(学习率衰减方式1/2)(4)earlystopping(5)dropout (6)SGD:随机梯度下降法  查看详情

机器为什么可以学习---错误和噪声

...噪声,本次课程讨论在错误和噪声存在的情况下,机器为什么还可以学习?    在噪声和错误存在的请款下,vcbound如何进行放缩使得学习在理论上是可行。 2、噪声存 查看详情

在ad和da转换中的过采样和噪声形成

1.直接量化的过采样AD转换此类系统的模型可以用下图表示。图中xa(t)是输入信号,e(t)是量化引入的噪声,xd[n]是最终得到的数字信号,包含分量xda和xde。 查看详情

偏差和方差

偏差(Bias)与方差(Variance)目录:为什么会有偏差和方差?偏差、方差、噪声是什么?泛化误差、偏差和方差的关系?用图形解释偏差和方差。偏差、方差窘境。偏差、方差与过拟合、欠拟合的关系?偏差、方差与模型复杂度... 查看详情

机器学习基本问题

如何解决过拟合问题过拟合:为了得到一致假设而使假设变得过度复杂称为过拟合。过拟合的产生原因: 1)由于对样本数据,可能存在隐单元的表示不唯一,即产生的分类的决策面不唯一。2)权值学习迭代次数足够多,拟... 查看详情

过拟合及解决方案

参考技术A是什么过拟合(overfitting)是指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时,复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。具体表现就是最终模型在训练集上效果好;在... 查看详情

如何识别 Python 中的过拟合和欠拟合

】如何识别Python中的过拟合和欠拟合【英文标题】:HowtorecognizeOverfittingandunderfittinginPython【发布时间】:2019-02-0817:39:03【问题描述】:我有一个回归模型。我写了这个算法的代码:将训练数据随机分成10个,分成训练数据和验证... 查看详情

理解机器学习中的偏差与方差

...来看待这两个词:偏差.这里的偏指的是偏离,那么它偏离了什么到导致了误差?潜意识上,当谈到这个 查看详情

机器学习中的模型选择和评估(代码片段)

机器学习中的模型选择和评估1.介绍2.模型拟合效果2.1欠拟合与过拟合表现方式2.2避免欠拟合与过拟合的方法3.实例分析3.1鸢尾花数据集3.2对鸢尾花数据进行聚类1.介绍在机器学习系统中,如何训练出更好的模型、如何判断模... 查看详情

第17章发现过拟合和欠拟合

.../精确度曲线上,这个对于第一次以本书来学习深度学习/机器学习且之前还没有面对过拟合和欠拟合时是特别有用的。   &nb 查看详情

机器学习笔记正则化

一、过拟合问题分类模型复杂、数据资料含有噪声、数据量少的情况下能发生过拟合的现象,对于不同的模型复杂度,随着资料量的增大,模型的Ein和Eout变化为:噪声、模型复杂度与数据资料量三者对于过拟合的影响:二、正... 查看详情

python机器学习中的模型选择和评估(代码片段)

机器学习中的模型选择和评估1.介绍2.模型拟合效果2.1欠拟合与过拟合表现方式2.2避免欠拟合与过拟合的方法3.实例分析3.1鸢尾花数据集3.2对鸢尾花数据进行聚类1.介绍在机器学习系统中,如何训练出更好的模型、如何判断模... 查看详情

机器学习理论知识部分--偏差方差平衡(bias-variancetradeoff)

摘要:  1.常见问题    1.1什么是偏差与方差?    1.2为什么会产生过拟合,有哪些方法可以预防或克服过拟合?  2.模型选择  3.特征选择  4.特征工程与数据预处理内容:1.常见问题  1.1什么是偏差与方差... 查看详情

机器学习:过拟合与正则化

过拟合的定义:过拟合是指模型过度拟合训练集,学到训练集中过多的噪音或随机波动,导致模型泛化能力差的情况。它表现为在训练集上表现良好,在测试集上表现差。解决方法:1.重新清洗数据,导致过拟合的一个原因也有可... 查看详情

机器学习实战精读--------回归

回归的目的是预测数值型的目标值神经网络学习机理:分解和整合回归:求回归系数的过程最小二乘法:它的主要思想就是选择未知参数,使得理论值与观测值之差的平方和达到最小欠拟合:模型没有很好地捕捉到数据特征,不... 查看详情