什么是过拟合

已删除ddd 已删除ddd     2022-12-11     133

关键词:

原文链接,纯属笔记

过拟合很好理解,今天在知乎上看到eyounx这么解释,挺形象的,大致是这么个说法:在机器学习中,我们提高了在训练数据集上的表现力时,在测试数据集上的表现力反而下降了,这就是过拟合。

  过拟合发生的本质原因,是由于监督学习的不适定性。比如我们再学习线性代数时,给出n个线性无关的方程,我们可以解出来n个变量,但是肯定解不出来n+1个变量。在机器学习中,如果数据(对应于方程)远小于模型空间(对应求解的变量),那么,就容易发生过拟合现象。

  所以说,有限的训练数据并不能反映出一个模型的好坏,然而我们却不得不根据这有限个数据来挑选模型。因此,我们完全有可能挑选出在训练数据上表现很好,但是在测试集上表现很差的模型。因为在进行测试之前,我们并无法知道模型在测试数据上的表现。如果模型空间很大,也就是说有很多模型供我们挑选,那么,我们挑选对的模型的概率就会下降。但与此同时,如果想在训练集上表现良好,最直接的办法就是在足够大的模型空间中挑选模型,如果模型空间太小,我们就很难挑选出将训练集拟合的很好的模型。综上所述,如果想要拟合好训练数据,就需要足够大的空间模型。但是,如果模空间太大,挑选到好的模型的概率就会下降。因此,就会出现过拟合现象。

  对于过拟合现象,有多种解释。

(1)经典的bias-variance decomposition.比较直观

(2)PAC-learning泛化界解释。我个人更倾向这个

(3)Bayes先验解释。

什么是过拟合?如何避免过拟合问题?

参考技术A过拟合:所选模型的复杂度比真模型更高;学习时选择的模型所包含的参数过多,对已经数据预测得很好,但是对未知数据预测得很差的现象.过拟合一般特点:高方差,低偏差;导致过拟合原因:训练数据不够,模型进行过度训练... 查看详情

l1正则化和l2正则化(从解空间角度)

文章目录一、什么是过拟合?二、为什么模型会过拟合?三、如何防止模型过拟合?四、L1正则和L2正则4.1L1、L2的区别4.2为什么正则化能够防止过拟合?4.3为什么L1正则具有稀疏性或者说L1正则能够进行特征选择... 查看详情

机器学习:过拟合欠拟合正则化之间的纸短情长~(代码片段)

机器学习:过拟合与欠拟合是如何被解决的?什么是过拟合与欠拟合过拟合欠拟合如何解决过拟合L2正则化(权重衰减)代码实现降维采用合适的模型数据增强如何解决欠拟合什么是过拟合与欠拟合机器学习的主... 查看详情

tensorflowmnist手写数字识别之过拟合

1.过拟合overfitting问题什么是过拟合呢?用实际生活中的一个例子来比喻一下过拟合现象.说白了,就是机器学习模型于自信.已经到了自负的阶段了.那自负的坏处,大家也知道,就是在自己的小圈子里表现非凡,不过在现实的大圈子里... 查看详情

模型发生过拟合了怎么办?分享一个调参实例(代码片段)

文章目录1什么是过拟合2一个过拟合模型3处理上述过拟合3.1减少网络容量3.2使用正则化3.3Dropout4总结1什么是过拟合过拟合:当你的模型拟合的很好,但在新的,未见过的数据上不能很好地泛化时,就发生了过拟合... 查看详情

过拟合原因

1.1 什么是过拟合所谓过拟合(Overfit),是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfit的现象。如上图所... 查看详情

机器学习七——逻辑回归实践(代码片段)

1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下)什么是过拟合?关于这个百度了一下,知乎上有一些很有趣的回答(https://www.zhihu.com/question/32246256)就像是我们高三在刷题的过程中,... 查看详情

过拟合和欠拟合

...寻找假设的过程中可能会出现过拟合和欠拟合的现象,那什么是过拟合和欠拟合呢?  我们客观上认为,给定一个假设空间H,一个假设a∈H,如果存在其他的假设α∈H,使得在训练样例上a的错误率比α的小,但在整个实例... 查看详情

6.逻辑归回(代码片段)

6.逻辑归回1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同?逻辑回归是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。线性回归要求因变量必须是连续性数据变量;... 查看详情

逻辑回归

1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同?逻辑回归和线性回归都是通过把一系列数据点预测计算出一条合适的“线”,将新的数据点映射到这条预测的“线”上,继而做出预测。2.自... 查看详情

machinelearning之logisticregression

...示decisionboundary损失函数多分类问题过拟合问题和正则化什么是过拟合如何解决过拟合正则化方法 1、二分类问题什么是二分类问题?垃圾邮件/非垃圾邮件?诈骗网站/非诈骗网站?恶性肿瘤/非恶性肿瘤?用表达式来表示:$y\i... 查看详情

l1正则化和l2正则化(从解空间角度)

文章目录一、什么是过拟合?二、为什么模型会过拟合?三、如何防止模型过拟合?四、L1正则和L2正则4.1L1、L2的区别4.2为什么正则化能够防止过拟合?4.3为什么L1正则具有稀疏性或者说L1正则能够进行特征选择... 查看详情

过拟合(overfitting)

...!你掉进了机器学习中常见的一个大坑——过拟合。什么是过拟合呢?机器学习本质上是通过建立数据模型,使其和现有数据相吻合,从而找到数据中内在的规律。如下面三张图& 查看详情

6.逻辑归回

1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同?答:逻辑回归(LogisticRegression)是一种用于解决二分类(0or1)问题的机器学习方法,用于估计某种事物的可能性。本质上讲,逻辑回归处理的是分类问题... 查看详情

一份深度学习相关的面试题

...就是说,是该元素的指数,与所有元素指数和的比值2、什么是过拟合?防止过拟合有哪些措施? 3、对于二分类问题,分别描述逻辑回归、朴素贝叶斯、KNN算法。它们的优劣势是什么?他们自身有什么过拟合的能力? 4、... 查看详情

莫烦sklearn学习自修第八天过拟合问题(代码片段)

1.什么是过拟合问题所谓过拟合问题指的是使用训练样本进行训练时100%正确分类或规划,当使用测试样本时则不能正确分类和规划 2.代码实战(模拟过拟合问题)from__future__importprint_functionfromsklearn.learning_curveimportlearning_curvefr... 查看详情

机器学习过拟合和欠拟合怎么判断,如何解决?(面试回答)

...:训练集误差和验证集误差,从而判断算法达到什么效果训练误差大和验证误差都大,是欠拟合训练误差和验证误差差不多,都较低,是适度拟合训练误差小,验证误差大,是过拟合(2)过拟... 查看详情

机器学习6逻辑归回

1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归是一种广义的线性回归分析模型,它的输入可以连续型输入,输出为离场型输出;区别:线性回归要求因变量必须是连续性数据变量;逻辑... 查看详情