机器学习中的过拟合减少

     2023-03-12     196

关键词:

【中文标题】机器学习中的过拟合减少【英文标题】:overfitting reduction in machine learning 【发布时间】:2018-08-16 00:32:11 【问题描述】:

伙计们,我正在通过 andrew ng 的 coursera 进行机器学习。在其中一场讲座中,他描述了我们如何通过修改成本函数来防止过度拟合。我的问题是在下面的代码中,我们最后添加了两个项并减少了 theta3 和 theta4 的值。那么为什么我们要精确地添加这些项,我的意思是我们可以只减少 theta3 和 theta4 的值,它会减少我们的成本函数的值。

minθ 1/2m∑mi=1(hθ(x(i))−y(i))^2+1000*(θ3)^2+1000*(θ4)^2

【问题讨论】:

【参考方案1】:

通常当我们想要拟合模型时,尝试添加尽可能多的特征以尝试找到从特征到预期输出的映射是很直观的。添加太多特征,尤其是非线性特征,可能会使数据过拟合。

因此,正则化(在这种情况下为岭回归)允许我们保留所有参数,但确保它们的大小尽可能小,以确保拟合参数的总体成本函数输出较低。由于参数的幅度较小,这会强制执行更简单的预测模型,以便它可以更好地泛化到模型以前从未见过的新输入。

如您所见,您的损失函数现在包含两个元素。第一组项是标准项,我们将预测值和期望值之间的误差平方和最小化。第二组术语称为正则化术语。它可能看起来很奇怪,但确实有道理。这对平方参数求和并将其乘以另一个参数,通常是 λ 但在您的情况下,您将其设置为 1000。这样做的原因是“惩罚”高参数值的损失函数。从我之前所说的来看,简单模型比复杂模型要好,通常不会过拟合。因此,我们需要尽量简化模型。请记住,找到这些参数值的过程是通过梯度下降,这是一个迭代过程以最小化损失函数。通过惩罚参数值,我们添加了一个约束来尽可能地最小化它们。

λ 因此是一个超参数,应该进行调整。使值太小将是过度拟合的症状。使该值太大意味着您要使所有参数的权重都变小以确保最小化成本函数,这意味着您将欠拟合。找到适用于成本函数中每个平方参数项的正确值需要进行实验并查看成本函数随时间变化的趋势。您选择正确的平衡点,不会收敛太快,但同时成本函数输出尽可能低。

作为进一步的阅读,这个链接提供了一些关于正则化如何工作的更多直觉,它涵盖了岭回归和 LASSO 回归,其中不是平方参数的总和,而是绝对参数的总和。

https://codingstartups.com/practical-machine-learning-ridge-regression-vs-lasso/

【讨论】:

什么是机器学习中的过拟合和噪声?

】什么是机器学习中的过拟合和噪声?【英文标题】:Whatareoverfittingandnoiseinmachinelearning?【发布时间】:2017-12-1703:31:30【问题描述】:谁能解释ML中的过度拟合和噪声是什么?这会发生在参数分类器中吗?如何知道模型是否过度... 查看详情

机器学习算法中的过拟合与欠拟合

在机器学习表现不佳的原因要么是过度拟合或欠拟合数据。机器学习中的逼近目标函数过程监督式机器学习通常理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y).Y=f(X)Y=f(X)这种特性描述可以用于定义分类和预... 查看详情

减少神经网络中的过拟合

】减少神经网络中的过拟合【英文标题】:Reduceover-fittinginneuralnetwork【发布时间】:2017-11-2700:18:00【问题描述】:我编写了一个小型神经网络,用于对汽车和非汽车图像进行分类。我需要帮助来避免过度拟合。模型如下图:model=... 查看详情

机器学习基本问题

如何解决过拟合问题过拟合:为了得到一致假设而使假设变得过度复杂称为过拟合。过拟合的产生原因: 1)由于对样本数据,可能存在隐单元的表示不唯一,即产生的分类的决策面不唯一。2)权值学习迭代次数足够多,拟... 查看详情

如何降低神经网络模型的过拟合和欠拟合?

...(L1/L2)(2)momentium:添加动量(主要是指梯度)(3)learningratedecay(学习率衰减方式1/2)(4)earlystopping(5)dropout (6)SGD:随机梯度下降法  查看详情

机器学习中的过度拟合术语

】机器学习中的过度拟合术语【英文标题】:OverfittingterminologyinMachineLearning【发布时间】:2019-01-0600:58:30【问题描述】:在第50页的IntroductiontoMachineLearningwithPython书中,作者正在对数据集执行线性回归并得到:trainingsetscore:0.67test... 查看详情

数学模型的过拟合和欠拟合

1.过拟合1.1产生原因训练集中的数据抽取错误,太少,或者不均衡,不足以有效代表业务逻辑或场景;训练集中的数据噪音(异常值)干扰过大;训练模型的“逻辑假设“到了模型应用时已经不能成立参数太多,模型复杂度太高... 查看详情

如何识别 Python 中的过拟合和欠拟合

】如何识别Python中的过拟合和欠拟合【英文标题】:HowtorecognizeOverfittingandunderfittinginPython【发布时间】:2019-02-0817:39:03【问题描述】:我有一个回归模型。我写了这个算法的代码:将训练数据随机分成10个,分成训练数据和验证... 查看详情

机器学习基础---过拟合问题及正则化技术(代码片段)

...够有效地解决许多问题,但是当将它们应用到某些特定的机器学习应用时,会遇到过拟合(over-fitting)的问题,可能会导致它们效果很差。一:过度拟合问题(一)线性回归中的过拟合问题继续使用线性回归来预测房价的例子,我... 查看详情

sklearn多种模型的学习曲线拟合中的特性与运行速度(机器学习)

查看详情

Tensorflow 对象检测 API 中的过拟合

】Tensorflow对象检测API中的过拟合【英文标题】:OverfittinginTensorflowObjectdetectionAPI【发布时间】:2020-06-1623:11:03【问题描述】:我正在自定义数据集(即车牌数据集)上训练tensorflow对象检测API模型。我的目标是使用tensorflowlite将此... 查看详情

在调整参数时识别交叉验证的 SVM 中的过拟合

】在调整参数时识别交叉验证的SVM中的过拟合【英文标题】:IdentifyingoverfittinginacrossvalidatedSVMwhentuningparameters【发布时间】:2016-07-0107:46:36【问题描述】:我有一个使用gridsearchcv调整的rbfSVM。如何判断我的好结果实际上是好结果... 查看详情

机器学习中的模型选择和评估(代码片段)

机器学习中的模型选择和评估1.介绍2.模型拟合效果2.1欠拟合与过拟合表现方式2.2避免欠拟合与过拟合的方法3.实例分析3.1鸢尾花数据集3.2对鸢尾花数据进行聚类1.介绍在机器学习系统中,如何训练出更好的模型、如何判断模... 查看详情

机器学习中的数学原理——过拟合正则化与惩罚函数

...白什么是过拟合、正则化、惩罚函数。这个专栏名为白话机器学习中数学学习笔记,主要是用来分享一下我在机器学习中的学习笔记及一些感悟,也希望对你的学习有帮助哦!感兴趣的小伙伴欢迎私信或者评论区留言... 查看详情

python机器学习中的模型选择和评估(代码片段)

机器学习中的模型选择和评估1.介绍2.模型拟合效果2.1欠拟合与过拟合表现方式2.2避免欠拟合与过拟合的方法3.实例分析3.1鸢尾花数据集3.2对鸢尾花数据进行聚类1.介绍在机器学习系统中,如何训练出更好的模型、如何判断模... 查看详情

第17章发现过拟合和欠拟合

.../精确度曲线上,这个对于第一次以本书来学习深度学习/机器学习且之前还没有面对过拟合和欠拟合时是特别有用的。   &nb 查看详情

coursera机器学习week7单元测试

SupportVectorMachines欠拟合,增大C,减小δ2,所以选C选D安全因子,选BC欠拟合问题,选ABC,减少训练数据更会欠拟合D,逻辑回归是凸函数,不存在局部最小选CDA错误B应该训练K个  查看详情

吴恩达“机器学习”——学习笔记二

定义一些名词欠拟合(underfitting):数据中的某些成分未被捕获到,比如拟合结果是二次函数,结果才只拟合出了一次函数。过拟合(overfitting):使用过量的特征集合,使模型过于复杂。参数学习算法(parametriclearningalgorithms)... 查看详情