《图解机器学习-杉山将著》读书笔记---ch5

卫小作 卫小作     2022-08-15     690

关键词:

CH5 稀疏学习

重点提炼

提出稀疏学习的缘故:

虽然带有约束条件的最小二乘学习法结合交叉验证法,在实际应用中是非常有效的回归方法,但是,当参数特别多时,计算参数以及预测值需要大量时间。此时,我们要解决这个问题。

稀疏学习思路:

把大部分参数都设置为0,这样就能快速计算参数以及预测值。     

L1约束的最小二乘学习法:

公式     

 

求解得到参数theta

 

代码实现的流程图

 

通过稀疏学习进行特征选择

1.“一个特征一个特征地依次减少的向后删除法”以及“一个一个特征地依次增加的向前选择法”提出的原因:在d各特征值中做特征选择,就需要事先对2^d次维组合的优劣进行评估,计算时间是以输入维数d为基数指数级增长的。所以会提出前向选择法以及后向删除法。

2.通过稀疏学习进行特征选择的优势:比起“一个特征一个特征地依次减少的向后删除法”以及“一个一个特征地依次增加的向前选择法”,l1约束的稀疏学习做特征选择,可以在一定程度上考虑到各个特征之间的相互联系,在实际应用中,往往能得到更好的特征组合。

3.举例:

 

lp约束的最小二乘学习法

1.lp约束的最小二乘学习法中的约束条件:是更为普遍的条件,是p大于等于0lp范数约束方法

2.公式:

 

3.最优解:当p=1时,是稀疏解存在的唯一凸形

l1+l2约束的最小二乘学习法/弹性网回归学习法

1.提出的原因:l1约束的最小二乘学习法的局限性:

① 当参数b>训练样本数n时,l1约束最小二乘学习法的非0参数个数最多为n

② 当参数b<训练样本数n时,l1约束最小二乘学习法的通用性能比l2约束的最小二乘学习法稍差

2.解决方法:利用l1+l2范数的凸结合来进行约束

P49

通过运行代码学习

初始化50个参数

 

t-t0的绝对值<0.001时这个循环就结束

 

结果:与p42l2约束的最小二乘学习法结合交叉验证方法得到的拟合曲线结果没有太大差别。可是在这过程中,l1约束的最小二乘学习法不用像p42中的l2约束+交叉验证要跑完所有的循环,而只需要设定一个收敛值,小于这个收敛值就可以跳出循环了。

为什么书中说参数大多是0?现在还不理解,因为代码变量追踪,t中并没有很多参数<0.001即等于0

 P49

补充知识来理解书上内容

Matlab pinv函数

 

Matlab diag函数

 

 

《机器学习系统设计》读书笔记

1、scipy中的工具包如下:(会用到的有:stats、interpolate、cluster、signal)  查看详情

《机器学习》读书笔记一序言部分

...考文档:http://www.a-site.cn/article/429982.html《陆汝铃:六问机器学习》  参考文献:《机器学习》---周志华    文章摘自《机器学习》序言部分  在人工智能发展早期,机器学习技术内涵几乎全部是符号学习,从二十世纪... 查看详情

《python深度学习》第一章读书笔记

...深度学习》读书笔记第一章什么是深度学习1.1人工智能、机器学习与深度学习人工智能的简洁定义:努力将通常由人类完成的智力任务自动化。机器学习与数理统计密切相关。机器学习(尤其是深度学习)呈现出相对较少的数学理论... 查看详情

算法作业13——《算法图解》读书笔记

《算法图解》读书笔记本书作者:AdityaBhargava目录:第一章:二分查找;时间复杂度计算第二章:数组和链表第三章:递归;栈第四章:快速排序第五章:散列表第六章:广度优先算法第七章:狄克斯特拉算法第八章:贪婪算法... 查看详情

视觉机器学习读书笔记--------bp学习

反向传播算法(Back-PropagtionAlgorithm)即BP学习属于监督式学习算法,是非常重要的一种人工神经网络学习方法,常被用来训练前馈型多层感知器神经网络。一、BP学习原理1、前馈型神经网络   是指网络在处理信息时,... 查看详情

《机器学习》读书笔记-第一章引言

...大学。 第一章引言 1.1学习问题的标准描述: 机器学习的定义:如果一个计算机程序针对某类任务T的用P衡量的性能根据经验E来自我完善,那么我们称这个计算机程序在从E中学习,针对某类任务T,它的性能用P来衡量... 查看详情

[读书笔记]机器学习:实用案例解析

第7章 优化:密码破译优化简介:最优点(optimum),优化(optimization)本章研究的问题:构建一个简单的密码破译系统,把解密一串密文当做一个优化问题。优化方法:网格搜索(gridsearch),主要问题是1、步长的选择;2、... 查看详情

[读书笔记]机器学习:实用案例解析

第8章PCA:构建股票市场指数有监督学习:发掘数据中的结构,并使用一个信号量评价我们在探索真实情况这项工作是否进行得很好。无监督学习:发掘数据中的结构,但没有任何已知答案指导主成分分析(PrincipleComponentsAnalysis,P... 查看详情

视觉机器学习读书笔记--------svm方法

...于分类和回归分析。一、基本原理   SVM是一个机器学习的过程,在高维空间中寻找一个分类超平面,将不同类别的数据样本点分开,使不同类别的点之间的间隔最大,该分类超平面即为最大间隔超平面,对应的分类器... 查看详情

机器学习读书笔记------支持向量机

一、间隔与支持向量   给定训练样本集D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈{-1,+1},分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开。在众多划分超平面之间,我们需要找出一... 查看详情

ai圣经prml《模式识别与机器学习》-读书笔记汇总贴

AI圣经PRML《模式识别与机器学习》-读书笔记汇总贴本文章主要来记录学习《PatternRecognitionandMachineLearning》的学习笔记,主要是按照课本的内容来,按照课本的章节一节一节慢慢整理题目,包括后面一些有必要的习题&#... 查看详情

机器学习读书笔记01

k-近邻算法概述:k-近邻算法采用测量不同特征值之间的距离方法进行分类优点:精度高、对于异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高,并且它没有办法各处基础数据的一些内部信息数据。算法描述:... 查看详情

机器学习实战读书笔记——端到端的机器学习项目(代码片段)

驱动任务:根据加州住房价格的数据集建立加州的房价模型数据集下载地址:https://pan.baidu.com/s/1it08eJ7a1ZGTTc7mHBZVzw?pwd=9n132.2设计系统典型的有监督学习任务,已经给出了标记的训练示例(每个实例都有预期的产... 查看详情

spark机器学习读书笔记-ch05

5.2.从数据中提取合适的特征[[email protected]ch05]#sed1dtrain.tsv>train_noheader.tsv[[email protected]ch05]#lltotal42920-rw-r--r--1rootroot21972457Jan3115:03train_noheader.tsv-rw-r--r--1rootroot21972 查看详情

[读书笔记]机器学习:实用案例解析

第9章MDS:可视化地研究参议员相似性基于相似性聚类:本章的主旨是,对不同的观测记录,如何理解用距离的概念来阐明它们之间的相似性和相异性。多维定标技术(multidimensionalscaling,MDS),目的是基于观察值之间的距离度量... 查看详情

《机器学习实战》读书笔记2:k-近邻(knn)算法

声明:文章是读书笔记,所以必然有大部分内容出自《机器学习实战》。外加个人的理解,另外修改了部分代码,并添加了注释1、什么是K-近邻算法?简单地说,k-近邻算法采用测量不同特征值之间距离的方法进行分类。不恰当... 查看详情

图解性能优化读书笔记

1.算法复杂度的介绍。O(LOGn)的含义说明,应该是以2为底的对数变化。前几天学习过几个数学概念:最简单的奇偶数,用到的有奇偶校验的方法相反数abs取正数部分质数:只能被1和自己整除的是质数RSA的算法就是用到了一个很... 查看详情

机器学习周志华读书笔记第三章线性模型(代码片段)

1.基本形式f(?)=ω1X1+ω2X2十...+ωdXd+b,2.线性回归均方误差有非常好的几何意义--它对应了常用的欧几里得距离或简称"欧氏距离"(Euclideandistance).基于均方误差最小化来进行模型求解的方法称为"最小二乘法"(leastsqu町emethod).在线性回归... 查看详情