关键词:
在本文中,我将提供两种分类机器学习算法的方法。一是根据学习方式分类,二是根据类似的形式或功能分类。这两种方法都很有用,不过,本文将侧重后者,也就是根据类似的形式或功能分类。在阅读完本文以后,你将会对监督学习中最受欢迎的机器学习算法,以及它们彼此之间的关系有一个比较深刻的了解。
下面是一张算法思维导图,点击放大查看。
从学习方式分类算法对一个问题建模的方式很多,可以基于经历、环境,或者任何我们称之为输入数据的东西。机器学习和人工智能的教科书通常会让你首先考虑算法能够采用什么方式学习。实际上,算法能够采取的学习方式或者说学习模型只有几种,下面我会一一说明。对机器学习算法进行分类是很有必要的事情,因为这迫使你思考输入数据的作用以及模型准备过程,从而选择一个最适用于你手头问题的算法。
1、监督学习
输入数据被称为训练数据,并且每一个都带有标签,比如“广告/非广告”,或者当时的股票价格。通过训练过程建模,模型需要做出预测,如果预测出错会被修正。直到模型输出准确的结果,训练过程会一直持续。常用于解决的问题有分类和回归。常用的算法包括逻辑回归和BP神经网络。
2、无监督学习
输入数据没有标签,输出没有标准答案,就是一系列的样本。无监督学习通过推断输入数据中的结构建模。这可能是提取一般规律,可以是通过数学处理系统地减少冗余,或者根据相似性组织数据。常用于解决的问题有聚类、降维和关联规则的学习。常用的算法包括 Apriori 算法和 K 均值算法。
3、半监督学习
半监督学习的输入数据包含带标签和不带标签的样本。半监督学习的情形是,有一个预期中的预测,但模型必须通过学习结构整理数据从而做出预测。常用于解决的问题是分类和回归。常用的算法是所有对无标签数据建模进行预测的算法(即无监督学习)的延伸。
研究人员常常通过功能相似对算法进行分类。例如,基于树的方法和基于神经网络的方法。这种方法也是我个人认为最有用的分类方法。不过,这种方法也并非完美,比如学习矢量量化(LVQ),就既可以被归为神经网络方法,也可以被归为基于实例的方法。此外,像回归和聚类,就既可以形容算法,也可以指代问题。
为了避免重复,本文将只在最适合的地方列举一次。下面的算法和分类都不齐备,但有助于你了解整个领域大概。(说明:用于分类和回归的算法带有很大的个人主观倾向;欢迎补充我遗漏的条目。)
1、回归算法
回归分析是研究自变量和因变量之间关系的一种预测模型技术。这些技术应用于预测时间序列模型和找到变量之间关系。回归分析也是一种常用的统计学方法,经由统计机器学习融入机器学习领域。“回归”既可以指算法也可以指问题,因此在指代的时候容易混淆。实际上,回归就是一个过程而已。常用的回归算法包括:
普通最小二乘回归(OLSR)
线性回归
逻辑回归
逐步回归
多元自适应回归样条法(MARS)
局部估计平滑散点图(LOESS)
2、基于实例的学习算法
基于实例的学习通过训练数据的样本或事例建模,这些样本或事例也被视为建模所必需的。这类模型通常会建一个样本数据库,比较新的数据和数据库里的数据,通过这种方式找到最佳匹配并做出预测。换句话说,这类算法在做预测时,一般会使用相似度准则,比对待预测的样本和原始样本之间的相似度,再做出预测。因此,基于实例的方法也被称之为赢家通吃的方法(winner-take-all)和基于记忆的学习(memory-based learning)。常用的基于实例的学习算法包括:
k-邻近算法(kNN)
学习矢量量化算法(LVQ)
自组织映射算法(SOM)
局部加权学习算法(LWL)
3、正则化算法
正则化算法背后的思路是,参数值比较小的时候模型更加简单。对模型的复杂度会有一个惩罚值,偏好简单的、更容易泛化的模型,正则化算法可以说是这种方法的延伸。我把正则化算法单独列出来,原因就是我听说它们十分受欢迎、功能强大,而且能够对其他方法进行简单的修饰。常用的正则化算法包括:
岭回归
LASSO 算法
Elastic Net
最小角回归算法(LARS)
4、决策树算法
决策树算法的目标是根据数据属性的实际值,创建一个预测样本目标值的模型。训练时,树状的结构会不断分叉,直到作出最终的决策。也就是说,预测阶段模型会选择路径进行决策。决策树常被用于分类和回归。决策树一般速度快,结果准,因此也属于最受欢迎的机器学习算法之一。常用的决策树算法包括:
分类和回归树(CART)
ID3 算法
C4.5 算法和 C5.0 算法(它们是一种算法的两种不同版本)
CHAID 算法
单层决策树
M5 算法
条件决策树
5、贝叶斯算法
贝叶斯方法指的是那些明确使用贝叶斯定理解决分类或回归等问题的算法。常用的贝叶斯算法包括:
朴素贝叶斯算法
高斯朴素贝叶斯算法
多项式朴素贝叶斯算法
AODE 算法
贝叶斯信念网络(BBN)
贝叶斯网络(BN)
6、聚类算法
聚类跟回归一样,既可以用来形容一类问题,也可以指代一组方法。聚类方法通常涉及质心(centroid-based)或层次(hierarchal)等建模方式,所有的方法都与数据固有的结构有关,目标是将数据按照它们之间共性最大的组织方式分成几组。换句话说,算法将输入样本聚成围绕一些中心的数据团,通过这样的方式发现数据分布结构中的规律。常用的聚类算法包括:
K-均值
K-中位数
EM 算法
分层聚类算法
7、关联规则学习
关联规则学习在数据不同变量之间观察到了一些关联,算法要做的就是找出最能描述这些关系的规则,也就是获取一个事件和其他事件之间依赖或关联的知识。常用的关联规则算法有:
Apriori 算法
Eclat 算法
8、人工神经网络
人工神经网络是一类受生物神经网络的结构及/或功能启发而来的模型。它们是一类常用于解决回归和分类等问题的模式匹配,不过,实际上是一个含有成百上千种算法及各种问题变化的子集。注意这里我将深度学习从人工神经网络算法中分离了出去,因为深度学习实在太受欢迎。人工神经网络指的是更加经典的感知方法。常用的人工神经网络包括:
感知机
反向传播算法(BP 神经网络)
Hopfield网络
径向基函数网络(RBFN)
9、深度学习算法
深度学习算法是人工神经网络的升级版,充分利用廉价的计算力。近年来,深度学习得到广泛应用,尤其是语音识别、图像识别。深度学习算法会搭建规模更大、结构更复杂的神经网络,正如上文所说,很多深度学习方法都涉及半监督学习问题,这种问题的数据一般量极大,而且只有很少部分带有标签。常用的深度学习算法包括:
深度玻尔兹曼机(DBM)
深度信念网络(DBN)
卷积神经网络(CNN)
栈式自编码算法(Stacked Auto-Encoder)
10、降维算法
降维算法和聚类有些类似,也是试图发现数据的固有结构。但是,降维算法采用的是无监督学习的方式,用更少(更低维)的信息进行总结和描述。降维算法可以监督学习的方式,被用于多维数据的可视化或对数据进行简化处理。很多降维算法经过修改后,也被用于分类和回归的问题。常用的降维算法包括:
主成分分析法(PCA)
主成分回归(PCR)
偏最小二乘回归(PLSR)
萨蒙映射
多维尺度分析法(MDS)
投影寻踪法(PP)
线性判别分析法(LDA)
混合判别分析法(MDA)
二次判别分析法(QDA)
灵活判别分析法(Flexible Discriminant Analysis,FDA)
11、模型融合算法
模型融合算法将多个简单的、分别单独训练的弱机器学习算法结合在一起,这些弱机器学习算法的预测以某种方式整合成一个预测。通常这个整合后的预测会比单独的预测要好一些。构建模型融合算法的主要精力一般用于决定将哪些弱机器学习算法以什么样的方式结合在一起。模型融合算法是一类非常强大的算法,因此也很受欢迎。常用的模型融合增强方法包括:
Boosting
Bagging
AdaBoost
堆叠泛化(混合)
GBM 算法
GBRT 算法
随机森林
12、其他
还有很多算法都没有涉及。例如,支持向量机(SVM)应该被归为哪一组?还是说它自己单独成一组?我还没有提到的机器学习算法包括:
特征选择算法
Algorithm accuracy evaluation
Performance measures
事先说明一点,我没有涵盖机器学习特殊子领域的算法,比如:
计算智能(进化算法等)、
计算机视觉(CV)、
自然语言处理(NLP)、
推荐系统、
强化学习和图模型。
http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/
本文出自 “IT技术学习与交流” 博客,谢绝转载!
盘点4种常用的推荐算法
导读:推荐系统大量使用了机器学习技术,本文简单介绍一下推荐系统常用的策略与算法。作者:刘强来源:大数据DT(ID:hzdashuju)01基于内容的推荐推荐系统是通过技术手段将标的物与人关联起来... 查看详情
机器学习十大常用算法
机器学习十大常用算法小结 机器学习十大常用算法小结通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题... 查看详情
准确理解机器学习算法的常用评价指标
准确理解机器学习算法的常用评价指标一级目录二级目录三级目录一级目录二级目录三级目录 查看详情
机器学习常用算法----
LR(一)认识Logistic回归(LR)分类器实现原理看以下链接 具体的实验代码 本地文件夹。http://blog.csdn.net/suipingsp/article/details/41822313GBDT:梯度提升决策树FM 查看详情
常用机器学习算法(代码片段)
一般说来,机器学习有三种算法:1.监督式学习监督式学习算法包括一个目标变量(因变量)和用来预测目标变量的预测变量(自变量)。通过这些变量我们可以搭建一个模型,从而对于一个已知的预测变量值,我们可以得到对... 查看详情
机器学习最常用优化之一——梯度下降优化算法综述
转自:http://www.dataguru.cn/article-10174-1.html梯度下降算法是机器学习中使用非常广泛的优化算法,也是众多机器学习算法中最常用的优化方法。几乎当前每一个先进的(state-of-the-art)机器学习库或者深度学习库都会包括梯度下降算法... 查看详情
算法模型轻松看懂机器学习十大常用算法
【算法模型】轻松看懂机器学习十大常用算法 通过本篇文章大家可以对ML的常用算法形成常识性的认识。没有代码,没有复杂的理论推导,仅是图解,介绍这些算法是什么以及如何应用(例子主要是分类问题)... 查看详情
轻松看懂机器学习十大常用算法
轻松看懂机器学习十大常用算法 通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。每个算法都看了好几... 查看详情
常用机器学习面试基础概念题汇总
目录1、处理分类问题常用算法2、处理回归问题常用算法3、处理聚类问题常用算法 查看详情
3w+深度盘点:机器学习面试知识点梳理!(代码片段)
大家好,今天我来梳理一下机器学习、算法、数据挖掘等岗位面试时必备的知识点,欢迎收藏学习,喜欢点赞支持。机器学习主要分为监督学习和无监督学习。有监督学习:对具有标记的训练样本进行学习,... 查看详情
机器学习算法学习---处理分类问题常用算法
k-近邻算法采用测量不同特征值之间的距离方法进行分类。优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用范围:数值型、标称型。工作原理:存在一个样本数据集合(训练样本集... 查看详情
scikit-learn机器学习常用算法原理及编程实战
机器学习介绍机器学习的概念机器学习要解决的问题分类使用机器学习解决问题的一般性步骤什么是机器学习机器学习是一个计算机程序,针对某个特定的任务,从经验中学习,并且越做越好。谁掌握的数据量大、质量高,谁就... 查看详情
机器学习算法学习---推荐系统的常用算法
概括分类:1)基于内容的推荐:这一类一般依赖于自然语言处理NLP的一些知识,通过挖掘文本的TF-IDF特征向量,来得到用户的偏好,进而做推荐。这类推荐算法可以找到用户独特的小众喜好,而且还有较好的解释性。这一类由... 查看详情
机器学习算法学习---处理聚类问题常用算法
DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集。 ... 查看详情
常用机器学习算法knn原理与实践
推荐两篇讲解与实践KNN比较好博客,感谢原作者总结http://blog.csdn.net/u012162613/article/details/41768407http://www.cnblogs.com/ybjourney/p/4702562.html 查看详情
轻松看懂机器学习十大常用算法
通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。每个算法都看了好几个视频,挑出讲的最清晰明了有趣的... 查看详情
17个机器学习的常用算法!
...享,如有侵权,联系删除转载于:亦木,机器学习算法工程师1.监督式学习: 在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件 查看详情
盘点机器学习中那些神奇的损失函数
盘点机器学习中那些神奇的损失函数我最近在学习R语言,但是估R语言我应该没能跟sas一样玩那么好。今天来更新在机器学习中的一些专业术语,参考技术A盘点机器学习中那些神奇的损失函数我最近在学习R语言,但是估R语言我... 查看详情