机器学习(05)——主要概念理解(代码片段)

emptyfs emptyfs     2023-04-28     731

关键词:

机器学习的专业术语非常多,不需要一开始理解所有的专业术语,这些术语会随着对机器学习的深入,会慢慢理解,水到渠成。

不过在学习的过程中,有一些概念必须要了解,有助于后续的学习与理解,需要了解的核心概念有:监督学习、无监督学习、模型、策略、算法等。

监督学习

监督学习,指的是学习的数据与后续测试的数据,都有答案(标签)。

比如说,我们自己的相片集,里面每个人我们都知道是谁并可以标识出来,给机器学习时,我们将每个单人照和对应的名字提交给机器学习模型,机器学习模型完成学习以后,我们继续提交新的相片(单人或多人的),模型直接输出照片中每个人的名字。而对这类有标准答案的数据集的学习,就是有监督学习。

监督学习主要用来处理分类与回归两类问题。

  • 分类:比如前面对相片的学习,输出的是相片中人物对应的名字标签,这个名字标签可以理解为分类的类别名称。百香果的酸与甜、人的性别男与女等这些离散的类别,都是机器学习中分类算法处理的目标。
  • 回归:回归类算法主要是用来预测连续值的变化。比如预测一个人工作年限与收入的变化;网站每日访问量(PV值)变化;广告投放与新增用户、消费(充值)的关系变化等等,这类数据类型的增减变化,就是回归算法预测的目标。

监督学习常用算法包括:K最近邻算法、朴素贝叶斯算法、线性回归算法、逻辑回归算法、决策树算法、神经网络算法、支持向量机算法、因子分解机算法等

无监督学习

无监督学习,指的是通过对数据的统计、分析、分类等方法处理后,从中发现数据本身的自有规律,从而提取出对应的类别、知识或模型的学习方法。可以简单理解为,数据没有标准答案,甚至我们都不知道里面的答案,只知道有一堆数据,需要运行算法自动对这些数据进行各种分类处理,帮助我们找出规律(分类类别)的过程。

无监督学习主要概念:

  • 聚类:在无监督学习中,将数据集分成由类似的对象组成多个类的过程称为聚类。

比如DNA,每个个体都有相似与独特的地方,想要了解DNA中每个基因的作用,就可以使用无监督学习进行学习与分析,将具有不同类型或特特征的人聚集到一块,然后根据通过对这些人的共同点进行分析,从而得出特定基因的作用。同样,无监督学习可以应用到广告系统、推荐系统、新闻分类等各类系统中,面对海量的数据,从中找出不同的类型特征,帮助我们更快速的找到数据的特征与共性,从而让数据发挥更多更重要的作用。

无监督学习常用算法包括:K均值算法、最大期望算法、感知机算法、主成分分析算法、奇异值分解算法等。

半监督学习

半监督学习是监督学习与监督学习结合的一种方法,指的是将有标签数据和无标签数据一起提供模型学习的方法。

我们都知道人力成本是最贵的,如果需要对数据都打上标签,所花费的人工成本与时间成本是很可观的,况且有些数据我们也不清楚它们的规律无法添加标签。而半监督学习,可以将已知的有价值的数据先打上标签,跟无标签数据一起给机器进行学习,机器训练并输出结果,我们可对结果打上新的签标后继续提供给机器训练,从而提升预测结果,当然,如果标签标记不准确,也可能会误导训练模型,得出错误的结论。

无监督学习常用算法包括:协同训练算法(Co-Training)和转导支持向量机算法。

机器学习的三要素:模型、策略和算法

机器学习由模型、策略和算法组成。模型用于作出决策,策略用于评价决策,算法用于修正模型。

模型

简单的理解,指的是模子。

百度百科有两个解释我觉得很贴切:

  • 人们依据研究的特定目的,在一定的假设条件下,再现原型(antetype)客体的结构、功能、属性、关系、过程等本质特征的物质形式或思维形式。
  • 对研究的实体进行必要的简化,并用适当的变现形式或规则把它的主要特征描述出来。所得到的系统模仿品称之为模型。

机器学习中的模型,就是为了预测和分析指定的目标,运行已知的策略和算法,所构建的学习统计模型,通过对数据的学习(统计分析和找出其概率分布规律),最终能对目标进行准确预测。

策略

在百度百科中解释为:

策略,指计策;谋略。一般是指可以实现目标的方案集合;根据形势发展而制定的行动方针和斗争方法.

在机器学习中的策略,指的是实现模型方案集合的最优解。要实现同一个目标(模型),有无数种解决方案,而不同的解决方案各有优劣,在监督学习中引入了损失函数,来找出最优化的模型。

算法

在百度百科中解释为:

算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。

算法简单理解,就是计算方法。在机器学习中,用什么样的计算方法,来帮助机器学习模型和策略,快速、高效、准确的计算出结果。在海量的数据与几何级复杂度的数据中,找出数据分布规律和概率,也是相当困难的,而机器学习算法模型中,提供了梯度下降、降维等算法,来求解出最优解,减少过拟合等各种问题。

算法项目的两个脉络

技术图片

 (图片来自:https://www.imooc.com/read/50/article/974

问题线:业务问题 -> 机制问题 -> 模型问题

评估线:长期跟踪 <- AB实验 <- 模型评估

算法工程师对模型直接负责,对整个项目要有大局观

 


项目 -> 解决业务问题

例如:业务运营部门希望提升业务收入

业务问题 -> 分析拆解,找出关键指标 -> 得到解决方案(公式)-> 确定可控与不可控因素

指标1:提升新增用户量 = 渠道数 * 广告曝光量 * 用户转化比率 = 加大渠道投入
    可控因素:渠道数量与广告曝光量(广告费)
    不可控因素:用户转化比率
    待分析问题:各渠道用户转化率差别?渠道推广投入的产出比盈亏状况?广告投放精准度与效果如何确认?相同渠道不同时间段投放广告,用户转化率变化?不同渠道同一时间段投放广告用户转化率有什么不同?视频广告与图文广告对用户转化率的影响?不同版本以及这些版本异常报告数量对用户转化率的影响?不同品牌用户转化率?不同机型用户转化率?是否存在刷量问题(新增用户的IP、机型、活跃变化、留存变化、在线时长、用户行为漏斗分析、充值转化比率……等问题的监控)?……
指标2:提升用户留存
指标3:提升用户充值比例
……

不可控因素 -> 如何变为可控?-> 建立机器学习预测分析模型 -> 什么算法模型适合当前问题?怎么设计和得出算法公式?为什么这个模型能对数据进行预测?

 

建立机器学习模型 -> 模型预测准确性?-> 算法层是否正确,对模型进行综合评估,确定预测模型正确率指标 -> 开展AB实验进行验证 -> 通过同比、环比等多项指标,评估推荐结果正确性 -> 全量推广,长期跟踪效果


 

参考资料

https://github.com/apachecn/AiLearning/blob/master/docs/ml/1.机器学习基础.md

http://ai-start.com/ml2014/html/week1.html

https://feisky.xyz/machine-learning/basic.html

https://github.com/apachecn/scipycon-2018-sklearn-tut-zh/blob/master/1.md

https://github.com/apachecn/ml-for-humans-zh/blob/master/3.md

https://www.imooc.com/read/50/article/974

机器学习模型实例及其应用(代码片段)

机器学习模型及其应用本次以房价预测项目为例。一、明确机器学习的目的理解问题:了解数据集中每个变量特征的含义以及对最终目的的重要程度理解主要特征:项目目的变量。在本次项目中主要特征为----房价#导入需... 查看详情

深度学习必知概念(代码片段)

...:Peter编辑:Peter大家好,我是Peter~本文主要机器学习的一些基本内容,包含:除了分类和回归之外的其他机器学习形式评估机器学习模型的规范流程为深度学习准备数据特征工程解决过拟合处理机器学习问题... 查看详情

springmvc:理解springmvc相关概念(代码片段)

...Web开发,是对Servlet进行了封装。对于SpringMVC我们主要学习如下内容:SpringMVC简介请求与响应REST风格SSM整合(注解版)拦截器SpringMVC是处于Web层的框架,所以其主要的作用就是用来接收 查看详情

机器学习|机器学习概念理解与基本知识

机器学习概念理解与基本知识1、机器学习是什么在数据上通过算法总结出规律模式,应用在新数据上做预测。2、机器学习基本概念2.1、不同类型的问题监督学习:分类问题(选择)、回归问题(计算)无监督学习:聚类问题(... 查看详情

机器学习理解

 机器学习是使用数据学习,推广和预测的算法的研究。令机器学习令人兴奋的是,通过更多的数据,该算法改进了其预测。例如,我记得当我的家人开始使用语音搜索而不是打字时。起初,机器需要一段时间来识别我们的话... 查看详情

机器学习算法(代码片段)

机器学习常用算法一、线性回归1.基本概念2.代码实现二、逻辑回归1.基本概念Sigmoid预测函数2.代码实现三决策树1.基本概念2.代码实现四支持向量机(SVM)1.基本概念2.代码实现五全连接神经网络DNN1.基本概念全连接神经网... 查看详情

机器学习-决策树(代码片段)

最近在看周志华的《机器学习》,感觉讲的还是条理清晰,循序渐进的。但是只是看了很快概念就混淆,导致脑子里一片混乱,所以准备将看过的内容及学到的东西放在这里和大家相互学习交流。  本文转自:http://blog.csdn.net/... 查看详情

机器学习算法竞赛实战:如何看到机器学习竞赛问题?(代码片段)

机器学习算法竞赛实战-竞赛问题建模更新《机器学习算法竞赛实战》一书的阅读笔记,更多详细的内容请阅读原书。本文的主要内容包含:竞赛问题的3个主要部分-如何理解竞赛问题机器学习的样本选择如何线下评估模... 查看详情

机器学习基本概念解析,机器学习算法概论,机器学习疑难解答,代码分享(代码片段)

个人公众号yk坤帝后台回复机器学习解析获取完整源代码全文疑难仅代表个人理解,如有差错,不完美的地方,欢迎各位大佬斧正,感激不尽!!!1.求解有监督分类问题的一般过程2.什么是训练集、测... 查看详情

机器学习笔记:大话线性回归(代码片段)

大家好,我是东哥。线性回归作为监督学习中经典的回归模型之一,是初学者入门非常好的开始。宏观上考虑理解性的概念,我想我们在初中可能就接触过,y=ax,x为自变量,y为因变量,a为系数也是斜率。如果我们知道了a系数... 查看详情

机器学习(代码片段)

机器学习(一)1.基本概念训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归2.概念的学习:人类学习的概念:鸟,车,计算机定义:概念学习是指... 查看详情

13机器学习实战之pca(代码片段)

降维技术对数据进行降维有如下一系列的原因:使得数据集更容易使用降低很多算法的计算开销去除噪音使得结果易懂 在以下3种降维技术中,PCA的应用目前最为广泛,因此本章主要关注PCA。 主成分分析(PrincipalComponentAnal... 查看详情

机器学习:从入门到晋级(代码片段)

摘要:什么是机器学习,为什么学习机器学习,如何学习机器学习,这篇文章都告诉给你。目前,人工智能(AI)非常热门,许多人都想一窥究竟。如果你对人工智能有所了解,但对机器学习(MachineLearning)的理解有很多的困惑... 查看详情

机器学习之路--决策树(代码片段)

...使用不熟悉的数据集合,并从中提取一系列规则,在这些机器根据数据集创建规则是,就是机器学习的过程。二,相关知识1决 查看详情

机器学习:sklearn库中linear_model线性模型中‘linearregression‘线性回归源码理解(代码片段)

        最近这段时间学习了机器学习中的线性模型,用自己定义的最小二乘法函数和sklearn中的linear_model方法完成了几个小实例,具体就是通过我们班同学的各科成绩来预测最后的平均绩点模型,但不清楚sklearn库... 查看详情

深度学习“深度学习”-概念篇(代码片段)

...语,一个粗浅的定义是“主要使用深度神经网络为工具的机器学习算法”。深度学习首先是一类机器学习的方法,因为它和其他机器学习方法一样允许计算机从样本中、从实例中、从数据中使用统计手段“学习”出规律来,而不... 查看详情

什么是ai机器学习与深度学习?(代码片段)

什么是AI、机器学习与深度学习?作为一个大数据从业人员,相信大家整天都在被AI、机器学习、深度学习等一些概念轰炸。有时候甚至有点诚惶诚恐,一方面作为一个“业内人士”而自豪,二方面觉得新概念一个接一个,自己... 查看详情

机器学习的基本概念理解

术语理解示例:        对应着数据中的一条记录(多条记录构成数据集)。可以包含标记,也可以不包含标记。    假设一条记录有多个属性构成的,则这条记录就有5维。多个属性构成的... 查看详情