机器学习实战第1章机器学习基础

片刻-ApacheCN 片刻-ApacheCN     2022-09-20     384

关键词:

第1章 机器学习基础

技术分享

机器学习 概述

机器学习就是把无序的数据转换成有用的信息。

  1. 获取海量的数据
  2. 从海量数据中获取有用的信息

我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的意义。

机器学习 场景

例如:识别动物猫
模式识别(官方标准):人们通过大量的经验,得到结论,从而判断它就是猫。
机器学习(数据学习):人们通过阅读进行学习,观察它会叫、小眼睛、两只耳朵、四条腿、一条尾巴,得到结论,从而判断它就是猫。
深度学习(深入数据):人们通过深入了解它,发现它会‘喵喵‘的叫、与同类的猫科动物很类似,得到结论,从而判断它就是猫。(深度学习常用领域:语音识别、图像识别)

模式识别(pattern recognition): 模式识别是最古老的(作为一个术语而言,可以说是很过时的)。
    我们把环境与客体统称为“模式”,识别是对模式的一种认知,是如何让一个计算机程序去做一些看起来很“智能”的事情。
    通过融于智慧和直觉后,通过构建程序,识别一些事物,而不是人,例如: 识别数字。
机器学习(machine learning): 机器学习是最基础的(当下初创公司和研究实验室的热点领域之一)。
    在90年代初,人们开始意识到一种可以更有效地构建模式识别算法的方法,那就是用数据(可以通过廉价劳动力采集获得)去替换专家(具有很多图像方面知识的人)。
    “机器学习”强调的是,在给计算机程序(或者机器)输入一些数据后,它必须做一些事情,那就是学习这些数据,而这个学习的步骤是明确的。
    机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科。
深度学习(deep learning): 深度学习是非常崭新和有影响力的前沿领域,我们甚至不会去思考-后深度学习时代。
    深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。

参考地址: 
http://www.csdn.net/article/2015-03-24/2824301
http://baike.baidu.com/link?url=76P-uA4EBrC3G-I__P1tqeO7eoDS709Kp4wYuHxc7GNkz_xn0NxuAtEohbpey7LUa2zUQLJxvIKUx4bnrEfOmsWLKbDmvG1PCoRkJisMTQka6-QReTrIxdYY3v93f55q

机器学习已应用于多个领域,远远超出大多数人的想象,横跨:计算机科学、工程技术和统计学等多个学科。

  • 搜索引擎: 根据你的搜索点击,优化你下次的搜索结果。
  • 垃圾邮件: 会自动的过滤垃圾广告邮件到垃圾箱内。
  • 超市优惠券: 你会发现,你在购买小孩子尿布的时候,售货员会赠送你一张优惠券可以兑换6罐啤酒。
  • 邮局邮寄: 手写软件自动识别寄送贺卡的地址。
  • 申请贷款: 通过你最近的金融活动信息进行综合评定,决定你是否合格。

机器学习 组成

主要任务

  • 分类:将实例数据划分到合适的类别中。
  • 回归:主要用于预测数值型数据。(示例:数据通过给定数据点来拟合最优曲线)

监督学习

  • 必须确定目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。 (包括:分类和回归)
  • 样本集:训练数据 + 测试数据
    • 训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
    • 特征通常是训练样本集的列,它们是独立测量得到的。
    • 目标变量: 目标变量是机器学习预测算法的测试结果。
      • 在分类算法中目标变量的类型通常是标称型(如:真与假),而在回归算法中通常是连续型(如:1~100)。
  • 知识表示
    1. 可以采用规则集的形式【例如:数学成绩大于90分为优秀】
    2. 可以采用概率分布的形式【例如:通过统计分布发现,90%的同学数学成绩,在70分以下,那么大于70分定为优秀】
    3. 可以使用训练样本集中的一个实例【例如:通过样本集合,我们训练出一个模型实例,得出 年轻,数学成绩中高等,谈吐优雅,我们认为是优秀】

非监督学习

  • 数据没有类别信息,也不会给定目标值。
  • 聚类:在无监督学习中,将数据集分成由类似的对象组成多个类的过程称为聚类。
  • 密度估计:将寻找描述数据统计值的过程称之为密度估计。【就是:根据训练样本确定x的概率分布】
  • 此外,无监督学习还可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息。

训练过程

技术分享

算法汇总

技术分享

机器学习 使用

选择算法需要考虑的两个问题

  1. 算法场景
    • 预测明天是否下雨,因为可以用历史的天气情况做预测,所以选择监督学习算法
    • 给一群陌生的人进行分组,但是我们并没有这些人的类别信息,所以选择无监督学习算法、通过他们身高、体重等特征进行处理。
  2. 需要收集或分析的数据是什么

举例

技术分享

机器学习 开发流程

* 收集数据: 收集样本数据
* 准备数据: 注意数据的格式
* 分析数据: 为了确保数据集中没有垃圾数据;
    如果是算法可以处理的数据格式或可信任的数据源,则可以跳过该步骤;
    另外该步骤需要人工干预,会降低自动化系统的价值。
* 训练算法: [机器学习算法核心]如果使用无监督学习算法,由于不存在目标变量值,则可以跳过该步骤
* 测试算法: [机器学习算法核心]评估算法效果
* 使用算法: 将机器学习算法转为应用程序

Python语言 优势

  1. 可执行伪代码
  2. Python比较流行:使用广泛、代码范例多、丰富模块库,开发周期短
  3. Python语言的特色:清晰简练、易于理解
  4. Python语言的缺点:唯一不足的是性能问题
  5. Python相关的库
    • 科学函数库:SciPyNumPy(底层语言:C和Fortran)
    • 绘图工具库:Matplotlib

第1章引言python机器学习基础教程

Python机器学习基础教程前言第1章 引言1.1 为何选择机器学习1.1.1 机器学习能够解决的问题1.1.2 熟悉任务和数据1.2 为何选择Python1.3scikit-learn1.4 必要的库和工具1.4.1JupyterNotebook1.4.2NumPy1.4.3SciPy1.4.4matplotlib1.4.5pandas1.4.6mglearn1.5P... 查看详情

《机器学习实战第7章:利用adaboost元算法提高分类性能》(代码片段)

importnumpyasnpimportmatplotlib.pyplotaspltdefloadSimpData():dataMat=np.matrix([[1.,2.1],[2.,1.1],[1.3,1.],[1.,1.],[2.,1.]])classLabels=[1.0,1.0,-1.0,-1.0,1.0]returndataMat,classLabelsdefshowDataSet(d 查看详情

机器学习实战第8章预测数值型数据:回归2(代码片段)

1. Shrinkage(缩减)Methods当特征比样本点还多时(n>m),输入的数据矩阵X不是满秩矩阵,在求解(XTX)-1时会出现错误。接下来主要介绍岭回归(ridgeregression)和前向逐步回归(FowardStagewiseRegression)两种方法。1.1 岭回归(... 查看详情

361机器学习常见算法

K-近邻算法(KNearestNeighbors)参考:机器学习实战教程(一):K-近邻算法(史诗级干货长文)决策树算法(DecisionTree)参考:机器学习实战教程(二):决策树基础篇之让我们从相亲说起参考:机器学习实战教程(三):决策树... 查看详情

机器学习中的统计学基础

简介:课程讲解机器学习中的必备统计学基础知识,包含统计学基础、统计学的应用、统计学分类、机器学习中的方差和偏差以及案例分析等。第1章课程介绍本章介绍统计学的基础知识,如统计学在机器学习中的应用、统计学... 查看详情

《深度卷积神经网络原理与实践》笔记第一章机器学习基础

...记(Version:1.0.2)整理作者:sq_csl第一章机器学习基础1.1机器学习概述1.1.1概念概念ML(MachineLearning)是一门发展了比较长时间的学科,其在发展过程中定义也发生了一些变化早期概念源于TomMit 查看详情

自动聊天机器人项目班[一门课搞定聊天机器人]

打造传统NLP聊天机器人第1课聊天机器人的基础模型与综述知识点1:行业与业界综述实战项目:最简单的Rule-Base聊天机器人第2课NLP基础及扫盲知识点1:NLP基本算法实战项目:经典NLP问题与解法第3课用基础机器学习方法制作聊天... 查看详情

机器学习实战第5章logistic回归

第5章Logistic回归Logistic回归概述Logistic回归虽然名字叫回归,但是它是用来做分类的。其主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。须知概念Sigmoid函数回归概念假设现在有一些数据点,我们用一条直线... 查看详情

[人工智能-深度学习-8]:神经网络基础-机器学习深度学习模型模型训练

...://blog.csdn.net/HiWangWenBing/article/details/120462734目录第1章白话机器学习第2章机器学习的模型与步骤 2.1 深度学习与机器学习2.2 机器学习的模型第3章建模步骤1-1&# 查看详情

《机器学习实战》第3章决策树程序清单3-1计算给定数据集的香农熵calcshannonent()运行过程

 frommathimportlogdefcalcShannonEnt(dataSet):numEntries=len(dataSet)print("样本总数:"+str(numEntries))labelCounts={}#记录每一类标签的数量#定义特征向量featVecforfeatVecindataSet:currentLabel=featVec[-1]#最后一列是类别标签ifcu 查看详情

第2章监督学习python机器学习基础教程

第2章 监督学习2.1 分类与回归.212.2 泛化、过拟合与欠拟合.222.3 监督学习算法.242.3.1 一些样本数据集252.3.2k近邻.282.3.3 线性模型352.3.4 朴素贝叶斯分类器532.3.5 决策树542.3.6 决策树集成642.3.7 核支持向量机712.3.8 神经... 查看详情

机器学习实战第8章预测数值型数据:回归

第8章预测数值型数据:回归回归(Regression)概述我们前边提到的分类的目标变量是标称型数据,而回归则是对连续型的数据做出处理,回归的目的是预测数值型数据的目标值。回归场景回归的目的是预测数值型的目标值。最直... 查看详情

python3入门机器学习经典算法与应用

 第1章欢迎来到Python3玩转机器学习1-1什么是机器学习1-2课程涵盖的内容和理念1-3课程所使用的主要技术栈第2章机器学习基础2-1机器学习世界的数据2-2机器学习的主要任务2-3监督学习,非监督学习,半监督学习和增强学习2-4批... 查看详情

机器学习实战第8章预测数值型数据:回归(代码片段)

1.简单的线性回归假定输入数据存放在矩阵X中,而回归系数存放在向量W中,则对于给定的数据X1,预测结果将会是                这里的向量都默认为列向量现在的问题是手里有一些x和对应的y数据,怎样才... 查看详情

机器学习实战笔记-1基础

机器学习基础什么是机器学习机器学习能让我们从数据集中受到启示。换句话说。我们会利用计算机来彰显数据背后的真实含义。简单的说机器学习就是把无序数据转换成实用的信息。关键术语特征(属性):对一类物体我们关心... 查看详情

《机器学习实战》第8章书本正文缺少一个函数(代码片段)

在8.4.2lasso的stageWist函数里使用到了一个用于标准化的函数regularize,这个函数是需要自定义的,但是书中没有给出来。在示例代码中有,是这样子的:defregularize(xMat):inMat=xMat.copy()inMeans=np.mean(inMat,0)inVar=np.var(inMat,0)inMat=(inMat-inMeans)... 查看详情

机器学习实战机器学习基础

1.1机器学习概念:机器学习能让我们从数据集中受到启发,换句话说,我们会利用计算机来彰显数据背后的真实含义。机器学习就是把无序的数据转换成有用的信息。1.2机器学习的主要任务:大多数人都见过回归的例子——数据... 查看详情

黄佳《零基础学机器学习》chap1笔记(代码片段)

黄佳《零基础学机器学习》chap1笔记这本书实在是让我眼前一亮!!!感觉写的真的太棒了!文章目录黄佳《零基础学机器学习》chap1笔记第1课机器学习快速上手路径——唯有实战1.1机器学习族谱1.2云环境入门实... 查看详情