正文

《机器学习》（西瓜书）笔记--绪论

lyu0709  lyu0709  2022-09-03  437

关键词：

第一章绪论

1.1 引言

机器学习致力于研究如何通过计算的手段，利用经验（计算机系统中通常以数据的形式存在）来改善系统自身的性能。

机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法，即学习算法（learning algorithm）。

1.2 基本术语

数据集（data set）

示例（instance） / 样本（sample）：也叫作特征向量（feature vector）

属性（attribute） / 特征（feature）

属性值（attribute value）

属性空间（attribute space） / 样本空间（sample space）：属性张成的空间。

training data

训练样本（training sample）

训练集（training set）：训练样本组成的集合

hypothesis

ground-truth：指潜在规律自身

prediction

标记（label）

样例（example）：拥有了label信息的示例称为example.

一般地，用 (x_i, y_i) 表示第 i 个样例。其中 y_i ∈ Y 是 x_i 的label，Y是所有标记的集合，亦称为标记空间（label space）或输出空间。

若我们想要预测的是离散值，则此类学习任务称为分类（classification）；

若我们想要预测的是连续值，则此类学习任务称为回归（regression）。

对只涉及两个类别的二分类（binary classification）任务，通常称其中一个类为正类（positive class），另一个类为反类 / 负类（negative class）；

涉及多个类别时，则称为多分类（multi-class classification）任务。

测试样本（testing sample）

聚类（clustering）

簇（cluster）

学习任务大致可以分为两大类：监督学习（supervised learning）和无监督学习（unsupervised learning），分类和回归是前者的代表，聚类是后者的代表。

学得模型适用于新样本的能力，称为泛化（generalization）能力。具有强泛化能力的模型能很好地适用于整个样本空间。

通常假设样本空间中全体样本服从一个未知分布（distribution）D，我们获得的每个样本都是独立的从这个分布上采样获得的，及独立同分布（independent and identically distributed，简称 i.i.d.）。

一般而言，训练样本越多，我们得到的关于D的信息越多，这样就越有可能通过学习获得具有强泛化能力的模型。

1.3 假设空间

归纳（induction）和演绎（deduction）是科学推理的两大基本手段。

前者是从特殊到一般的泛化过程，即从具体的事实归结出一般性规律；后者是从一般到特殊的特化过程，即从基础原理推演出具体状况。

可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集匹配的假设。假设一旦确定，假设空间极其规模大小就确定了。

现实问题中我们常面临很大的假设空间，但学习过程是基于有限样本训练集进行的，因此可能有多个假设与训练集一致，即存在一个与训练集一致的假设集合，称之为版本空间（version space）。

1.4 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好称为归纳偏好（inductive bias），或简称为偏好。

事实上，归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中，这个假设是否成立，即算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。

对于一个学习算法E_a，若它在某些问题上比学习算法E_b好，则必然存在另一些问题，在哪里E_b比E_a好。这个结论对任何算法均成立。

No Free Lunch Theorem （NFL定理，没有免费午餐定理）

即对于任意两个学习算法E_a和E_b我们都有：

这就是没有免费午餐定理（No Free Lunch Theorem，简称NFL定理）。

NFL定理有一个重要前提：所有“问题”出现的机会相同、或所有问题等同重要。但实际情形并不是这样，很多时候我们只关注自己正在试图

解决的问题。

1.5 发展历程

略

1.6 应用现状

略

1.7 阅读材料

python神经网络学习--机器学习--西瓜书学习笔记

...重合，便结合在一起更新，也建议大家跟着看看机器学习的内容，根据我的理解（不一定对），学习路线应该是：机器学习->深度学习（包含神经网络）那么今天从西瓜书的绪论开始吧，... 查看详情

周志华《机器学习初步》绪论

周志华《机器学习初步》绪论Datawhale2022年12月组队学习✌文章目录周志华《机器学习初步》绪论一.机器学习二.典型的机器学习过程三.计算学习理论PAC模型思考两个问题问题性质角度计算要求的角度四.基本术语五.归纳偏好六.NFL... 查看详情

《机器学习》西瓜书第一章绪论

机器学习绪论基本术语基础模型：泛指从数据中学得的结果数据集dataset：一组记录的集合示例instance/样本sample：关于一个事件或对象的描述属性attribute/特征feature：反映事件或对象在某方面的表现或性质的事项属性值attributevalue... 查看详情

西瓜书笔记：机器学习相关会议及期刊

机器学习领域国际学术会议区域性会议国际学术期刊国际机器学习会议（ICML）欧洲机器学习会议（ECML）JournalofMachineLearningResearch国际神经信息处理系统会议（NIPS）亚洲机器学习会议（ACML）MachineLear... 查看详情

机器学习：绪论

学习教材为周志华教授的西瓜书《机器学习》1.2基本术语维数dimensionality示例instance属性或特征attributeorfeature特征向量featurespace预测prediction标记label好瓜样例example 具有标记信息的示例标记空间或输出空间labelspace所有标记的集... 查看详情

《机器学习》周志华版（西瓜书）--课后参考答案

第一章绪论 http://blog.csdn.net/icefire_tyh/article/details/52065224第二章模型评估与选择 http://blog.csdn.net/icefire_tyh/article/details/52065867第三章线性模型 http://blog.csdn.net/icefire_tyh/article/detai 查看详情

《机器学习》（西瓜书）笔记--线性模型

第三章线性模型3.1 基本形式线性模型（linearmodel）试图学得一个通过属性的线性组合来进行预测的函数，即一般用向量形式写成，其中w和b学得之后，模型就得以确定。3.2 线性回归对离散属性的处理：若属性值... 查看详情

《机器学习》二刷超详细笔记|第一章绪论(代码片段)

...者在四月份学习完这本西瓜书，一头雾水，觉得机器学习实在太抽象，一直没有入门。开学后上完了必修的《machinelearning》这门课，并且自己编程实现了多种算法以及复现论文后，才对机器学习有了一点了解&#... 查看详情

西瓜书笔记：机器学习相关会议及期刊

机器学习-西瓜书第一二章

...本的能力（泛化能力强更好地适用于样本空间）机器学查看详情

一起来读西瓜书：第一章绪论

...这一章是绪论，顾名思义就是对本书的总体介绍，并引出机器学习的概念。根据我们定下的阅读目的，我们在阅读过程中，会更专注基础知识、整体认识以及技术脉络方向的内容，其它的部分只是简单理解，并不会记录下来。根... 查看详情

《西瓜书机器学习详细公式推导版》发布

...com/s/FcwgjS4FXfGJPZEQEz3cVw 南瓜书PumpkinBook周志华老师的《机器学习》（西瓜书）是机器学习领域的经典入门教材之一，周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解,所以在书中对部分公式的推导细节没有详述，... 查看详情

西瓜书的读书笔记

机器学习，致力于如何通过计算的手段，利用经验来改善自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”的算法。有了学习算法，... 查看详情

《机器学习》--周志华版（西瓜书）--课后参考答案

《机器学习》--周志华版（西瓜书）--课后参考答案对机器学习一直很感兴趣，也曾阅读过李航老师的《统计学习导论》和Springer的《统计学习导论-基于R应用》等相关书籍，但总感觉自己缺乏深入的理解和系统的实践。... 查看详情

“跟着西瓜去学习”之--绪论

写在前面的话：人工智能界有一种说法，认为机器学习是人工智能领域中最能够体现智能的一个分支，从历史来看，机器学习似乎也是人工智能中发展最为迅速的分支之一。AndrewNg曾说机器学习将是未来人工智能的“电力&rdquo... 查看详情

一起啃西瓜书机器学习-期末复习

机器学习-期末复习笔记第一章：绪论引言一般过程任务数据泛化能力第二章：模型评估与选择错误率&误差经验误差与过拟合评估方法性能度量错误率&精度查准率&查全率P-R曲线ROC&AUC偏差与方差第三章：线... 查看详情

熟悉机器学习术语，西瓜书概念整理（chapter1-2）

括号表示概念出现的其他页码,如有兴趣协同整理，请到issue中认领章节完整版见我的github：ahangchen觉得还不错的话可以点个star^_^第一章绪论Page2:标记（label)示例结果的信息，例如“好瓜”，称为标记Page2:假设(... 查看详情

西瓜书阅读笔记------模型评估与选择

...(\$E=a/m\$)，相应的$1-a/m$称为精度训练误差(trainingerror)：学习器在训练集上的误差泛化误差(generalizationerror)：学本文来自博客园，作者：辛几何旋律，转载请注明原文链接：https://www.cnblogs.com/zjz2333/p/ 查看详情