机器学习数学基础:数据生成器与学习器的关系

minfanphd minfanphd     2022-12-09     490

关键词:

我在接触机器学习的过程中, 被一些学习器所洗脑, 如 k k kNN, 决策树, Naive Bayes (NB), Supoort vector machines (SVM), Back-propagation artificial neural networks (BP-ANN), Matrix factorization (MF). 学习器的评价指标往往是分类精度 (accuracy)、回归误差 (mean absolute error, MAE; root mean squared error, RMSE) 等等. 这导致了我对数据内部规律的长期忽略. 最近才开始体会到数据生成器的重要性.

1. 数据生成器

以结构化数据为例, 数据生成器的输入包括:

  1. 属性 (特征) 个数 m m m;
  2. 各个属性服从的分布 (概率密度函数);
  3. 属性之间的关系, 即联合分布 (联合密度函数);
  4. 数据量 n n n.

输出则为按照这些函数随机生成的 n × m n \\times m n×m 矩阵.

说明:

  1. 如果要获得枚举值, 使用相应阈值即可 (如小于 0 为负例, 否则为正例);
  2. 一般假设各条数据独立, 生成 n n n 条数据不超过 1 条数据的 n n n 倍时间, 所以数据生成起来很快, n n n 可以非常大.

现成的招数点击如下链接: 使用python进行数据生成.

2. 学习器

以回归问题为例, 学习器的输入包括:

  1. 数据集, 一个 n × m n \\times m n×m 矩阵. 也可以表示条件矩阵 X \\mathbfX X 和标签矩阵 Y \\mathbfY Y, 参见 机器学习的数学基础 5: 数据集的混合表示法.
  2. 指定的决策属性, 通常是最后一个.

输出为一个函数
f : R m − 1 → R f: \\mathbbR^m - 1 \\rightarrow \\mathbbR f:Rm1R.

优化目标:
min ⁡ ∑ i = 1 n l ( f ( x i ) , y i ) \\min \\sum_i = 1^n \\mathcall(f(\\mathbfx_i), y_i) mini=1nl(f(xi),yi).

3. 两者关系

联系如下:

  1. 生成器是一个正向的过程 (由概率密度函数到数据), 学习器是一个逆向的过程 (由数据到概率密度函数, 但一般需要对分布的类型作假设, 如高斯);
  2. 生成器属于概率的范畴, 学习器属于统计的范畴;
  3. 类似于地震波正演与反演的关系;
  4. 类似于老师出题与学生做题 (如果目标是获得相应的概率密度函数).

区别如下:

  1. 生成器可以获得大量的 (理论上为无穷) 数据, 学习器所依赖的数据量有限;
  2. 多数学习器并不去推导概率密度函数 (或相关参数), 而仅仅是建立一个模型进行预测. 所以两者之间并非真正意义的逆过程. 这导致很多学习器表面看起来就是“猜”, 缺乏理论支撑.
    2.1 k k kNN 就是不需要理论的一个典范. 当然, 它抓住了客观世界的本质: 条件属性越相似, 决策属性也应该越相似. 见: https://blog.csdn.net/minfanphd/article/details/117505221.
    2.2 决策树 ID3 的论文题目为 Inductive of decision trees, 它只是作了一定的归纳. 信息熵看起来美, 但仅仅用于启发式地选择分裂属性, 和数据内在的分布没有任何关系.
    2.3 NB 探索了属性之间的关系, 有一定的理论性. 在数值型数据的 NB 算法中, 还需要对数据分布进行假设, 这使其理论性更强. 参见 日撸代码300行(51-60天,kNN 与 NB). 条件属性之间的独立性假设简单粗暴, 但适用性强.

4. 讨论

EM 算法、概率矩阵分解 Probabilistic matrix factorization, PMF 都用到了 maximal likelihood, 是数理统计的招数.
我们在做机器学习理论分析的时候, 必须要增加一些基础假设, 否则条件不够, 没法推导. 参见 http://www.fansmale.com/publications.html
39 Yan-Xue Wu, Xue-Yang Min, Fan Min, Min Wang. Cost-sensitive active learning with a label uniform distribution model. International Journal of Approximate Reasoning. (2019-02) 49-65.
46 Min Wang, Yao Lin, Fan Min, Dun Liu. Cost-sensitive active learning through statistical methods. Information Sciences. (2019) 460-482.

5. 小结

自己写一个数据生成器, 再写一个学习器, 你就会有更多体会.


未完待续

人工智能与机器学习

初识人工智能与机器学习:(1)关系: 人工智能是一个产业,基础是机器学习,机器学习是人工智能产业链下的一种方法,一种算法,深度学习则是机器学习的神经网络算法的一种延伸,拓展。(2)什么是机器学习? ... 查看详情

ensemblelearning(集成学习)

定义集成学习是一种机器学习范式,其中多个学习器被训练来解决相同的问题。这与试图从训练数据中学习一个假设的普通机器学习方法相反,集成方法尝试构造一组假设并将它们结合使用。一个集合包含一些通常被称为基础学... 查看详情

机器学习入门

目录​​1机器学习概述​​​​2机器学习过程​​​​2.1机器学习与人类学习​​​​3机器学习的分类​​​​3.1无监督学习​​​​3.2监督学习​​​​3.3深度学习​​​​3.4强化学习​​​​4机器学习应用​​1机器学习... 查看详情

台大李宏毅课程学习总结

...第一周,周一的时候参加第一次组内学习班,发现自己在机器学习和深度学习方面的基础真的是很薄弱,于是决定认真从头看完台大李宏毅《机器学习与深度学习》课程的完整视频学习。所为机器学习,其实可以类比于我们在数... 查看详情

机器学习数学

...统计:给定输出结果,那么生成数据的过程是怎样统计vs机器学习统计机器学习ModelsParametersFitting,EstimateRegression/ClassificationClustering,Densityestimati 查看详情

机器学习基础教程笔记---机器学习概述(代码片段)

目录机器学习概述1.1人工智能概述1.1.1机器学习与人工智能、深度学习1.1.2机器学习、深度学习能做些什么1.1.3人工智能阶段课程安排1.2什么是机器学习1.2.1定义1.2.2解释1.2.3数据集构成1.3机器学习算法分类学习目标分析1.2中的例子... 查看详情

机器学习考试基础知识

目录ppt第一页人工智能与机器学习、深度学习的关系1、人工智能2、机器学习 查看详情

机器学习考试基础知识

目录ppt第一页人工智能与机器学习、深度学习的关系1、人工智能2、机器学习 查看详情

第2章监督学习python机器学习基础教程

第2章 监督学习2.1 分类与回归.212.2 泛化、过拟合与欠拟合.222.3 监督学习算法.242.3.1 一些样本数据集252.3.2k近邻.282.3.3 线性模型352.3.4 朴素贝叶斯分类器532.3.5 决策树542.3.6 决策树集成642.3.7 核支持向量机712.3.8 神经... 查看详情

统计学习基础(hgl的读书笔记)

...对数据进行预测与分析的一门学科,统计学习也成为统计机器人学习[1]。统计学习分类:有监督学习与无监督学习[2]。统计学习三要素:模型、策略与算法[1]。统计学习的对象:统计学习的对象是数据。统计学习从数据出发,提... 查看详情

机器学习基础概念之监督学习与无监督学习

一句话明晰概念:不用编程制定机器做什么,机器有能力自己学习。三种最基础的机器学习算法:决策树、线性回归、K-means聚类。   监督与无监督学习周志华通过敲西瓜案例有以下讲解:监督学习是在敲西瓜听声音... 查看详情

机器学习之集成学习

集成学习(ensemblelearning)通过构建并结合多个学习期来完成学习任务,同质学习器和异质学习器。弱学习器:泛化性能略优于随机猜测的学习器集成学习通过过个学习器进行结合,可以获得比单一学习器显著优越的泛化性能集... 查看详情

大数据学习笔记60:构建spark机器学习系统

文章目录一、机器学习系统架构二、启动Spark集群(一)Spark运行模式(二)SparkShell交互式环境1、SparkShell概述2、SparkContext、驱动程序与集群管理器的关系3、SparkSession(三)启动SparkShell1、启动HDFS2、启动Spark器群3、启动SparkShell... 查看详情

机器学习如何与大数据融合?

】机器学习如何与大数据融合?【英文标题】:HowMachineLearningintgreatewithBigData?【发布时间】:2020-03-1101:49:26【问题描述】:机器学习如何与大数据集成机器学习和MapReduce有什么区别我应该考虑的主要概念是什么三者中的哪一个(... 查看详情

机器学习强基计划0-2:什么是机器学习?和ai有什么关系?

目录0写在前面1什么是机器学习?1.1定义1.2编程逻辑2机器学习与AI的关系2.1人工智能三大学派2.2机器学习在AI中3机器学习能干什么?4学习路线0写在前面机器学习强基计划聚焦深度和广度,加深对机器学习模型的理解... 查看详情

机器学习基础知识之概率论基础详解

机器学习基础知识之概率论基础详解文章目录机器学习基础知识之概率论基础详解引言一、随机事件以及其运算1、样本空间的概念2、随机事件3、随机变量4、事件之间的关系4.1包含关系4.2相等关系4.3互不相容5、事件间的运算5.1... 查看详情

机器学习基础知识之概率论基础详解

机器学习基础知识之概率论基础详解文章目录机器学习基础知识之概率论基础详解引言一、随机事件以及其运算1、样本空间的概念2、随机事件3、随机变量4、事件之间的关系4.1包含关系4.2相等关系4.3互不相容5、事件间的运算5.1... 查看详情

机器学习数学系列:机器学习与数学基础知识

目录:机器学习基础:  机器学习的分类与一般思路微积分基础:  泰勒公式,导数与梯度概率与统计基础:  概率公式、常见分布、常见统计量线性代数基础:  矩阵乘法的几何意义  这是一张非常著名的图,... 查看详情