哈工大2022机器学习实验二:逻辑回归

Castria Castria     2022-12-04     793

关键词:

本实验要求利用逻辑回归(Logistic Regression),对生成的数据进行二分类。首先我们先回顾一下逻辑回归的基本原理:

逻辑回归

逻辑回归,又意译为对率回归(周志华《机器学习》),虽然它的名字中带“回归”,但它是一个分类模型。它的基本思想是直接估计条件概率 P ( Y ∣ X ) P(Y|X) P(YX)的表达式,即给定样本 X = x X=x X=x(这里 x x x是一个 d d d维列向量),其属于类别 Y Y Y的概率(这里研究的是二分类问题, Y Y Y的取值只有 0 , 1 0,1 0,1 1 1 1表示正例, 0 0 0表示反例)。利用贝叶斯公式,可以得到给定样本,其为正例的概率
P ( Y = 1 ∣ X = x ) = P ( X = x ∣ Y = 1 ) P ( Y = 1 ) P ( X = x ) = P ( X = x ∣ Y = 1 ) P ( Y = 1 ) P ( X = x ∣ Y = 1 ) P ( Y = 1 ) + P ( X = x ∣ Y = 0 ) P ( Y = 0 ) = 1 1 + P ( X = x ∣ Y = 0 ) P ( Y = 0 ) P ( X = x ∣ Y = 1 ) P ( Y = 1 ) \\beginalignedP(Y=1|X=x)&= \\frac P(X=x|Y=1)P(Y=1)P(X=x)\\\\ &=\\fracP(X=x|Y=1)P(Y=1)P(X=x|Y=1)P(Y=1)+P(X=x|Y=0)P(Y=0)\\\\ &=\\frac11+\\fracP(X=x|Y=0)P(Y=0)P(X=x|Y=1)P(Y=1)\\\\ \\endaligned P(Y=1∣X=x)=P(X=x)P(X=xY=1)P(Y=1)=P(X=xY=1)P(Y=1)+P(X=xY=0)P(Y=0)P(X=xY=1)P(Y=1)=1+P(X=xY=1)P(Y=1)P(X=xY=0)P(Y=0)1
在这个式子中有两类式子需要我们已知:类别先验 P ( Y = y ) P(Y=y) P(Y=y)和条件分布 P ( X ∣ Y ) P(X|Y) P(XY).这也是逻辑回归做出的最基本假设:

(1)类别先验服从伯努利分布 B ( 1 , p ) , B(1,p), B(1,p),即一个样本有 p p p的概率为正例。
(2)类内样本服从正态分布 N ( μ , Σ ) . N(\\mu,\\Sigma). N(μ,Σ).具体地说,正例样本服从 N ( μ 1 , Σ 1 ) N(\\mu_1,\\Sigma_1) N(μ1,Σ1);反例样本服从 N ( μ 0 , Σ 0 ) N(\\mu_0,\\Sigma_0) N(μ0,Σ0)。特别地,我们要求两类样本的协方差矩阵相同,即 Σ 1 = Σ 0 = Σ . \\Sigma_1=\\Sigma_0=\\Sigma. Σ1=Σ0=Σ.之后我们就都用 Σ \\Sigma Σ这一个符号代表协方差矩阵。

(注: n n n维正态分布 N ( μ , Σ ) N(\\mu,\\Sigma) N(μ,Σ)的概率密度 p ( x ) = 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 exp ⁡ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) p(x)=\\frac1(2\\pi)^n/2|\\Sigma|^1/2\\exp\\-\\frac12(x-\\mu)^T\\Sigma^-1(x-\\mu)\\ p(x)=(2π)n/2∣Σ1/21exp21(xμ)TΣ1(xμ)

顺着上面两条假设,我们可以继续推导。我们在这里用正态分布的概率密度来代替概率(这个推导在概率论中不是那么严谨,但概率密度的大小可以一定程度上反映样本分布在该点的概率大小。)
P ( Y = 1 ∣ X = x ) = 1 1 + P ( X = x ∣ Y = 0 ) P ( Y = 0 ) P ( X = x ∣ Y = 1 ) P ( Y = 1 ) = 1 1 + exp ⁡ − 1 2 ( x − μ 0 ) T Σ − 1 ( x − μ 0 ) exp ⁡ − 1 2 ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) ⋅ 1 − p p = 1 1 + exp ⁡ ( μ 0 − μ 1 ) T Σ − 1 x + 1 2 ( μ 1 T Σ − 1 μ 1 − μ 0 T Σ − 1 μ 0 ) ⋅ 1 − p p \\beginalignedP(Y=1|X=x)&=\\frac11+\\fracP(X=x|Y=0)P(Y=0)P(X=x|Y=1)P(Y=1)\\\\ &=\\frac11+\\frac\\exp\\-\\frac12(x-\\mu_0)^T\\Sigma^-1(x-\\mu_0)\\\\exp\\-\\frac12(x-\\mu_1)^T\\Sigma^-1(x-\\mu_1)\\\\cdot\\frac1-pp\\\\ &=\\frac11+\\exp\\(\\mu_0-\\mu_1)^T\\Sigma^-1x+\\frac12(\\mu_1^T\\Sigma^-1\\mu_1-\\mu_0^T\\Sigma^-1\\mu_0)\\\\cdot\\frac1-pp \\endaligned P(Y=1∣X=x)=1+P(X=xY=1)P(Y=1)P(X=xY=0)P(Y=0)1=1+exp21(xμ1)TΣ1(xμ1)exp21(xμ机器学习:基于逻辑回归对某银行客户违约预测分析(代码片段)

机器学习:基于逻辑回归对某银行客户违约预测分析文章目录机器学习:基于逻辑回归对某银行客户违约预测分析一、实验目的二、实验原理三、实验环境四、实验内容五、实验步骤1.逻辑回归2.业务理解3.读取数据4.数据... 查看详情

机器学习:算法与应用byxdu2022冬季课程笔记1:线性回归与逻辑回归

机器学习:[算法与应用byXDU2022冬季课程笔记集合]文章目录1.回顾与总览2.线性模型与线性回归(LinearRegression)3.逻辑回归(LogisticRegression)分类器4.总结1.回顾与总览上节课程概括了整个机器学习算法流程,... 查看详情

机器学习二逻辑回归作业

作业在这,http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/hw2.pdf 是区分spam的。57维特征,2分类问题。采用逻辑回归方法。但是上述数据集在kaggle中没法下载,于是只能用替代的方法了,下了breast-cancer-wisconsin数据集。链接在... 查看详情

机器学习二逻辑回归作业

作业在这,http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/hw2.pdf 是区分spam的。57维特征,2分类问题。采用逻辑回归方法。但是上述数据集在kaggle中没法下载,于是只能用替代的方法了,下了breast-cancer-wisconsin数据集。链接在... 查看详情

机器学习二逻辑回归

在生成模型中讲到了,可以利用手头的数据,假设数据是满足高斯分布,且是不同的均值,但是同一个协方差矩阵,基于贝叶斯的判别式,可以得到p(c1|x)>0.5是第一类  p(c1|x)可以转化为sigmod(z)=w*x+b    查看详情

机器学习二逻辑回归

在生成模型中讲到了,可以利用手头的数据,假设数据是满足高斯分布,且是不同的均值,但是同一个协方差矩阵,基于贝叶斯的判别式,可以得到p(c1|x)>0.5是第一类  p(c1|x)可以转化为sigmod(z)=w*x+b    查看详情

andrewng机器学习课程笔记之逻辑回归

AndrewNg机器学习课程笔记(二)之逻辑回归版权声明:本文为博主原创文章,转载请指明转载地址http://www.cnblogs.com/fydeblog/p/7364598.html 前言学习了AndrewNg课程,开始写了一些笔记,现在写完第5章了,先把这5章的内容放在博客... 查看详情

机器学习的分类方法——逻辑回归

  这个算法看得一知半解的,无论如何,先把理解的写下来,往后再迭代。还是以问题为导向:这个分类模型如何构建?这个模型的分类原理?如何求解模型的参数?逻辑回归模型有什么优点?  第一个问题,对于简单的线... 查看详情

机器学习逻辑回归和线性回归的区别?(面试回答)

逻辑回归和线性回归的区别?逻辑回归=线性回归+sigmoid函数逻辑回归引入了sigmoid函数,这是一个非线性函数,增加了模型的表达能力逻辑回归输出有限离散值,可以用来解决概率问题、分类问题等。两者使... 查看详情

吴恩达机器学习第三周:logisticregression逻辑回归

先来说说回归的思想吧:常见的回归就是通过一系列的点,计算得到一条线。当有新的输入时,可以直接计算得到输出。用最小二乘法求解线性回归方程就是我们最早接触到的回归。对于线的表示都不尽相同,如线性回归得到的... 查看详情

[机器学习实战-logistic回归]使用logistic回归预测各种实例(代码片段)

[机器学习实战-Logistic回归]使用Logistic回归预测各种实例目录[机器学习实战-Logistic回归]使用Logistic回归预测各种实例本实验代码已经传到gitee上,请点击查收!一、实验目的二、实验内容与设计思想实验内容设计思想三、实验使... 查看详情

机器学习总结四:逻辑回归与反欺诈检测案例

机器学习算法总结一、Bagging之决策树、随机森林原理与案例二、boosting之GBDT、XGBT原理推导与案例三、SVM原理推导与案例四、逻辑回归与反欺诈检测案例五、聚类之K-means四、逻辑回归1、概述由线性回归变化而来的,应用于分... 查看详情

《机器学习》学习笔记:线性回归逻辑回归

《机器学习》学习笔记(一):线性回归、逻辑回归   本笔记主要记录学习《机器学习》的总结体会。如有理解不到位的地方,欢迎大家指出,我会努力改正。   在学习《机器学习》时,我主要是通过Andrew... 查看详情

机器学习---逻辑回归从初识到应用

一、前述逻辑回归是一种分类算法,对多元线性回归的结果做一定的缩放。是一种线性(x是一次的)有监督(有x,y)分类(要么是正列,要么是负例)算法。二、具体如果最后预测的结果大于0.5是正例小于0.5是负例做分类的误... 查看详情

机器学习常见算法优缺点之逻辑回归

我们在学习机器学习的时候自然会涉及到很多算法,而这些算法都是能够帮助我们处理更多的问题。其中,逻辑回归是机器学习中一个常见的算参考技术A我们在学习机器学习的时候自然会涉及到很多算法,而这些算法都是能够... 查看详情

机器学习:逻辑回归

...*****注:本系列博客是博主学习Stanford大学AndrewNg教授的《机器学习》课程笔记。博主深感学过课程后,不进行总结非常easy遗忘,依据课程加上自己对不明确问题的补充遂有此系列博客。本系列博客包含线性回归、逻辑回归、神... 查看详情

机器学习:逻辑回归(使用多项式特征)(代码片段)

一、基础逻辑回归中的决策边界,本质上相当于在特征平面中找一条直线,用这条直线分割所有的样本对应的分类;逻辑回归只可以解决二分类问题(包含线性和非线性问题),因此其决策边界只可以将特征平面分为两部分;问... 查看详情

机器学习逻辑回归介绍

...辑回归的应用场景逻辑回归(LogisticRegression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归。由于算法的简单和高效,在实际中应用非常广泛。广告点击率是否为垃圾邮件是... 查看详情