正文

机器学习逻辑回归logisticregression

author  author  2022-08-03  126

关键词：

文章内容均来自斯坦福大学的Andrew Ng教授讲解的Machine Learning课程，本文是针对该课程的个人学习笔记，如有疏漏，请以原课程所讲述内容为准。感谢博主Rachel Zhang 的个人笔记，为我做个人学习笔记提供了很好的参考和榜样。

§ 3. 逻辑回归 Logistic Regression

1 分类Classification

首先引入了分类问题的概念——在分类(Classification)问题中，所需要预测的$y$是离散值。例如判断一封邮件是否属于垃圾邮件、判断一个在线交易是否属于诈骗、一个肿瘤属于良性肿瘤还是恶性肿瘤等，都属于分类问题。

技术分享

对于有两种类别的分类(例如上述三个例子)，可以分别将两种类别标记为正类(Positive Class)和负类(Negative Class)。在实际应用中，把一个类别标记为正类或负类是任意的，但一般来说会用正类代表拥有某样东西，用负类代表缺少某样东西。

分类问题可以分为多类分类(Multiclass Classification)问题和二元分类(Binary Classification)问题。

Andrew Ng以肿瘤分类问题为例，讲解了在分类问题中线性回归方法的有效性较低的原因。

技术分享

如图，当前的数据集中，如果应用线性回归方法并以$h_{\theta}(x)=0.5$为阈值将肿瘤分类，即以$h_{\theta}(x)=0.5$在横轴上的投影点为基准进行划分，左边的预测为良性肿瘤，右边的预测为恶性肿瘤，那么预测的效果还是很不错的。

技术分享

但在加入了最右的数据点之后，表示$h_{\theta}(x)$的直线从紫色线变成了蓝色线，预测准确性在$h_{\theta}(x)=0.5$处可以看出有了比较明显的降低。

如果线性回归算法应用在分类问题中，那么在y={0,1}的情况下，也有可能会出现$h_{\theta}(x)<0$或者$h_{\theta}(x)>1$的情况，而且h_{\theta}(x)可能会远小于0或者远大于1。因此，分类问题并不适合拿线性回归的方法来解决。

2 逻辑回归Logistic Regression

下面引入能够满足$0<=h_{\theta}(x)$的逻辑回归算法来解决上述问题。逻辑回归算法虽然名字上有个“回归”，但事实上是个分类算法。技术分享

首先引入了逻辑函数(Logistic Function)，也称S型函数(Sigmoid Function)——如图中的$g(z)$所示。逻辑函数的性质是：在正无穷处无限趋近于1，在负无穷处无限趋近于0，在z=0处值为0.5。

技术分享

Andrew Ng解释了$P(y=1|x;\theta)$所代表的含义，然后给出了$P(y=1|x;\theta)$与$P(y=0|x;\theta)$的重要特点——相加等于1。

然后给出了以下例题，考察了上述知识点。

技术分享

3 决策边界Decision Boundary

决策边界(Decision Boundary) 将整个平面分为y=1和y=0的两个预测区域，对于$\theta^{T}x>=0$的部分，有$h_{\theta}(x)$>0.5，因此预测为y=1;对于$\theta^{T}x<0$的部分则反之，预测为y=0。

决策边界不是训练集的属性，而是假设本身及其参数的属性。一旦给定了$\theta$，那么其决策边界就已经确定了。我们不是用训练集来定义决策边界，而是用训练集来拟合参数$\theta$。

技术分享

如果在平面上把训练集和决策边界都表现出来，那么应该是类似下图这样的效果。

技术分享

又例如下题中，$5-x_{1}=\theta^{T}x$，当$5-x_{1}=\theta^{T}x>=0$时有$x_{1}<5$,因此图像如图所示。而$x_{1}=5$即为该预测函数的决策边界。

技术分享

非线性决策边界(Non-Linear decision boundaries)，拥有复杂的多项式特征变量，得到复杂的决策边界，而不是简单的用直线分开正负样本。

例如如下的情况：

技术分享

4 代价函数Cost Function

逻辑回归模型中的代价函数如下所示：

技术分享

对于y=1：如果预测正确，那么代价为0；如果预测错误，那么代价将随着预测值趋于0而趋于无穷。即当预测错误时我们会以非常大的代价来惩罚学习算法。

技术分享

对于y=0:也是类似的，$Cost=0$ if $y=1$,$h_{\theta}(x)=1$

But as $h_{\theta}(x)\rightarrow 1$ $Cost\rightarrow \infty$

Captures intuition that if $h_{\theta}(x)= 1$(predict $P(y=0|x;\theta)=0$),but y=0,we will penalize learning algorithm by a very large cost.

技术分享

5 简化代价函数与梯度下降算法Simplified cost function and gradient descent

因为y只有两个取值：0,1

所以可以简化代价函数为：

技术分享

接下来，我们的目标就是最小化参数$\theta$了。

技术分享

之前提到过梯度下降算法，这里也是类似的用法：

技术分享

代入上述蓝色式子可得

技术分享

这个算法看起来似乎与应用于线性回归的梯度下降算法是一样的，但是事实上，这个式子中$h_{\theta}(x)$的假设并不同于应用于线性回归的梯度下降算法中的$h_{\theta}(x)$。

特征缩放也适用于逻辑回归算法中使得收敛速度更快。

6 高级优化算法Advanced Optimization

除了梯度下降算法之外，还可以考虑以下三种算法。这三种算法的有点是不用手动选择$alpha$、速度快，但也相应来说更复杂。技术分享

在算法实现的过程中，建议尽量调用matlab或者octave中已有的库。

技术分享

例如：

技术分享

一般来说，我们可以使用octave中的fminunc来实现这一算法，但是在fminunc中，$\theta$的维数应该大于1.

7 多类分类问题 Multiclass Classification

多类分类问题 Multiclass Classification是指有两个以上分类的分类问题。

在多类分类问题里，其实是产生了多个分类器的。

技术分享

这样one-vs-all的方法中，实际上由每个分类i的所有可能结果y=i来训练逻辑回归分类器。

技术分享

然后选择一个让h最大的i，不论i为多少我们都有最高的概率值。

技术分享

笔记目录

(一)单变量线性回归 Linear Regression with One Variable

(二)多变量线性回归 Linear Regression with Multiple Variables

(三)逻辑回归 Logistic Regression

(四)正则化与过拟合问题 Regularization/The Problem of Overfitting

(五)神经网络的表示 Neural Networks:Representation

(六)神经网络的学习 Neural Networks:Learning

(七)机器学习应用建议 Advice for Applying Machine Learning

(八)机器学习系统设计Machine Learning System Design

(九)支持向量机Support Vector Machines

(十)无监督学习Unsupervised Learning

(十一)降维 Dimensionality Reduction

(十二)异常检测Anomaly Detection

(十三)推荐系统Recommender Systems

(十四)大规模机器学习Large Scale Machine Learning

机器学习逻辑回归介绍

...辑回归的应用场景逻辑回归（LogisticRegression）是机器学习中的一种分类模型，逻辑回归是一种分类算法，虽然名字中带有回归。由于算法的简单和高效，在实际中应用非常广泛。广告点击率是否为垃圾邮件是... 查看详情

机器学习——逻辑回归（logisticregression）

1前言　　虽然该机器学习算法名字里面有“回归”，但是它其实是个分类算法。取名逻辑回归主要是因为是从线性回归转变而来的。　　logistic回归，又叫对数几率回归。2logistic回归和线性回归的关系2.1线性回归模型　　首先给... 查看详情

如何实现 L1 逻辑回归？

】如何实现L1逻辑回归？【英文标题】：HowtoimplementL1logisticregression?【发布时间】：2020-05-0921:20:57【问题描述】：作为学习课程的一部分，我尝试在Python中使用scikit-learn实现L1逻辑回归。不幸的是代码clf,pred=fit_and_plot_classifier(Logist... 查看详情

机器学习逻辑回归（logisticregression）

...了个大概，剩下的细节只能自己继续摸索。从本质上讲：机器学习就是一个模型对外界的刺激（训练样本）做出反应，趋利避害（评价标准）。 1.什么是逻辑回归？许多人对线性回归都比较熟悉，但知道逻辑回归的人可能就... 查看详情

[机器学习]--逻辑回归总结

逻辑回归是一个分类算法，它可以处理二元分类以及多元分类。虽然它名字里面有“回归”两个字，却不是一个回归算法。那为什么有“回归”这个误导性的词呢？个人认为，虽然逻辑回归是分类模型，但是它的原... 查看详情

andrewng机器学习：逻辑回归

1.逻辑回归解决什么问题？逻辑回归用于分类问题。对于二分类问题，输入多个特征，输出为是或不是（也可以写作1或0）。逻辑回归就是这样一个用于分类的模型。2.什么是逻辑回归？逻辑回归建立在线性回归的基础上。首先，... 查看详情

机器学习100天（十七）：017逻辑回归梯度下降

机器学习100天，今天讲的是：逻辑回归-梯度下降！在讲解了逻辑回归的基本原理和损失函数之后，我们来推导逻辑回归模型中参数w和b的梯度表达式。我们之前介绍过，计算逻辑回归的代价函数实际上包含了下面三个过程：Z=WTX+... 查看详情

机器学习100天（十七）：017逻辑回归梯度下降

机器学习算法---逻辑回归及梯度下降

一、逻辑回归简介　　logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。　　logistic回归是一种广义线性回归（generalizedlinearmodel），因此与多重线性回归分析... 查看详情

机器学习笔记逻辑回归

一、逻辑回归问题二分类的问题为是否的问题，由算出的分数值，经过sign函数输出的是（+1，-1），想要输出的结果为一个几率值，则需要改变函数模型，其中，，则逻辑回归的函数为二、逻辑回归错误评价线性分类和线性回归... 查看详情

逻辑回归|机器学习|分类算法(代码片段)

目录1.逻辑回归1.1逻辑回归原理1.2sigmoid函数2.相关代码2.1LogisticsRegression类2.2求解代码2.3输出结果3.直接调库使用1.逻辑回归1.1逻辑回归原理∙\\bullet∙逻辑回归又叫对数几率回归，是一种对数几率模型，可以求解二分类问... 查看详情

机器学习——线性回归分类与逻辑回归

http://antkillerfarm.github.io/序这是根据AndrewNg的《机器学习讲义》，编写的系列blog。http://www.cnblogs.com/jerrylead/archive/2012/05/08/2489725.html这是网友jerrylead翻译整理的版本，也是本文的一个重要的参考。http://www.tcse.cn/~xulijie/这是jerrylea 查看详情

机器学习100天（十六）：016逻辑回归损失函数

机器学习100天，今天讲的是：逻辑回归损失函数。一、如何找到最佳分类直线讲完了逻辑回归基本原理之后，我们再来思考一个非常关键的问题：就是如何找到最佳的分类直线呢？如图中所示，如何判断这三条直线哪个更好？线... 查看详情

机器学习100天（十六）：016逻辑回归损失函数

机器学习逻辑回归算法(代码片段)

逻辑回归算法学习目标1.逻辑回归的介绍1.1逻辑回归的应用场景1.2逻辑回归的原理1.2.1输入1.2.2激活函数1.3损失以及优化1.3.1损失1.3.2优化1.4小结2.逻辑回归api介绍3.案例：癌症分类预测-良／恶性乳腺癌肿瘤预测3.1背景介绍3.... 查看详情

机器学习---逻辑回归（machinelearninglogisticregressionii）

在《机器学习---逻辑回归（一）（MachineLearningLogisticRegressionI）》一文中，我们讨论了如何用逻辑回归解决二分类问题以及逻辑回归算法的本质。现在来看一下多分类的情况。现实中相对于二分类问题，我们更常遇到的是多... 查看详情

第五篇[机器学习]机器学习，逻辑回归comeon

逻辑回归，简单的说，就是用sigmoid函数把连续函数归一化转化成离散的几个可能的结果。逻辑回归的算法最大似然法：我自己的理解，最大似然法就是在你观测到某一系列事件出现的可能性之后，倒推该事件最可能的... 查看详情

机器学习——从线性回归到逻辑斯特回归

...行总结，其中图片多来自coursera课程上。线性回归是机器学习中很好理解的一种算法。我们以常见的房屋销售为例来进行简单分析：假设我们统计的一个房屋销售的数据如下：在此࿰ 查看详情