机器学习之线性回归概念总结速记

寂静花开 寂静花开     2023-03-05     463

关键词:

线性回归简介

线性回归应用场景

  • 房价预测
  • 销售额度预测
  • 贷款预测

线性回归定义

线性回归(Linear regression)是利用回归方程(函数)一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

特点:
单变量回归:只有一个自变量
多元回归:多于一个自变量

公式
h ( w ) = w 1 x 1 + w 2 x 2 + w 3 x 3 + . . . + b = w T x + b h(w)=w_1x_1+w_2x_2+w_3x_3+...+b=w^Tx+b h(w)=w1x1+w2x2+w3x3+...+b=wTx+b,
其中
w = ( b w 1 w 2 ⋮ ) w= \\beginpmatrix b \\\\ w_1 \\\\ w_2 \\\\ \\vdots \\endpmatrix w=bw1w2, x = ( 1 x 1 x 2 ⋮ ) x= \\beginpmatrix 1 \\\\ x_1 \\\\ x_2\\\\\\vdots \\endpmatrix x=1x1x2

特征值与目标值之间建立了一个关系,这个关系可以理解为线性模型

线性回归模型

线性关系:

  • 单变量线性关系:单特征与与目标值的关系呈直线关系
  • 多变量线性关系:例,两个特征与目标值呈现平面的关系
    非线性关系

线性回归初步使用

步骤分析

  • 1.获取数据集
  • 2.数据基本处理
  • 3.特征工程
  • 4.机器学习
  • 5.模型评估

代码过程

  • 导入模块
  • 构造数据集
  • 机器学习-模型训练

线性回归的损失和优化

损失函数

最小二乘法

优化算法

线性回归经常使用的两种优化算法
正规方程
梯度下降法

正规方程

x w = ( X T X ) − 1 X T y xw=(X^TX)^-1X^Ty xw=(XTX)1XTy
理解:X为特征值矩阵,y为目标值矩阵。直接求到最好的结果

缺点:当特征过多过复杂时,求解速度太慢并且得不到结果

正规方程 – 一蹴而就

  • 利用矩阵的逆,转置进行一步求解
  • 只是适合样本和特征比较少的情况

梯度下降

梯度下降的基本过程就和下山的场景很类似。
一个可微分的函数。这个函数就代表着一座山。
我们的目标就是找到这个函数的最小值,也就是山底。

梯度的概念

  • 单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率;

  • 在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向。

    • 单变量 – 切线
    • 多变量 – 向量

梯度下降法中关注的两个参数

  • α – 就是步长
    • 步长太小 – 下山太慢
    • 步长太大 – 容易跳过极小值点(*****)
  • 为什么梯度要加一个负号
    • 梯度方向是上升最快方向,负号就是下降最快方向

全梯度下降算法(FG)

  • 在进行计算的时候,计算所有样本的误差平均值,作为我的目标函数

随机梯度下降算法(SG)

  • 每次只选择一个样本进行考核

小批量梯度下降算法(mini-batch)

  • 选择一部分样本进行考核

随机平均梯度下降算法(SAG)

  • 会给每个样本都维持一个平均值,后期计算的时候,参考这个平均值

梯度下降和正规方程的对比

梯度下降正规方程
需要选择学习率不需要
需要迭代求解一次运算得出
特征数量较大可以使用需要计算方程,时间复杂度高O(n3)

算法选择依据

  • 小规模数据:
    • 正规方程:LinearRegression(不能解决拟合问题)
    • 岭回归
  • 大规模数据:
    • 梯度下降法:SGDRegressor

欠拟合和过拟合

定义

  • 过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据(体现在准确率下降),此时认为这个假设出现了过拟合的现象。(模型过于复杂)

  • 欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)

区别

  • 欠拟合在训练集和测试集上的误差都较大
  • 过拟合训练集上误差较小,而测试集上误差较大

二者出现的原因和解决办法

  • 欠拟合

    • 原因:学习到数据的特征过少
    • 解决办法:
      • 1)添加其他特征项
      • 2)添加多项式特征
  • 过拟合

    • 原因:原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾各个测试数据点
    • 解决办法:
      • 1)重新清洗数据
      • 2)增大数据的训练量
      • 3)正则化
      • 4)减少特征维度,防止维灾难

正则化

数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多,所以算法在学习的时候尽量减少这个特征的影响(甚至删除某个特征的影响)

  • 通过限制高次项的系数进行防止过拟合
  • L1正则化
    • 理解:直接把高次项前面的系数变为0
    • Lasso回归
  • L2正则化
    • 理解:把高次项前面的系数变成特别小的值
    • 岭回归

机器学习之线性回归算法

...回归算法总结:  回归是统计学中最有力的工具之一。机器习监督学习算法分为分类算法和回归算法两种,其实就是根据类别标签分布类型为离散型、连续性而定义的。回归算法用于连续型分布预测,针对的是数值型的样本,... 查看详情

机器学习之线性回归

1.线性回归简述在统计学中,线性回归(LinearRegression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合(自变... 查看详情

机器学习之线性回归选择题总结

...数据的特征过少B学习到数据的特征过多C学习到错误数据D机器运算错误答案:A3、线性回归的核心是()A.构建模型B.距离度量C.参数学习D.特征提取答案:C4、在估计线性回归模型时,可以将总平方和分解为回... 查看详情

机器学习之线性回归以及logistic回归

1、线性回归回归的目的是预测数值型数据的目标值。目标值的计算是通过一个线性方程得到的,这个方程称为回归方程,各未知量(特征)前的系数为回归系数,求这些系数的过程就是回归。对于普通线性回归使用的损失函数... 查看详情

机器学习之一元线性回归模型

一元线性回归模型样本数量m           输入变量x              输出变量y    &nb 查看详情

javascript机器学习之线性回归

译者按:AI时代,不会机器学习的JavaScript开发者不是好的前端工程师。原文:MachineLearningwithJavaScript:Part1译者:Fundebug为了保证可读性,本文采用意译而非直译。另外,本文版权归原作者所有,翻译仅用于学习。使用JavaScript做机器学... 查看详情

机器学习之线性回归(代码片段)

文章目录评价方法一元线性回归np.polyfit求解带入公式求解化简公式求解lstsq求解多元线性回归代码实现一元多项式回归代码实现参考评价方法回归问题有很多的评价方法。这里主要想写一下R^2的计算方法。需要计算R^2需要先弄清... 查看详情

机器学习之线性回归

1.机器学习算法**监督学习:**已经知道类别的样本,通过一定的模型或者是特定的算法,可以预测出某种特定的结果,例如预测房价,最终可以预测出房价是什么,或者是预测肿瘤疾病,判断肿瘤是良... 查看详情

机器学习之线性回归

1.机器学习算法**监督学习:**已经知道类别的样本,通过一定的模型或者是特定的算法,可以预测出某种特定的结果,例如预测房价,最终可以预测出房价是什么,或者是预测肿瘤疾病,判断肿瘤是良... 查看详情

sparkmllib学习之线性回归

SparkMLlib学习之线性回归(一)回归的概念  1,回归与分类的区别   分类模型处理表示类别的离散变量,而回归模型则处理可以取任意实数的目标变量。但是二者基本的原则类似,都是通过确定一个模型,将输入特征映射... 查看详情

机器学习之线性回归(代码片段)

以kaggle上的HousePrices:AdvancedRegressionTechniques为例讲述线性回归fromsklearn.linear_modelimportLinearRegression,RidgeCV,LassoCV,ElasticNetCV1、回归模型(1)一般线性回归:LinearRegressionwithoutregularizationfromsklearn.linear_modelimportLinearRegressionlr=LinearRegression... 查看详情

20171028机器学习之线性回归过拟合问题的解决方案

在函数中加入一个正则项: 三种方式:一、Ridge回归(岭回归):  优点:具有较高的准确性、鲁棒性以及稳定性  缺点:求解速度慢二、Lasso回归:  优点:求解速度快(原理降维计算,把数据维度中存在的噪音和... 查看详情

机器学习之linearregression线性回归(代码片段)

一、预测先来看看这样一个场景:假如你手头有一套房子要出售,你咨询了房产中介。中介跟你要了一系列的数据,例如房子面积、位置、楼层、年限等,然后进行一系列计算后,给出了建议的定价。房产中介是如何帮你定价的... 查看详情

机器学习之逻辑回归

1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同?逻辑回归又称逻辑回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域;与线性回归相比大致有两大不同:①... 查看详情

机器学习之线性回归(代码片段)

目录预测数值型数据:回归用线性回归找到最佳拟合直线程序8-1标准回归函数和数据导入函数程序8-2基于程序8-1绘图图片8-1ex0的数据集和它的最佳拟合直线局部加权线性回归图片8-2参数k与权重的关系程序8-3局部加权线性回归函... 查看详情

菜鸟之路——机器学习之非线性回归个人理解及python实现(代码片段)

关键词:梯度下降:就是让数据顺着梯度最大的方向,也就是函数导数最大的放下下降,使其快速的接近结果。Cost函数等公式太长,不在这打了。网上多得是。这个非线性回归说白了就是缩小版的神经网络。python实现:1importnump... 查看详情

机器学习之理论篇—线性模型

机器学习之理论篇—线性模型2016-05-02 雷厉风行 机器学习与大数据算法线性模型是机器学习中的最基本模型,其形式简单、易于建模。线性回归模型虽然简单,但却非常的实用,许多非线性模型也都是建立在线性模型的... 查看详情

机器学习之回归简介

线性回归综述目的是找到一个映射,最能反映二者之间的关系。用来预测当有新的样本输入的时候,输入的结果线性回归处理的变量必须是连续的。欠拟合&过拟合过拟合跟欠拟合是ml算法表现差的两大原因欠拟合:... 查看详情