优化建模-第二节:回归分析

我擦我擦 我擦我擦     2022-12-09     109

关键词:

文章目录

一:概述

(1)回归分析概述

回归分析:在统计学和大数据中回归分析的定义分别为

  • 统计学:指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照设计变量多少,分为一元回归和多元回归分析;按照因变量的多少,可以分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系,可以分为线性回归分析和非线性回归分析
  • 大数据:在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系

(2)回归分析描述

回归分析:一般的回归分析可以写成如下形式,其含义为响应变量 b b b与自变量 a a a通过函数 f f f联系在一起

b = f ( a ) + ξ b=f(a)+\\xi b=f(a)+ξ

  • a ∈ R d a\\in R^d aRd自变量
  • b ∈ R b\\in R bR响应变量
  • ξ \\xi ξ是模型的噪声误差
  • 在实际问题中,一般只能知道 a a a b b b的观测值,而误差 ξ \\xi ξ是未知的

建立回归分析的最终任务是利用 m m m个观测值 ( a i , b i ) (a_i,b_i) (ai,bi)来求解出 f f f的具体形式,然后对新观测的自变量对响应变量做出预测

函数 f f f取值于函数空间中,为了缩小 f f f的范围,一般会将其进行参数化,于是上述模型转变为

b = f ( a ; x ) + ξ b=f(a;x)+\\xi b=f(a;x)+ξ

  • f ( a ; x ) f(a;x) f(a;x)含义为 f f f x ∈ R n x\\in R^n xRn为参数,通过选取不同的 x x x得到不同的 f f f

参数化的意义在于 f f f选取的范围缩小到了有限维空间 R n R^n Rn中,求解函数 f f f的过程实际上就是求解参数 x x x的过程

(3)常见回归分析类型

线性回归(Linear Regression):这是最为熟知的建模技术之一,也是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的

逻辑回归(Logistic Regression):用来计算 “事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1/0,真/假,是/否)变量时,应该使用逻辑回归

多项式回归(Polynomial Regression):对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。例如 y = a + b x 2 y=a+bx^2 y=a+bx2。在这种回归技术中,最佳拟合线不是直线,而是曲线

逐步回归(Stepwise Regression):在处理多个自变量时,可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。这种建模技术的目的是使用最少的预测变量数来最大化预测能力

岭回归(Ridge Regression):当数据之间存在多重共线性(自变量高度相关) 时,就需要使用岭回归进行分析。在存在多重共线性时,尽管最小二乘法测得的估计值不存在偏差,它们的方差也会很大,从而使得观测值与真实值相差甚远。岭回归通过给回归估计值添加一个偏差值,来降低标准误差

Lasso回归(Lasso Regression):类似于岭回归,Lasso回归也会就回归系数向量给出惩罚值项。此外,它能够减少变化程度并提高线性回归的模型。Lasso回归与Ridge回归不同的是,它使用的乘法函数 l 1 l_1 l1范数而不是 l 2 l_2 l2范数。这导致惩罚值使一些参数估计结果等于0,使用的惩罚值越大,进一步估计会使得缩小值越趋于0,这导致要从给定的 n n n个变量中选择变量

弹性网络回归(ElasticeNet Regression):是Lasso和Ridge回归技术的混合体。它使用 L 1 L1 L1来训练并且 L 2 L2 L2优先作为正则化矩阵。当有多个相关的特征时,弹性网络回归是很有用的

(4)过拟合和欠拟合

什么才算好的模型:一个好的模型需要有比较优秀的预测能力,即我们需要将 f f f作用在测试集数据上,计算其预测误差

  • 过拟合:对训练数据拟合效果非常好,但在测试数据上效果却很差
  • 欠拟合:对训练数据拟合效果都很差,构建的 f f f必不能完全解释 a a a b b b之间的依赖关系

总的来说,一个好的模型要同时兼顾两个方面,即在测试数据上的预测误差小,同时具有简单的形式

二:线性回归模型

(1)线性回归模型

线性回归:设 ( w i , b i ) (w_i,b_i) (wi,bi)为观测到的自变量与响应变量,且不同数据点相互独立,则对每个数据点

b i = w i 1 x 1 + w i 2 x 2 + . . . + w i 1 x 1 + w i 2 x 2 + w i , n − 1 x n − 1 + x n , i = 1 , 2 , . . . , m b_i=w_i1x_1+w_i2x_2+...+w_i1x_1+w_i2x_2+w_i,n-1x_n-1+x_n,i=1,2,...,m bi=wi1x1+wi2x2+...+wi1x1+wi2x2+wi,n1xn1+xn,i=1,2,...,m

  • x i x_i xi是需要确定的参数
  • ξ i \\xi_i ξi是某种噪声且不同数据点之间相互独立

将训练集中的输入特征加上常数项 1 1 1(对应元素为 x n x_n xn),写成 a i = ( w i T 1 ) a_i=(w_i^T 1) ai=(wiT1),令 x = ( x 1 , x 2 , . . . , x n ) T ∈ R n x=(x_1,x_2,...,x_n)^T\\in R^n x=(x1,x2,...,xn)TRn,则线性回归模型可简写为

b i = a i T x + ξ i b_i=a_i^Tx+\\xi_i bi=aiTx+ξi

使用矩阵表示更为简洁,所以我们将训练集中的输入特征写成一个 m × n m×n m×n矩阵 A A A,将标签 b i b_i bi和噪声 ξ i \\xi_i ξi写成向量形式,也即

得到其矩阵形式

b = A x + ξ b=Ax+\\xi b=Ax+ξ

假设 ξ i \\xi_i ξ

机器学习-第二节:机器学习模型之线性回归

部分参考机器学习算法——线性回归(超级详细且通俗)刘建平博客文章目录一:线性回归基本概念(1)回归分析(2)线性回归二:线性回归确定参数的方法(1)最小二乘法A:代数求... 查看详情

备战数学建模30-回归分析2(代码片段)

目录一、回归分析的使命二、回归分析的分类三、数据的分类及处理方法四、回归系数的解释五、特殊变量的处理六、回归分析案例一、回归分析的使命回归分析的三个使命如下:第一、识别重要变量,可以用逐步回归&#... 查看详情

带你建模带你飞updation常见方法

...法、模糊评判方法、时间序列方法、灰色理论方法、现代优化算法(禁忌搜索算法,模拟退火算法,遗传算法,神经网络)。用这些方法可以解下列一些模型:优化模型、微分方程模型、统计模型、概率模型、图论模型、决策模... 查看详情

(王道408考研数据结构)第七章查找-第二节1:顺序查找及其优化(代码片段)

...章目录一:顺序查找基本思想二:效率分析三:顺序查找优化(针对查找表为有序表)四:顺序查找优化(针对查找概率不相等)一:顺序查找基本思想顺序查找(SequentialSearch):又叫做线性查找。从表中第一个或最后一个记录开... 查看详情

-第二节:注意力汇聚:nadaraya-watson核回归(代码片段)

目录简介10.2.注意力汇聚:Nadaraya-Watson核回归10.2.1.生成数据集10.2.2.平均汇聚10.2.3.非参数注意力汇聚10.2.4.带参数注意力汇聚10.2.4.1.批量矩阵乘法10.2.4.2.定义模型10.2.4.3.训练10.2.5.小结结语简介Hello!非常感谢您阅读海轰的... 查看详情

关系查询处理和关系优化-第二节:查询优化(代码片段)

文章目录一:查询优化概述(1)查询优化的地位和重要性(2)执行代价二:一个例子(1)情况1①:计算广义笛卡尔积②:作选择操作③:作投影操作(2)情况2①:计算自... 查看详情

数学建模:1.监督学习--回归分析模型(代码片段)

 1.回归分析在统计学中,回归分析(regressionanalysis)指的是确定两种或两种以上变量间互相依赖的定量关系的一种统计分析方法。按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。   2... 查看详情

第二节课:功能测试需求分析方法

1.功能测试、测哪些内容2、需求文档--测试需求1、了解需求想要做什么要完成哪些功能模块2、明确用户,不同用户角色的权限等3、要完成功能,用户需要哪些步骤分析功能步骤方法:用思维导图网络环境(网络中断,网络切换... 查看详情

数据库设计-第二节:需求分析

文章目录一:需求分析的任务二:需求分析的步骤和方法(1)步骤(2)方法三:数据字典(1)定义(2)组成①:数据项②:数据结构③:数据流④:数据存储⑤:处... 查看详情

最优化所需基础知识-第二节:凸集

B文章目录一:直线和线段二:仿射集(1)仿射集定义(2)仿射组合(3)仿射集的子空间(4)仿射包二:凸集(1)凸集定义(2)凸集的性质(3)凸组合(4)凸包(5)锥、锥组合和凸锥一:直线和线段直线:设x1x_1x1​和x2x_2x2... 查看详情

面向对象分析-第二节:面向对象分析之建立对象模型

...象模型的原因(3)信息来源(4)典型的建模步骤二:确定类与对象(1)找出候选的类与对象A:客观事物分类B:非正式分析C:提取隐含的类与对象(2)筛选出正确的类与对象三ÿ... 查看详情

决策树(回归树)分析及应用建模

一、CART决策树模型概述(ClassificationAndRegressionTrees)    决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。??决策树算法属于有指导的学习,即原数据必须... 查看详情

软件构造第二章第二节软件构造的过程系统和工具

第二章第二节软件构造的过程、系统和工具Outline广义的软件构造过程编程静态代码分析动态代码分析调试与测试重构狭义的软件构造过程构造系统:经典BUILD场景构造系统的组件构造过程和构造描述Java编译工具子目标和结构变... 查看详情

需求分析-第二节:实体联系图(er图)和状态转换图

文章目录一:实体联系图(E-R图)(1)定义(2)符号表示(3)示例二:状态转换图(1)定义(2)表示方式一:实体联系图(E-R图)(1࿰ 查看详情

数学建模暑期集训6:用spss对数据进行多元线性回归分析

在本专栏的第六篇数学建模学习笔记(六)多元回归分析算法(matlab)博文中,记录了如何用matlab进行多元回归分析。本篇则将使用spss软件达到同样的效果,且使用起来比matlab更为方便。空谈理论,枯... 查看详情

python实现lasso回归分析(特征筛选建模预测)(代码片段)

实现功能:python实现Lasso回归分析(特征筛选、建模预测)输入结构化数据,含有特征以及相应的标签,采用Lasso回归对特征进行分析筛选,并对数据进行建模预测。实现代码:importnumpyasnpimportwarningswarn... 查看详情

斯坦福机器学习课程笔记

模型(如何模拟)---策略(风险函数)--算法(最优化方法)第一节:机器学习的基本概念和分类第二节:线性回归,最小二乘批梯度下降(bgd)和随机梯度下降(sgd)第三节:过拟合,欠拟合非参数学习算法:局部加权回归概率角度解... 查看详情

中国mooc北京理工大学机器学习第二周:回归

...是用最小平方函数对一个或多个自变量和因变量之间进行建模。 导入和使用比较简单。fromsklearnimportlinear_modellinear=linear_model.LinearRegression()linear.fit(data 查看详情