正文

拓端tecdat|r语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用

author  author  2022-12-09  234

关键词：

R语言多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用

通常，我们在回归模型中一直说的一句话是“ 请查看一下数据 ”。

在上一篇文章中，我们没有查看数据。如果我们查看单个损失的分布，那么在数据集中，我们会看到以下内容：

> n=nrow(couts)
> plot(sort(couts$cout),(1:n)/(n+1),xlim=c(0,10000),type="s",lwd=2,col="green")

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_r语言

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_多分类logistic逻辑回归_02

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_单个风险损失值_03

看来我们的数据库中有固定成本索赔。在标准情况下，我们如何处理？我们可以在这里使用混合分布，

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_单个风险损失值_04

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_R语言_05

与

小额索赔的分布，例如指数分布
狄拉克分布，即
分布，例如Gamma分布或对数正态分布

>  I1=which(couts$cout<1120)
>  I2=which((couts$cout>=1120)&(couts$cout<1220))
>  I3=which(couts$cout>=1220)
>  (p1=length(I1)/nrow(couts))
[1] 0.3284823
>  (p2=length(I2)/nrow(couts))
[1] 0.4152807
>  (p3=length(I3)/nrow(couts))
[1] 0.256237
>  X=couts$cout
>  (kappa=mean(X[I2]))
[1] 1171.998

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_R语言_06

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_单个风险损失值_07

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_r语言_08

在上一篇文章中，我们讨论了所有参数可能与某些协变量相关的想法，即

$https://latex.codecogs.com/gif.latex?f（y | \\ boldsymbol X）％20 =％20p_1（\\ boldsymbol X）％20 \\ color Blue％20f_1（ y | \\ boldsymbol X \\ color Blue％20）％20 +％20p_2（\\ boldsymbol X）％20 \\ color Magenta％20 \\ delta _ \\ kappa（ y \\ color 洋红色％20）％20 +％20p_3（\\ boldsymbol X）％20 \\ color Red％20f_3（ y | \\ boldsymbol X \\ color Red％20）$

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_单个风险损失值_10

产生以下模型，

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_多分类logistic逻辑回归_11

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_R语言_12 对于概率，我们应该使用多项式模型。回忆一下逻辑回归模型，如果

$https://latex.codecogs.com/gif.latex?(\\pi,1-\\pi)=(\\pi_1,\\pi_2）$

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_多分类logistic逻辑回归_14 ，则

$https://latex.codecogs.com/gif.latex?\\log%20\\frac\\pi1-\\pi=\\log%20\\frac\\pi_1\\pi_2%20=\\boldsymbol X％27 \\ boldsymbol \\ beta$

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_r语言_16 即

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_r语言_17

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_r语言_18

$https://latex.codecogs.com/gif.latex?\\pi_2%20=%20\\frac11+\\exp(\\boldsymbolX%27\\boldsymbol\\beta）$

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_混合分布_20

要导出多元扩展

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_多分类logistic逻辑回归_21

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_r语言_22

和

$https://latex.codecogs.com/gif.latex?\\pi_3%20=%20\\frac11+\\exp(\\boldsymbolX%27\\boldsymbol\\beta_1)+\\exp （\\ boldsymbol X％27 \\ boldsymbol \\ beta _2）$

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_多分类logistic逻辑回归_24

同样，可以使用最大似然，因为

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_单个风险损失值_25

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_单个风险损失值_26 在这里，变量

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_混合分布_27

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_多分类logistic逻辑回归_28 （分为三个级别）分为三个指标（就像标准回归模型中的任何分类解释变量一样）。从而，

$https://latex.codecogs.com/gif.latex?\\log%20\\mathcalL(\\boldsymbol\\beta,\\boldsymboly)\\propto%20\\sum_i=1^n ％20 \\ sum_ j = 1 ^ 2％20 \\ left（Y_ i，j％20 \\ boldsymbol X _i％27 \\ boldsymbol \\ beta _j \\ right）％20-％20n_i \\ log \\左[1 + 1 + \\ exp（\\ boldsymbol X％27 \\ boldsymbol \\ beta _1）+ \\ exp（\\ boldsymbol X％27 \\ boldsymbol \\ beta _2）\\ right]$

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_R语言_30

对于逻辑回归，然后使用牛顿拉夫森（Newton Raphson）算法在数值上计算最大似然。在R中，首先我们必须定义级别，例如

> couts$tranches=cut(couts$cout,breaks=seuils,
+ labels=c("small","fixed","large"))

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_r语言_31

然后，我们可以定义一个多分类logistic模型回归

使用一些选定的协变量

> formula=(tranches~ageconducteur+agevehicule+zone+carburant,data=couts)
# weights:  30 (18 variable)
initial  value 2113.730043 
iter  10 value 2063.326526
iter  20 value 2059.206691
final  value 2059.134802 
converged

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_混合分布_32

输出在这里

Coefficients:
      (Intercept) ageconducteur agevehicule      zoneB      zoneC
fixed  -0.2779176   0.012071029  0.01768260 0.05567183 -0.2126045
large  -0.7029836   0.008581459 -0.01426202 0.07608382  0.1007513
           zoneD      zoneE      zoneF   carburantE
fixed -0.1548064 -0.2000597 -0.8441011 -0.009224715
large  0.3434686  0.1803350 -0.1969320  0.039414682

Std. Errors:
      (Intercept) ageconducteur agevehicule     zoneB     zoneC     zoneD
fixed   0.2371936   0.003738456  0.01013892 0.2259144 0.1776762 0.1838344
large   0.2753840   0.004203217  0.01189342 0.2746457 0.2122819 0.2151504
          zoneE     zoneF carburantE
fixed 0.1830139 0.3377169  0.1106009
large 0.2160268 0.3624900  0.1243560

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_r语言_33

为了可视化协变量的影响，还可以使用样条函数

> library(splines)

> reg=(tranches~bs(agevehicule))
# weights:  15 (8 variable)
initial  value 2113.730043 
iter  10 value 2070.496939
iter  20 value 2069.787720
iter  30 value 2069.659958
final  value 2069.479535 
converged

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_多分类logistic逻辑回归_34

例如，如果协变量是汽车的寿命，那么我们有以下概率

> predict(reg,newdata=data.frame(agevehicule=5),type="probs")
    small     fixed     large 
0.3388947 0.3869228 0.2741825

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_单个风险损失值_35

对于0到20岁的所有年龄段，

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_单个风险损失值_36

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_R语言_37

例如，对于新车，固定成本所占的比例很小（在这里为紫色），并且随着车龄的增长而不断增加。如果协变量是驾驶员居住地区的人口密度，那么我们获得以下概率

# weights:  15 (8 variable)
initial  value 2113.730043 
iter  10 value 2068.469825
final  value 2068.466349 
converged
> predict
    small     fixed     large 
0.3484422 0.3473315 0.3042263

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_多分类logistic逻辑回归_38

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_R语言_39

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_单个风险损失值_40

基于这些概率，可以在给定一些协变量（例如密度）的情况下得出索赔的预期成本。但首先，定义整个数据集的子集

> sbaseA=couts[couts$tranches=="small",]
> sbaseB=couts[couts$tranches=="fixed",]
> sbaseC=couts[couts$tranches=="large",]

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_单个风险损失值_41

阈值由

> (k=mean(sousbaseB$cout))
[1] 1171.998

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_r语言_42

然后，让我们运行四个模型，

> reg 
> regA 
> regB 
> regC

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_多分类logistic逻辑回归_43

现在，我们可以基于这些模型计算预测，

> pred=cbind(predA,predB,predC)

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_R语言_44

为了可视化每个组成部分对溢价的影响，我们可以计算概率，预期成本（给定每个子集的成本），

> cbind(proba,pred)[seq(10,90,by=10),]
       small     fixed     large    predA    predB    predC
10 0.3344014 0.4241790 0.2414196 423.3746 1171.998 7135.904
20 0.3181240 0.4471869 0.2346892 428.2537 1171.998 6451.890
30 0.3076710 0.4626572 0.2296718 438.5509 1171.998 5499.030
40 0.3032872 0.4683247 0.2283881 451.4457 1171.998 4615.051
50 0.3052378 0.4620219 0.2327404 463.8545 1171.998 3961.994
60 0.3136136 0.4417057 0.2446807 472.3596 1171.998 3586.833
70 0.3279413 0.4056971 0.2663616 473.3719 1171.998 3513.601
80 0.3464842 0.3534126 0.3001032 463.5483 1171.998 3840.078
90 0.3652932 0.2868006 0.3479061 440.4925 1171.998 4912.379

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_R语言_45

现在，可以将这些数字绘制在图形中，

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_单个风险损失值_46

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_R语言_47

（水平虚线在我们的数据集中是索赔的平均费用）。

拓端tecdat|R语言编程指导多分类logistic逻辑回归模型在混合分布模拟单个风险损失值评估的应用_R语言_49

特别系列

精算科学

关于结合数学、统计方法以及程序语言对经济活动来做风险分析、评估的见解。

探索系列 ➔

拓端tecdat|r语言编程指导时间序列数据指数平滑法分析交互式动态可视化

R语言时间序列数据指数平滑法分析交互式动态可视化 R语言提供了丰富的功能，可用于绘制R中的时间序列数据。包括：自动绘制 xts 时间序列对象（或任何可转换为xts的对象）的图。高度可配置的轴和系列显... 查看详情

拓端tecdat|r语言编程指导用线性模型进行臭氧预测：加权泊松回归，普通最小二乘，加权负二项式模型，多重插补缺失值

R语言用线性模型进行臭氧预测：加权泊松回归，普通最小二乘，加权负二项式模型，多重插补缺失值在这篇文章中，我将从一个基本的线性模型开始，然后从那里尝试找到一个更合适的线性模型。数据预处理由于空气... 查看详情

拓端tecdat|r语言代码编写相关分析和稳健线性回归分析

R语言相关分析和稳健线性回归分析目录怎么做测试功率分析介绍下面以物种多样性为例子展示了如何在R语言中进行相关分析和线性回归分析。怎么做测试相关和线性回归示例 Data=read.table(textConnection(Inp... 查看详情

拓端tecdat|r语言代写使用混合模型进行聚类

R语言使用混合模型进行聚类混合模型是k个分量分布的混合，它们共同形成混合分布：F（x ）f(x)F（x ）= Σk = 1ķαķFķ（x ）f(x)=∑k=1Kαkfk(x) 为什么要使用混合模型？让我们通过一个例子激... 查看详情

拓端tecdat|r语言辅导wald检验vs似然比检验

R语言Wald检验vs似然比检验在开展基于概率推理的课程时，关键主题之一是基于似然函数的检验和置信区间构建。通常包括Wald，似然比和分数检验。在这篇文章中，我将修改Wald和似然比检验的优缺点。我将重点关注置信区间... 查看详情

拓端tecdat|r语言bootstrap的岭回归和自适应lasso回归可视化(代码片段)

原文链接：http://tecdat.cn/?p=22921原文出处：拓端数据部落公众号拟合岭回归和LASSO回归，解释系数，并对其在λ范围内的变化做一个直观的可视化。 #加载CBI数据 #子集所需的变量（又称，列） CBI_sub<-CBI #... 查看详情

拓端tecdat|r语言辅导解释生存分析中危险率和风险率的变化

R语言解释生存分析中危险率和风险率的变化危险率函数让我们模拟R中的一些数据：n<-10000h<-0.5t<--log（runif（n））/h该代码模拟了危险函数的存活时间，即常数。事件<-1*（t<5）时间<-tobstime[obstime>=5]<... 查看详情

r语言等级多分类logistic回归模型实战

R语言等级多分类Logistic回归模型实战目录R语言有序多分类Logistic回归模型实战#导入包#数据加载查看详情

r语言无序多分类logistic回归模型实战

R语言无序多分类Logistic回归模型实战目录R语言无序多分类Logistic回归模型实战#导入包#加载数据数据编码查看详情

拓端tecdat|python代写辅导使用神经网络进行简单文本分类

Python使用神经网络进行简单文本分类深度学习无处不在。在本文中，我们将使用Keras进行文本分类。准备数据集出于演示目的，我们将使用 20个新闻组数据集。数据分为20个类别，我们的工作是预测这些类别。如... 查看详情

r语言用logistic逻辑回归和afrimaarima时间序列模型预测世界人口(代码片段)

原文链接:http://tecdat.cn/?p=27493 原文出处：拓端数据部落公众号本文应用R软件技术，分别利用logistic模型、ARFMA模型、ARIMA模型、时间序列模型对从2016到2100年的世界人口进行预测。作者将1950年到2015年的历史数据作为训... 查看详情

拓端tecdat:看推特数据如何”塑造”地区形象

“高度信息化的今天,社交媒体向我们提供直接认识外界的一个窗口,决定着大家对一个地区的认知，像是一双对地区形象“塑型”的“看不见”的手。▼根据这个背景，tecdat对素有“塞上江南”之称的宁夏热门推文（hottweet，推... 查看详情

拓端tecdat|python辅导基于粒子群优化的投资组合优化研究

基于粒子群优化的投资组合优化研究我今年的研究课题是使用粒子群优化（PSO）的货币进行交易组合优化。在本文中，我将介绍投资组合优化并解释其重要性。其次，我将演示粒子群优化如何应用于投资组合优化。... 查看详情

r语言glm拟合logistic回归模型：输出logistic回归的summary信息可视化logistic回归模型的系数logistic回归模型分类评估计算（混淆矩阵accuracy偏差）

R语言glm拟合logistic回归模型：输出logistic回归的summary信息、可视化logistic回归模型的系数、logistic回归模型分类评估计算（混淆矩阵、accuracy、偏差Deviance）目录查看详情

拓端tecdat|基于出租车gps轨迹数据的研究：出租车行程的数据分析

基于出租车GPS轨迹数据的研究：出租车行程的数据分析数据Reddit用户imjasonh和fhoffa解析了原始数据，该模式如下所示：每次骑行都有非常具体的上/下车位置以及开始/结束时间的详细信息。下面显示了一个示例 ... 查看详情

拓端tecdat|图像倾斜校正算法的matlab代写实现：图像倾斜角检测及校正

图像倾斜校正算法的MATLAB实现：图像倾斜角检测及校正随着多媒体技术的不断发展，数码相机，高清拍照手机等多媒体设备己经在人们的生活中占据了越来越重要的地位。通过采用图像处理技术，可以将数码设备采集到的文字、... 查看详情

怎么用r语言建立有序三分类logistic模型

参考技术A建立m函数文件存为logistic1functionf=logistic1(b)t=[0,5,10,24,33,48,57,72,96,120,144,168,192,216];y=[0,0.028,0.103,0.336,0.450,0.597,0.716,0.778,0.835,0.849,0.816,0.839,0.811,0.816];f=y-b(1)./(1+b(2).*exp(-b(3).*t));b0=[10,2,2];>>b=leastsq('logistic1',b0)b=0.822113.... 查看详情

r语言构建logistic回归模型并评估模型：模型预测结果抽样可视化模型分类预测的概率分布情况使用wvplots包绘制roc曲线并计算auc值

R语言构建logistic回归模型并评估模型：模型预测结果抽样、可视化模型分类预测的概率分布情况、使用WVPlots包绘制ROC曲线并计算AUC值目录查看详情

正文