第五章:挖掘建模未完,待续

数据科学工作加油站 数据科学工作加油站     2022-08-17     447

关键词:

5.1 分类与预测

           分类主要是预测分类标号(离散属性);而与预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值;

       5.1.1 实现过程

                 分类 --- 构造一个分类模型,输入样本的属性值,输出对应的类别。分类建立在已有类标记的数据集上。有监督的学习

                 预测 --- 建立两种或两种以上变量间相互依赖的函数模型,然后进行预测。

         5.1.2 常用的分类与预测方法

                  回归分析;决策树; 人工神经网络; 贝叶斯网络; 支持向量机

         5.1.3 回归分析

                 主要的回归模型:线性回归; 非线性回归; Logistic回归; 岭回归; 主成分回归;

                 线性回归: 可用最小二乘法求模型系数;【适用范围:因变量与自变量都是线性关系

                 非线性回归: 如果非线性关系可用通过简单的函数转换为线性关系,用线性回归思想求解;如果不能转换,用非线性最小二乘方法求解;【适用范围:因变量与自变量不都是线性关系

                 Logistic回归:广义线性回归模型的特例, 利用Logistic函数将因变量的取值范围控制在0和1直接,表示取值为1的概率;【适用范围:因变量一般有1和0(是,非)两种取值

                 岭回归:改进的最小而成估计的方法;【适用范围:参与建模的自变量间之间具有多重共线性

                主成分回归:最小二乘法的一种改进,它是参数估计的一种有偏估计,可以消除自变量间之间具有多重共线性;【适用范围:参与建模的自变量间之间具有多重共线性

         5.1.4 决策树

        5.1.5 人工神经网络

        5.1.6 分类与预测算法评估:

         评估指标;

         绝对误差与相对误差;   平均绝对误差;       均方误差 ;       均方根误差 ;       平均绝对百分误差

         Kappa统计:用于比较两个或多个观测者对同一事物,或者观测者对同一事物的两次多多次观测结果是否一致。取值范围【-1, 1】

        识别准确度: Accuracy = (TP + FN) /( TP + TN + FP + FN) *100%  【注: TP(true positives):  正确的肯定 :表示正确的肯定的分类数】

           识别精确度: Precision = TP / (TP + FP)  *100%                                  【注:  FP(false positives): 错误的肯定:表示错误的肯定的分类数】

           反馈率:       Recall = TP /( TP + TN ) *100%                                        【注:  FN(false negatives): 错误的否定:表示错误的否定的分类数】

           ROC曲线

           混淆矩阵

       5.1.7 Python分类预测模型特点

            Python 步骤:

            建立一个对象 ---- 通过fit()方法对模型进行训练 ---- 通过predict()方法预测结果 ---- 通过score()方法对模型评估

5.2 聚类分析

        5.2.1 常用聚类方法:

            划分(分裂)方法;层次分析方法;基于密度的方法;基于网格的方法;基于模型的方法

       5.2.2 K-means聚类方法:

       5.2.3 聚类分析算法评估:

       5.2.4 Python 主要聚类分析方法:

            Python 步骤:

            先用对应的函数建立模型 ---- 利用.fit()方法对模型进行训练 ---- 利用.label_方法给出样本标签/或用.predict()方法预测新的输入的标签

5.3 关联规则

       5.3.1 常用的关联规则算法

       5.3.2 Apriori算法

 

5.4 时序模式

      5.4.1 时间序列算法

      5.4.2 时间序列的预处理

      5.4.3 平稳时间序列分析

     5.4.4 非平稳时间序列分析

     5.4.5 Python主要时序模式算法

5.5 离散点检测

      5.5.1 离群点检查方法

      5.5.2 基于模型的离群点检查方法

     5.5.3 基于聚类的离群点检查方法

[第五章]领域模型

领域建模是从需求分析到面向对象设计的一个桥梁领域模型是指对需求所涉及的领域的建模,换言之就是业务模型领域模型的作用:  发掘重要的业务领域模型;  建立业务领域概念之间的联系;领域模型的建立,... 查看详情

rhino5.0入门2初识rhino5(未完待续)

...,首先我们需要做的就是认识了解Rhino5的工作界面及建模的核心理念,具体内容如下建模的核心理念应用Rhino5为自由造型建模软件,可以用来做彩现、动画、工程图等模型,被广泛的应用在工业设计,珠宝设... 查看详情

第五章

团队有一致的集体目标,要一起完成这个目标。一个团队的成员不一定要同时工作。团队成员有各自的分工,互相依赖合作,共同完成任务。软件团队的模式有:一窝蜂模式,主治医师模式,明星模式,社区模式,业余剧团模式... 查看详情

未完待续

  学校标志 GUOZhijunDépartement: CIMES Rapport destage Université PierreetMarieCurie CIMES, M2 Tuteur d’école:MonsieurPascalVin 查看详情

漫谈回溯(未完待续)

将不使用优化算法、直接用朴素算法来解决问题的做法称为暴力法。回溯是带优化的穷举。回溯是具有界限函数的深度优先搜索。 查看详情

ant使用(未完待续)

  官网:https://ant.apache.org/,task介绍:https://ant.apache.org/manual/index.html     查看详情

未完待续

windowscmd命令和linux命令学习各种指令要系统,否则记不住并且容易混淆。进入某个目录cmdcdfoldernamelinuxcdfouldername进入某个盘cmdd:linuxcd/根目录展现当前目录下所有的文件和文件夹cmddirlinuxlslals-lrt当前目录下创建一个目录cmdmdtestdirli... 查看详情

ios开发——uitableview(未完,待续...)

  1.让tableview的自定义cell,自己计算高度。  self.tableView.estimatedRowHeight=44.0;  self.tableView.rowHeight=UITableViewAutomaticDimension;  其中,cell中可变高度的label,设置numberOfLines为0,使用AutoLayout布局,设置它的上下左右约束。 ... 查看详情

递归——耦合问题(未完待续。。。)

functionfactorial(n){if(n<=1){return1;}else{returnn*factorial(n-1);//可行,但是耦合性高,外部函数名改变,内部也要随之更改}}alert(factorial(4));functionfactorial(n){if(n<=1){return1;}else{returnn*arguments.callee(n-1);//低 查看详情

单表查询,未完待续

完整语法简单查询where时分组前的过滤条件groupby分组having是在聚合后针对聚合的结果进一步筛选orderby排序limit限制显示的条件正则表达式 查看详情

poi读取写入word未完,待续

,【项目实战】JavaPOI之Word导出经典案例一JavaPOI读取word文件POI-对于WORD的操作(一) 查看详情

关于闭包(未完待续)

<scriptsrc="~/js/jquery.min.js"></script><script>window.onload=function(){$("#Button1").click(function(){//functionfoo(x){//vartmp=3;//functionbar(y){//alert(x+y+(++tmp))//}//bar(10) 查看详情

devexpressribbon相关总结(未完待续)

1,点一个按钮,向上表示隐藏,向下表示显示出来//privatevoidbarButtonItem32_ItemClick(objectsender,DevExpress.XtraBars.ItemClickEventArgse)////if(!ribbon.Minimized)////ribbon.Minimized=true;//this.barButtonItem32.Glyph=globa 查看详情

未完待续(代码片段)

1#include<iostream>2#include<typeinfo>3#include<vector>45usingnamespacestd;67classBase8public:9virtualvoidfun()cout<<"Base::fun\n";10;11classDerived:publicBase12public:13v 查看详情

dockerrancher体验(未完待续.....)

dockerrancher体验官方githubhttps://github.com/rancher/rancher环境说明:10.6.0.14010.6.0.18710.6.0.188修改主机名:10.6.0.140=hostnamectl--staticset-hostnamereancher-manager10.6.0.187=hostnamectl--staticset-hostnamere 查看详情

cad二次开发学习笔记-未完待续...

CAD二次开发学习笔记-未完待续...总结一张关系图合并两个选择集,并改变所有对象的颜色///<summary>///合并两次选择的选择集,并将所有选择对象改变颜色///</summary>[CommandMethod("MergeSelectionSet")]publicv 查看详情

lamp编译安装(未完待续)

顺序安装:linuxapachemysqlphpLinux这个就不多说明了...CentOS6.5镜像虚拟机安装一次性安装开发工具:#yumgroupinstall"Developmenttools"or:#yum-ygroupinstall"Developmenttools"查看已安装的:#yumgrouplist|more#yumgrouplist|grepDevelpment#yumgrou 查看详情

读caffe源码(未完待续)

caffe源码阅读杂记准备一些参考网页NeuralNetworksandDeepLearningTUTORIALONDEEPLEARNINGFORVISIONDeepLearningTutorial知乎-深度学习caffe的代码怎么读Caffe源码解析caffe源码结构官方代码结构doxygen官方CaffeTutorial以C++源码形式配置debug&CPU版的caffe,... 查看详情