机器学习融合想法记录(未完成版)

cxw296052618 cxw296052618     2022-12-03     673

关键词:

## **文档说明**
本文档主要记录模型融合的有关问题:为了使项目在模型预测有更好的表现,综合机器学习方面的模型融合技术,以提升算法在解决问题的能力。

## **使用背景**

业务情节:接单阶段;

时间段:2020

数据量:160W

特征数(本篇不对特征处理做说明):20

## **数据处理**
综合考虑数据的规范性与线上使用场景,切分数据:train,test,validate(视模型情况使用)。

#### 1、关于数据切分,有以下两个方案:

1.1、采用KFold多次洗牌,shuffle单次洗牌等方式对数据进行处理,规避特殊数据带来的影响,建议采用7:3比例,并且观察切分后各特征的误差值是否均匀(适用于验证模型效果)。

1.2、直接按时间切分数据(此法通常情况下,各数据集会存在较大的误差,特别在数据量少的情况下特别突出,但是却是实际生产环境中经常不可避免的)。

#### 2、关于数据缺失值的处理,有以下方案:

2.1、对于缺失严重值,建议直接取消该特征(实际意义已经不存在)。

2.2、采用各特征std填充。

2.3、采用各特征mean填充(更推崇2.2)。

2.2、根据业务特性进行分析,获取具有与实际业务意义符合的数据变化规律值进行填充。

## **评价指标**
MAE,MSE,残差分布

## **性能指标**
时间复杂度,空间复杂度,多核计算

## **损失函数**
一般回归算法以mse做损失,考虑有些模型须进行二次求导,非二次求导可采用mae做损失。建议根据业务应用场景也可选择分段函数做损失,

## **方案说明**

### 考虑不同算法的特点及特性,如树(容错性强,部分算法可允许缺失值存在),向量机,多元神经元(特征归一化效果明显,可操作性强)等方式,不同算法对于数据的表现不同,验证各算法间的在不同使用场景下的表现,计划算法如下:

1、tensorflow框架下的自建深度学习回归算法:

(初步)tensor图中,采用线性方程为神经元,二层layer,分别做两组对比(20-20Dense,80-100Dense),每层皆以relu函数做优化,最后输出层以 linear函数做最后的激活,创建的参数共计(861,9881),优化模型参数epoch在本测试中用20,30,50,以0.3%的Adam梯度算法进行收缩。

3、xgboost(XGBRegressor):

目前应用的模型,后续详细记录。

4、SVR(SVM Regressor):

待验证。

### 不同算法在应用背景下的各项指标表现(内存占用量以数据集转DataFrame数据类型量统计空间复杂度,由于对比模型都支持该数据格式,则无需对比):

1、tensorflow深度学习回归算法:

性能指标:由于其支持多核计算,视核数变化可提高时间效率,tf.function()在性能上有所优化,建议使用2.0版本。
最优指标:

2、xgboost:

python版本可使用多线程(GIL),实际为单核计算,效率逊于tensorflow(具体以各模型参数调优后再验证)。
最优mae:

3、SVM:
单核计算,效果待验证。

## **融合策略**

1、建议结合业务指标,综合各模型predict值与actual值之间的残差进行评估,采用加权平均进行融合。

2、以LG模型对各模型的预测值进行二次训练,以寻求最优融合参数。

3、以简单模型训练得到的结果作为模型特征,通常此特征相关性相对较高,再以高级算法模型进行(业务特征与)模型特征二次训练。

4、收集各模型数据预测值与实际值间的残差值,平方差等为特征,亦可再结合相关业务性质提取重要特征,再进行二次训练进行融合。

 

望建议 caixuwu@outlook.com

机器学习如何与大数据融合?

】机器学习如何与大数据融合?【英文标题】:HowMachineLearningintgreatewithBigData?【发布时间】:2020-03-1101:49:26【问题描述】:机器学习如何与大数据集成机器学习和MapReduce有什么区别我应该考虑的主要概念是什么三者中的哪一个(... 查看详情

机器学习算法集成学习-1强学习器的融合学习

..._CSDN博客-数据分析师领域博主目前进度:第四部分【机器学习算法】集成学习*前言引入:我们 查看详情

azure机器学习算法速查记录

简单翻译了一下Azure机器学习算法速查表,方便日后查阅,同时作为自己的学习日程安排。清晰版参考docx翻译文档 中文参考:https://blog.csdn.net/nfzhlk/article/details/82725769 查看详情

学习虚拟化技术需要掌握的知识与能力(未完成版)

我从1993年学习计算机,有过短期的C语言开发经历,现在主要从事网络与系统集成的工作。我可以算是学习计算机比较"早"的一批人了。1993年的时候,我是从MS-DOS3.30开始,直到最后的MS-DOS6.22。Windows系统是从Windows3.1(中文版)开... 查看详情

机器学习集成学习(未完成)

 集成学习原理集成学习是将许多个弱学习器通过策略组合到一起的算法,弱学习器可以是树或是神经网络或者是其他。目前集成学习的方法分为两大类:bagging方法和boosting方法。 bagging与随机森林bagging方法是从原始数据... 查看详情

如何在机器学习中训练未标记的数据?

】如何在机器学习中训练未标记的数据?【英文标题】:Howtotrainanunlableddatainmachinelearning?【发布时间】:2021-10-0307:56:44【问题描述】:我有近9000个实体的数据,我想训练我的模型并从数据中检测异常。我尝试了几件事来完成我... 查看详情

机器学习算法学习---模型融合和提升的算法

元算法(集成方法)是对其他算法进行组合的一种方式。优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整。缺点:对离群点敏感适用数据:数值型、标称型 AdaBoost算法的具体步骤如下:1.给定训练样... 查看详情

机器不学习:一种提升预测能力的方法-机器学习模型

机器不学习jqbxx.com-机器学习好网站没有哪个机器学习模型可以常胜,如何找到当前问题的最优解是一个永恒的问题。幸运的是,结合/融合/整合(integration/combination/fusion)多个机器学习模型往往可以提高整体的预测能力。这是一种... 查看详情

机器学习基础环境的安装与使用(mac版)

使用到Matplotlib、Numpy、Pandans等库1、创建虚拟环境>>>>sudopip3installvirtualenv  >>>>sudopip3installvirtualenvwrapper2、安装完成找不到mkvirtualenv的命令#1、创建目录用来存放虚拟环境mkdir$HOME/.virtualenvs#2、打开~/.ba 查看详情

深度学习入门比赛——街景字符识别(代码片段)

这是比赛的最后一个阶段,模型的集成融合在传统的机器学习中,模型集成融合有stack,投票等方式,在深度学习中,竟然也可以使用模型集成融合,这让我学到了很多,下面就将这些方法进行一下罗列记录,方便日后思考学习:... 查看详情

入门机器学习需要掌握哪些数据技能?

其实,机器学习一直在解决着各种重要的问题。比如说90年代中期,人们已经开始用神经网络来扫描信用卡交易记录,从中找到欺诈行为;90年代末,Google把这项技术用到了网络搜索上。 但在那个时候,机器学习还和普通的工程... 查看详情

机器学习线性回归之自行车数据版本1——简易版(代码片段)

数据说明数据来源:http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset 数据说明:仅使用day.csv文件字段说明:Instant记录号     Dteday:日期     Season:季节            1=春天 2=夏天 3=秋天 4=... 查看详情

C# 机器学习和多标签分类

】C#机器学习和多标签分类【英文标题】:C#MachineLearningandMulti-labelClassification【发布时间】:2020-03-0903:23:44【问题描述】:我是一名学徒,我刚刚完成了我的第一个.NETWeb应用程序,其主要前提是解析来自ELmah.io(错误记录模块和... 查看详情

普通码农入门机器学习,必须掌握这些数据技能

其实,机器学习一直在解决着各种重要的问题。比如说90年代中期,人们已经开始用神经网络来扫描信用卡交易记录,从中找到欺诈行为;90年代末,Google把这项技术用到了网络搜索上。但在那个时候,机器学习还和普通的工程... 查看详情

2018/09/24中秋假期最后一天

假期前总结:任务总结:leetcode完成2道——任务是4道。机器学习学习到神经网络——任务为完成神经网络题目。机器学习实战未开始——任务为完成第一张K邻近算法。算法课程听两次,未循环复习算法——任务为三次算法课程... 查看详情

《机器学习系统:设计和实现》以mindspore为例的学习

9.模型部署1.模型压缩通过量化、剪枝等手段减小模型体积以及计算复杂度的技术,可以分为需要重训的压缩技术和不需要重训的压缩技术两类。2.算子融合通过表达式简化、属性融合等方式将多个算子合并为一个算子的技术&... 查看详情

异想天开

机器学习,今天突然有个想法,所以记录下来学习是一个自发的过程,机器学习就是从有的学到没的,学习需要过程,而不是给什么它就能学到什么,比如说一个小学生学会了加法,你直接给2*3,他肯定不知道是什么,如果你给... 查看详情

人工智能机器学习和认知计算入门指南

几千年来,人们就已经有了思考如何构建智能机器的想法。从那时开始,人工智能(AI)经历了起起落落,这证明了它的成功以及还未实现的潜能。如今,随时都能听到应用机器学习算法来解决新问题的新闻。从癌症检测和预测到... 查看详情