正文

大数据项目3（数据规约）

晨沉宸辰  晨沉宸辰  2022-12-09  734

关键词：

数据规约

一、简介
二、数据分析与挖掘体系位置
三、数据规约方法

一、简介

在数据集成与清洗后，我们能够得到整合了多数据源同时数据质量完好的数据集。但是，集成与清洗无法改变数据集的规模。我们依然需通过技术手段降低数据规模，这就是数据规约（Data Reduction）。数据规约采用编码方案，能够通过小波变换或主成分分析有效的压缩原始数据，或者通过特征提取技术进行属性子集的选择或重造。

二、数据分析与挖掘体系位置

数据规约是有数据预处理中的一个过程。所以其在数据分析与数据挖掘中的位置如下图所示。
在这里插入图片描述

三、数据规约方法

数据规约方法类似数据集的压缩，它通过维度的减少或者数据量的减少，来达到降低数据规模的目的，数据压缩（Data Compression）有无损与有损压缩。方法主要是下面两种：

维度规约（Dimensionality Reduction）：减少所需自变量的个数。代表方法为WT、PCA与FSS。
数量规约（Numerosity Reducton）：用较小的数据表示形式替换原始数据。代表方法为对数线性回归、聚类、抽样等。

1、维度规约（Dimensionality Reduction）

（1）小波变换（Wavelet Transform，WT）

小波变换是由傅里叶变换（FFT）发展而来的。

首先，傅里叶变换是一种针对信号频率的分解转换方法。它通过把信号分解成正余弦函数，把时域信号转为频率信号。但是FFT方法存在缺陷，就是经过拆分之后的信号只能显示其包含哪些成分，但是包含的各个成分出现的时间无法体现出来。

因此，就出现了短时傅里叶变换（STFT），它再FFT的基础上加入的时域的概念。STFT通过设置窗格，并假设窗格内信号是平稳的，对每个窗格内的信号分段进行FFT变换。其引入了时域信息，但是窗格的正确划分确很难判定。

最后，就产生了小波变换（WT），在方法上，WT将FFT的基由无限长的三角函数基换成了有限长会衰减的小波基。能在获取频率的同时定位时间。

在数据规约中，对数据进行小波转换后截断数据，保存最强的小波系数，从而保留近似的压缩数据。

（2）主成分分析（Principal Component Analysis，PCA）

主成分分析通过寻找原自变量的正交向量，将原有的n个自变量重新组合为不相关的新自变量。

当数据中存在的自变量个数过多，或者自变量之间存在相关性时，可以考虑使用PCA的方法重构自变量。

与小波变换相比，PCA能更好的处理离散数据，而WT更适合高维度数据。

（3）特征集选择（Feature Subset Selection，FSS）

特征选择时通过删除不相关或冗余的属性来减少维度与数据量。其目的是：定位最小属性集，使得数据的概率分布尽可能接近使用所有属性得到的原分布，简单说，就是从全部属性中选取一个特征属性子集，使构造出来的模型更好。

特征集选择的步骤一般是：建立子集集合、构造评价函数、构建停止准则、验证有效性。

选择特征集的方式一般有：序列向前、序列向后、序列前后组合、决策树方式这4中。

2、数量规约（Numerosity Reduction）

（1）参数化数据规约

参数化数据规约可以用回归模型与对数线性模型来实现。

首先，对数值型的数据，可以用回归的方法，对数据建模，使之拟合成直线或平面。在简单线性回归中，随机变量y可以表示为另一个随机变量x的线性函数。通过最小二乘法可以定义线性函数方程。在多元线性回归中，随机变量y可以用多个随机变量表示。

其次，如果我们想分析多个分类变量间的关系，对多个分类变量间的关系给出系统而综合的评价，就可以采用对数线性模型。常见的逻辑回归就是对数线性模型的一种。对数线性模型中的Logit过程如果用来分析自变量与因变量的交互项的话，其实是逻辑回归模型的结果。只不过对数线性模型显示的是属性之间的相互关系，并不需区分Y与X。

（2）非参数化数据规约

非参数化数据规约包括直方图、聚类、抽样、数据立方体聚集等方法。

第一，直方图方法就是分箱，之前在数据清理一章提到过，噪声光滑的一种方法就是分箱，即将数据划分为不相交的子集，并给予每个子集相同的值。而用直方图规约数据，就是将图中的bin个数由观测值的数量n减少到k个。从而使数据变成一块一块的呈现。bin的划分可以是等宽的，也可以是等频的。

第二，聚类算法是将数据进行分群，用每个数据簇中的代表来替换实际数据，以达到数据规约的效果。

第三，抽样。通过选取随机样本（子集），实现用小数据代表大数据的过程。抽样的方法包括：简单随机抽样、簇抽样、分层抽样等。

第四，数据立方体聚集。数据立方体聚集帮助我们从低粒度的数据分析聚合成汇总粒度的数据分析。我们认为表中最细的粒度是一个最小的立方体，在此上每个高层次的抽象都能形成一个更大的立方体。数据立方体聚集就是将细粒度的属性聚集到粗粒度的属性。

实时即未来，大数据项目车联网之原始数据车辆指标即席查询

文章目录1.原始数据车辆指标即席查询1.1ApachePhoenix简介1.2Phoenix客户端命令操作1.3构建hbase的二级索引1.3.1索引类型1.3.1.1CoveredIndexes(覆盖索引)1.3.1.2Functionalindexes(函数索引)1.3.1.3Globalindexes(全局索引)1.3.1.4Localindexes(本地索引)1.3.2locali... 查看详情

实时即未来，大数据项目车联网之原始数据车辆指标即席查询

大数据项目2（数据挖掘之数据预处理相关概念）

数据预处理相关概念一、总述二、数据清洗2.1唯一值2.2重复值2.3格式清洗2.3.1数据类型2.3.2时间、日期、数值、全半角等显示格式不一致2.3.3字符问题2.3.4思维逻辑三、数据集成四、数据归约五、数据变换六、总结一、总述需要查... 查看详情

客快物流大数据项目(六十七)：客户主题(代码片段)

文章目录客户主题一、背景介绍二、指标明细三、表关联关系1、事实表2、维度表3、关联关系四、客户数据拉宽开发... 查看详情

实时即未来，大数据项目车联网之车辆数据统计意义分析

文章目录1.车辆数据统计意义分析1.1Zeppelin简介1.1.1zeppelin的使用场景1.1.2Zeppelin安装简要说明1.2zeppelinui介绍1.2.1主页1.2.2菜单1.2.2.1Notebook1.2.2.2Settings1.2.2.3Notebook视图1.3Zeppelin整合Mysql1.3.1创建interpreter1.3.2创建notebook1.4Zepp 查看详情

大数据项目之电商数仓日志采集flumesourcechannelsinkkafka的三个架构

文章目录4.用户行为数据采集模块4.3日志采集Flume4.3.1Kafka的三个架构4.3.1.1source4.3.1.2channel4.3.1.3sink4.3.1.4kafkasource4.3.1.5kafkasink4.3.1.6kafkachannel4.3.1.6.1第一个结构4.3.1.6.2第二个结构4.3.1.6.3第三个结构4.用户行为数据采集模块4.3日志采集F... 查看详情

客快物流大数据项目(六十六)：车辆主题(代码片段)

文章目录车辆主题一、背景介绍二、指标明细三、表关联关系1、事实表2、维度表3、关联关系四、车辆数据拉宽开发1、拉宽后的字... 查看详情

大数据项目1（数据预处理问题）(代码片段)

数据预处理一、了解什么是预处理二、为什么要进行预处理三、数据预处理基本方法1、基础方法四、应用1.准备数据2.导入库3.导入数据集4.数据清洗——查看缺失值（1）处理普通空值（2）处理年龄年份金额等数... 查看详情

这个场景是大数据项目吗？

】这个场景是大数据项目吗？【英文标题】：Isthisscenarioabigdataproject?【发布时间】：2016-07-1518:10:00【问题描述】：我参与了一个分两个阶段的项目，我想知道这是否是一个大数据项目（我是这个领域的新手）在第一阶段我有这种... 查看详情

客快物流大数据项目（八十八）：clickhouse快速入门(代码片段)

文章目录ClickHouse快速入门一、安装ClickHouse（单机）1、安装yum-utils工具包2、添加ClickHouse的yum源3、安装ClickHouse的服务端和客户端4、关于安装的说明5、查看ClickHouse的版本信息二、在命令行... 查看详情

客快物流大数据项目(五十一)：数据库表分析

目录数据库表分析一、物流运输管理数据库表1、揽件表（tbl_collect_package）2、客户表（tbl_customer）3、物流系统码表（tbl_codes）4、快递单据表（tbl_express_bill）5、快递包裹表（tbl_express_package& 查看详情

> 100 mio 的大数据项目选择哪种数据模型。项目

】>100mio的大数据项目选择哪种数据模型。项目【英文标题】：Whichdatamodeltochooseforbigdataprojectwith>100mio.items【发布时间】：2016-05-0413:31:43【问题描述】：我正在从事一个大数据项目，从不同的在线卖家那里收集大量产品信息，... 查看详情

实时即未来，大数据项目车联网之原始数据实时etl任务消费数据策略

文章目录实时ETL业务开发1原始数据实时ETL分析2实时ETL开发流程分析3解析工具类引入1日期处理工具2配置文件加载工具3字符串处理工具4JSON解析工具4原始数据实时ETL任务设置1checkpoint配置实时ETL业务开发1原始数据实时ETL分析根据... 查看详情

客快物流大数据项目（七十二）：impalasql语法(代码片段)

文章目录Impalasql语法一、数据库特定语言1、创建数据库2、删除数据库二、表特定语句1、createtable语句2、insert语句3、select语句4、describe语句5、altertable6、delete、truncatetable7、view视图8、orderby子句9、groupby子句10、ha... 查看详情

实时即未来，大数据项目车联网之原始数据实时etl任务消费数据策略

实时即未来，大数据项目车联网之车联网之车辆数据统计意义分析十三

实时即未来，大数据项目车联网之重启机制及数据积压(代码片段)

文章目录1checkpoint配置2任务重启策略3分区发现4数据积压问题4.1什么是数据积压4.2数据积压的原因4.3数据积压的后果4.4积压解决方案4.5解决数据积压方法1checkpoint配置l选择合适的Checkpoint存储方式lCheckPoint存储方式存在三种官方文... 查看详情

实时即未来，大数据项目车联网之车辆驾驶行程分析十三

...车辆驾驶行程分析驾驶行程分析业务逻辑星途车联网项目大数据平台，包含数据源数据存储pipeline实时业务指标统计分析数据存储分层数据可视化我们已经学习了原始数据实时ETL部分，数据存储在hiv 查看详情