特征工程之特征提取与特征选择区别

卖山楂啦prss      2022-02-16     613

关键词:

特征提取(Feature Eatraction)是在特征选择之前的,它是从原始数据中提取新特征的过程,这个提取过程通常是使用一定的算法(函数映射)来自动执行,将多维的或相关的原始特征通过数据转化或映射得到一个新的特征空间,尽管新的特征空间是在原有特征基础上得到的,但是凭借直接观察可能看不出新数据集与原始数据集之间的关联,它是对原始特征的一种降维映射操作。

例如,有n个原始特征 x 1 , x 2 , ⋯ , x n x_1,x_2,⋯,x_n x1,x2,,xn,现通过数据映射进行特征提取得到m个新的特征,表示为 y 1 , y 2 , ⋯ , y m y_1,y_2,⋯,y_m y1,y2,,ym(m<n),其中, y i = f i ( x 1 , x 2 , ⋯ , x n ) y_i=f_i (x_1,x_2,⋯,x_n ) yi=fi(x1,x2,,xn),i∈[1,m],f 为对应的映射函数,最终将新得到的m个特征替代原始特征进行后续操作。

常见的特征提取技术包括主成分分析(PCA)、线性判别分析(LDA)等。

事实上,特征提取与特征选择都是数据降维的技术,不过二者有着本质上的区别,特征选择后特征并没有发生变化,只是总的数量减少了;而特征提取后特征会发生变化,并且总的数量也减少了。

特征工程之特征预处理

    在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。1.特征的标准化和归一化    &... 查看详情

机器学习特征工程之特征构造:构造统计特征(代码片段)

机器学习特征工程之特征构造:构造统计特征数据决定了模型预测的上限,而算法只是在逼近这个极限而已。这里的数据指的就是经过特征工程所得到的数据。机器学习的核心就是特征构造。好的数据是从原始数据抽取出来对预... 查看详情

特征工程

不会做特征工程的AI研究员不是好数据科学家!上篇-连续数据的处理方法不会做特征工程的AI研究员不是好数据科学家!下篇-离散数据的处理方法特征处理(FeatureProcessing)【机器学习】特征工程七种常用方法离... 查看详情

特征提取和特征选择

特征提取和特征选择都是从原始特征中找出最有效(同类样本的不变性、不同样本的鉴别性、对噪声的鲁棒性)的特征。区别与联系  特征提取:将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]... 查看详情

sklearn-特征工程之特征选择(代码片段)

title:sklearn-特征工程之特征选择date:2016-11-2522:49:24categories:skearntags:sklearn---抄袭/参考资料使用sklearn做单机特征工程sckearn中文周志华《机器学习》当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训... 查看详情

机器学习特征工程之特征选择

概念首先看一下维基百科中关于特征选择的介绍:在机器学习和统计学中,特征选择也被称为变量选择、属性选择或变量子集选择。它是指:为了构建模型而选择相关特征(即属性、指标)子集的过程。在机器学习中,每个特征... 查看详情

特征工程之特征选择(代码片段)

    特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面... 查看详情

特征选择问题

特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位... 查看详情

1.特征工程之特征预处理

...法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程能使... 查看详情

特征工程之特征表达(代码片段)

     在特征工程之特征选择中,我们讲到了特征选择的一些要点。本篇我们继续讨论特征工程,不过会重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理。主要包括缺失值处理,特殊的特征... 查看详情

特征选择与特征提取

...式识别的大致流程如下:从图中我们可以知道,特征提取与选择是在分类器设计之前完成,它主要的工作是针对数据原始特征的缺陷,降低特征维数,提高分类器的设计与性能。原始特征模式识别中把每个对... 查看详情

机器学习实战基础(十八):sklearn中的数据预处理和特征工程特征选择之wrapper包装法

Wrapper包装法 包装法也是一个特征选择和算法训练同时进行的方法,与嵌入法十分相似,它也是依赖于算法自身的选择,比如coef_属性或feature_importances_属性来完成特征选择。但不同的是,我们往往使用一个目标函数作为黑盒... 查看详情

特征工程(完)(代码片段)

...学习项目(一)机器学习数据集的获取和测试集的构建方法特征工程之数据预处理(上)特征工程之数据预处理(下)特征工程之特征缩放&特征编码这也是特征工程系列最后一篇文章,介绍特征提取、特征选... 查看详情

机器学习实战基础(十五):sklearn中的数据预处理和特征工程特征选择之filter过滤法相关性过滤(代码片段)

...个问题:相关性了。我们希望选出与标签相关且有意义的特征,因为这样的特征能够为我们提供大量信息。如果特征与标签无关,那只会白白浪费我们的计算内存,可能还会给模型带来噪音。在sklearn当中,我们有三种常用的方... 查看详情

spark2.0特征提取转换选择之二:特征选择文本处理,以中文自然语言处理(情感分类)为例

特征选择RFormulaRFormula是一个很方便,也很强大的Feature选择(自由组合的)工具。 输入string进行独热编码(见下面例子country) 输入数值型转换为double(见下面例子hour) label为string,也用StringIndexer进行编号RFormulaproduc... 查看详情

机器学习特征工程->特征提取(代码片段)

特征工程:特征提取前言1.特征提取1.1定义1.2特征提取API2.字典特征提取2.1应用2.2流程分析2.3总结3.文本特征提取3.1应用3.2流程分析3.3jieba分词处理3.4案例分析3.5Tf-idf文本特征提取3.5.1公式3.5.2案例3.6Tf-idf的重要性4.小结前言学... 查看详情

机器学习算法:特征工程-特征提取(代码片段)

学习目标了解什么是特征提取知道字典特征提取操作流程知道文本特征提取操作流程知道tfidf的实现思想什么是特征提取呢? 1特征提取1.1定义将任意数据(如文本或图像)转换为可用于机器学习的数字特征注:... 查看详情

使用sklearn做单机特征工程

目录1特征工程是什么?2数据预处理  2.1无量纲化    2.1.1标准化    2.1.2区间缩放法    2.1.3标准化与归一化的区别  2.2对定量特征二值化  2.3对定性特征哑编码  2.4缺失值计算  2.5数据变换  2.6回顾3... 查看详情