特征选择文本挖掘

     2023-03-12     130

关键词:

【中文标题】特征选择文本挖掘【英文标题】:Feature Selection Text Mining 【发布时间】:2014-01-11 13:05:07 【问题描述】:

我们正在完成一项关于文本分类的任务,并且我们使用了一种无监督机器学习模型。

在我们进行文本聚类之前,数据集必须经过几个步骤,例如从停用词中清除它,从文本中提取词干词,然后获取特征选择。

阅读特征选择,我可以应用多种方法进行特征选择,例如信息增益、基尼指数和互信息。

我想知道这些方法的性质以及如何在编码部分实现它们,是否有任何库可以用来执行这些任务。

【问题讨论】:

您使用的是哪个数据集? 您是如何对 .sgm 文件(路透社数据集)执行 Perprocessing 的? 我用的是斯坦福图书馆。 ok 输出是 .arff 格式(我的意思是 filename.arff)? 是的,它的。我如何进行特征选择。 【参考方案1】:

您不应该选择功能。

文本遵循幂律,因此您不会跳过“不常用的单词”或未使用的功能。信息隐藏在分布的尾部,而不是最常用的词中。

如果您确实想为计算效率绑定维度(路透社被认为对于文本来说很小),您应该部署基于散列的方法。

我想你会选择一些标准的 TF-IDF 特征表示并将单词视为特征。

【讨论】:

使用 TF-IDF 进行特征选择会不会保留这些信息并丢弃最常用但识别能力很小的词?【参考方案2】:

使用特征选择可以帮助文本分类,具体取决于应用程序领域。在主题(基于主题的类别)中,例如经济、政治、体育等,词干提取、停止列表和选择单词和单词 n-gram 通常效果很好。在其他问题中,例如垃圾邮件检测,在表示中使用停用词可以提高准确性。

问题是:文本的风格在应用领域重要吗?如果是,您应该保留停用词并避免词干提取,但您始终可以使用例如执行特征选择。那些信息增益得分最高的特征。

您可以通过 StringToWordVector 过滤器在 WEKA 中执行停止列表和词干提取。您可以使用 WEKA 使用 AttributeSelection 过滤器进行特征选择,搜索方法 Ranker 和评估指标 InfoGainAttributeEval。在我的 Text Mining with WEKA 页面上获取更多详细信息(对于 SSP 感到抱歉)。

【讨论】:

【参考方案3】:

首先我们要生成arff文件。

arff文件格式如下:

@RELATION section 将包含 预处理 后出现在整个文档中的所有单词。每个单词都是 real 类型,因为 tfidf 值是一个真实值。

@data section 将包含它们在 预处理期间计算的 tfidf 值。例如,first 将包含第一个文档中存在的所有单词的 tfidf 值以及文档的最后一列 类别

@RELATION filename
@ATTRIBUTE word1 real
@ATTRIBUTE word2 real
@ATTRIBUTE word3 real
.
.
.
.so on
@ATTRIBUTE class cacm,cisi,cran,med

@data
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.5545479562,0.27,0.554544479562,0.4479562,cacm
0.55454479562,0.1619617,0.579562,0.5542,cisi
0.5545479562,0.27,0.554544479562,0.4479562,cisi
0.0,0.2396113617,0.44479562,0.2,cran
0.5545479562,0.27,0.554544479562,0.4479562,carn
0.5545177444479562,0.26196113617,0.0,0.0,med
0.5545479562,0.27,0.554544479562,0.4479562,med

生成此文件后,您可以将此文件作为输入提供给InfoGainAttributeEval.java。这对我有用。

【讨论】:

转载文本特征提取方法研究

文本特征提取方法研究引言:转载大神的文章(http://blog.csdn.net/tvetve/article/details/2292111),存一下用于日后查找一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学... 查看详情

文本挖掘——文本特征tfidf权重计算及文本向量空间vsm表示

建立文本数据数学描写叙述的过程分为三个步骤:文本预处理、建立向量空间模型和优化文本向量。文本预处理主要採用分词、停用词过滤等技术将原始的文本字符串转化为词条串或者特点的符号串。文本预处理之后,每个文本... 查看详情

数据挖掘——特征工程(代码片段)

特征工程(FeatureEngineering)  特征工程其本质上是一项工程活动,它的目的是最大限度地从原始数据中提取特征以供算法和模型使用。  特征工程的重要性:特征越好,灵活性越强特征越好,模型越简单特征越好,性能越出... 查看详情

文本分类的特征选择

】文本分类的特征选择【英文标题】:FeatureSelectionforTextClassification【发布时间】:2013-10-1318:39:35【问题描述】:我正在研究一个文本分类问题,其中选择100个最常用的词作为特征。我相信如果我使用更好的特征选择方法,结果... 查看详情

文本分类任务简介

文本分类任务框架:文本→特征工程(决定着模型分类的上界)→分类器(逼近模型的上限)→类别文本特征提取:1.经典的文本特征(前人的研究的成熟理论)2.手工构造新的特征(手工提取,看数据集中是否有好的性特征)3.... 查看详情

文本分类混合chi和mi的改进文本特征选择方法(代码片段)

...进MI算法,结合改进CHI+改进MI,应用于文本的特征选择,提高了精度。参考文献:[1]王振,邱晓晖.混合CHI和MI的改进文本特征选择方法[J].计算机技术与发展,2018,28(04):87-90+94.一、引言  通过特征选择方法࿰... 查看详情

文本分类特征选择方法

...和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。1)它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现多,而其它类出现少,即考察各类的文档频率的差异。如果一个... 查看详情

ML 中的文本和虚拟变量 - 特征选择

】ML中的文本和虚拟变量-特征选择【英文标题】:TextanddummyvariablesinML-featuresselection【发布时间】:2021-07-2001:33:50【问题描述】:我有一个这样的数据框:TextABCLabel337nobodicanexplaingavewhatwedid...0101338provideanexample1100339anotherone????1001我... 查看详情

数据分析与挖掘3——特征工程(代码片段)

特征工程1.数据预处理2.特征处理3.特征降维3.1.特征选择3.2线性降维数据和特征决定了机器学习得上限,而模型和算法只是逼近这个上线1.数据预处理数据采集数据清洗:去除脏数据数据采样:数据存在不平衡得情况下... 查看详情

特征选择,经典三刀(转)

特征选择(FeatureSelection,FS)和特征抽取(FeatureExtraction,FE)是特征工程(FeatureEngineering)的两个重要的方面。 他们之间最大的区别就是是否生成新的属性。 FS仅仅对特征进行排序(Ranking)和选择,FE更为复杂,需要重新... 查看详情

基于改进chi和pca的文本特征选择(代码片段)

...:改进CHI算法后,结合PCA算法,应用于文本的特征选择,提高了精度。参考文献:[1]文武,万玉辉,张许红,文志云.基于改进CHI和PCA的文本特征选择[J].计算机工程与科学,2021,43(09):1645-1652.一、引言  文本特征空... 查看详情

spark2.0特征提取转换选择之二:特征选择文本处理,以中文自然语言处理(情感分类)为例

特征选择RFormulaRFormula是一个很方便,也很强大的Feature选择(自由组合的)工具。 输入string进行独热编码(见下面例子country) 输入数值型转换为double(见下面例子hour) label为string,也用StringIndexer进行编号RFormulaproduc... 查看详情

数据预处理与特征选择

数据预处理和特征选择是数据挖掘与机器学习中关注的重要问题,坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程就是将原始数据转化为有用的特征,更好的表示预测模型处理的实... 查看详情

零基础数据挖掘组队学习第三次打卡(代码片段)

Task3特征工程常见的特征工程包括:异常处理:通过箱线图(或3-Sigma)分析删除异常值;BOX-COX转换(处理有偏分布);长尾截断;特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到[0,1]区间);针对幂律分... 查看详情

stepbystep带你rcnn文本分类

...是怎么做的呢?传统的文本分类工作主要分为三个过程:特征工程、特征选择和不同分类机器学习算法。1.1特征工程对于文本数据的特征工程来说,最广泛使用的功能是bag-of-words、tf-idf等。此外,还可以设计一些更复杂的特征,... 查看详情

十分钟学习自然语言处理概述

...知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。2什么是自然语言处理?自然语言处理是计算机科学领域与人工智... 查看详情

中文文本分类1(代码片段)

...本转换为结构化的形式,即向量空间模型。具体步骤:1.选择处理的文本范围选择恰当的范围取决于文本挖掘任务的目标:对于分类或聚类的任务,往往 查看详情

大数据时代空间数据挖掘的认识及其思考

...数据、地形数据、属性数据等。(2)空间数据预处理和特征提取:数据预处理目的是去除数据中的噪声,包括对数据的清洗、数据的转换、数据的集成等。特征提取是剔除掉冗余或不相关的特征并将特征转化为适合数据挖掘的... 查看详情