机器学习:13-垃圾邮件分类2

zhif97 zhif97     2022-12-13     140

关键词:

1.读取

2.数据预处理

3.数据划分—训练集和测试集数据划分

from sklearn.model_selection import train_test_split

x_train,x_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=0, stratify=y_train)

4.文本特征提取

sklearn.feature_extraction.text.CountVectorizer

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html?highlight=sklearn%20feature_extraction%20text%20tfidfvectorizer

sklearn.feature_extraction.text.TfidfVectorizer

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html?highlight=sklearn%20feature_extraction%20text%20tfidfvectorizer#sklearn.feature_extraction.text.TfidfVectorizer

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf2 = TfidfVectorizer()

观察邮件与向量的关系

向量还原为邮件

4.模型选择

from sklearn.naive_bayes import GaussianNB

from sklearn.naive_bayes import MultinomialNB

说明为什么选择这个模型?

5.模型评价:混淆矩阵,分类报告

from sklearn.metrics import confusion_matrix

confusion_matrix = confusion_matrix(y_test, y_predict)

说明混淆矩阵的含义

from sklearn.metrics import classification_report

说明准确率、精确率、召回率、F值分别代表的意义 

 

6.比较与总结

如果用CountVectorizer进行文本特征生成,与TfidfVectorizer相比,效果如何?

机器学习基础(代码片段)

EvernoteExportbody,tdfont-family:微软雅黑;font-size:10pt机器学习应用最早的机器学习:垃圾邮件分辨,对于邮件如何判断邮件是否是垃圾邮件呢传统的解决思路:编写规则,定义"垃圾邮件",让计算机执行1.编写一个传统算法,定义"垃圾... 查看详情

机器学习入门-基本概念

1、机器学习分为监督学习和非监督学习。首先学习监督学习。2、标签,即y值,结果,以通过机器学习过滤垃圾邮件为例,标签为邮件是垃圾邮件,或不是垃圾邮件3、特征,即x值,输入变量,通常有多个特征,如根据发件人、... 查看详情

英文垃圾邮件分类机器学习篇——带你一次看个爽(代码片段)

英文垃圾邮件分类机器学习篇——带你一次看个爽——朴素贝叶斯、SVM、逻辑回归、随机森林、XGBoost今天我们开始数据挖掘的一个经典分类项目,垃圾邮件分类,话不多说,我们直接开始吧。首先我们导入一些用到... 查看详情

机器学习

 将MahoutonSpark中的机器学习算法和MLlib中支持的算法统计如下:主要针对MLlib进行总结分类与回归分类和回归是监督式学习;监督式学习是指使用有标签的数据(LabeledPoint)进行训练,得到模型后,使用测试数据预测结果。其中... 查看详情

13-垃圾邮件分类2

1.读取  2.数据预处理  3.数据划分—训练集和测试集数据划分  fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2,random_ 查看详情

13-垃圾邮件分类2

 1.读取  2.数据预处理  3.数据划分—训练集和测试集数据划分fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2,random_state= 查看详情

机器学习绪论

  首先,为什么机器学习很重要?我们一般的程序只能解决输入一定、计算过程一定、输出一定的问题。但是在现实生活中我们有很多问题都是无法用语言进行准确描述,我们在这里以一个反垃圾软件系统为例。如果我们需要... 查看详情

模式识别与机器学习——logisticregression

  虽然叫做“回归”,但是这个算法是用来解决分类问题的。回归与分类的区别在于:回归所预测的目标量的取值是连续的(例如房屋的价格);而分类所预测的目标变量的取值是离散的(例如判断邮件是否为垃圾邮件)。当... 查看详情

13-垃圾邮件分类2(代码片段)

1.读取2.数据预处理3.数据划分—训练集和测试集数据划分fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2,random_state=0,stratify=y_train)emails=pd.r 查看详情

13-垃圾邮件分类2(代码片段)

1.读取2.数据预处理3.数据划分—训练集和测试集数据划分fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2,random_state=0,stratify=y_train)defsplit_da 查看详情

13-垃圾邮件分类2(代码片段)

1.读取2.数据预处理3.数据划分—训练集和测试集数据划分fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2,random_state=0,stratify=y_train)4.文本特征提取skl 查看详情

13垃圾邮件分类

1.读取 2.数据预处理          3.数据划分—训练集和测试集数据划分fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(dat 查看详情

机器学习介绍

机器学习:让机器去学习 1.举一个栗子e.g.传统垃圾邮件分类问题传统解决思路:设定规则,定义“垃圾邮件”,让计算机去执行规则。问题:对很多问题规则难以定义,比如识别一只猫或人脸识别。且规则总在不断变化。新... 查看详情

利用朴素贝叶斯(naviebayes)进行垃圾邮件分类

...公式描写叙述的是一组条件概率之间相互转化的关系。在机器学习中。贝叶斯公式能够应用在分类问题上。这篇文章是基于自己的学习所整理。并利用一个垃圾邮件分类的样例来加深对于理论的理解。这里我们来解释一下朴素这... 查看详情

00.andrew机器学习week1

##Introduction机器学习的定义givecomputerstheabilitytolearnwithoutbeingexplicitlyprogrammed.T:明白任务是什么,比如将邮件分为垃圾邮件(1)和正常邮件(0)E:有足够的经验来供模型学习P:有一定判断来度量学习情况的好坏课程内容机器学... 查看详情

13-垃圾邮件分类2(代码片段)

1.读取2.数据预处理importcsvimportnltkimportrefromnltk.corpusimportstopwordsfromnltk.stemimportWordNetLemmatizerimportpandasaspd#返回类别defgetLb(data):ifdata.startswith("J"):returnnltk.corpus.wordnet.ADJelifdata.startswith("V"):returnnltk.corpus.wordnet.VERBelifdata.startswith("N"):return... 查看详情

机器学习笔记ml01c

...用户(玩多久。花多少的钱,与朋友互动有多少),从中机器学习,看看他离开的概率有多少,从而可以送一些道具给他,或邀请他参加活动,使他留下来*百度的新闻分类,爬虫,计算每个词在某类新闻出现的概率比较高,本... 查看详情

13-垃圾邮件分类2

1.读取2.数据预处理3.数据划分—训练集和测试集数据划分fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2,random_state=0,stratify=y_train)4.文本特征提取sklearn.feature_extraction.text.CountVectorizer... 查看详情