正文

机器学习：13-垃圾邮件分类2

zhif97  zhif97  2022-12-13  140

关键词：

1.读取

2.数据预处理

3.数据划分—训练集和测试集数据划分

from sklearn.model_selection import train_test_split

x_train,x_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=0, stratify=y_train)

4.文本特征提取

sklearn.feature_extraction.text.CountVectorizer

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html?highlight=sklearn%20feature_extraction%20text%20tfidfvectorizer

sklearn.feature_extraction.text.TfidfVectorizer

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html?highlight=sklearn%20feature_extraction%20text%20tfidfvectorizer#sklearn.feature_extraction.text.TfidfVectorizer

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf2 = TfidfVectorizer()

观察邮件与向量的关系

向量还原为邮件

4.模型选择

from sklearn.naive_bayes import GaussianNB

from sklearn.naive_bayes import MultinomialNB

说明为什么选择这个模型？

5.模型评价：混淆矩阵，分类报告

from sklearn.metrics import confusion_matrix

confusion_matrix = confusion_matrix(y_test, y_predict)

说明混淆矩阵的含义

from sklearn.metrics import classification_report

说明准确率、精确率、召回率、F值分别代表的意义

6.比较与总结

如果用CountVectorizer进行文本特征生成，与TfidfVectorizer相比，效果如何？

机器学习基础(代码片段)

EvernoteExportbody,tdfont-family:微软雅黑;font-size:10pt机器学习应用最早的机器学习：垃圾邮件分辨，对于邮件如何判断邮件是否是垃圾邮件呢传统的解决思路：编写规则，定义"垃圾邮件"，让计算机执行1.编写一个传统算法，定义"垃圾... 查看详情

机器学习入门-基本概念

1、机器学习分为监督学习和非监督学习。首先学习监督学习。2、标签，即y值，结果，以通过机器学习过滤垃圾邮件为例，标签为邮件是垃圾邮件，或不是垃圾邮件3、特征，即x值，输入变量，通常有多个特征，如根据发件人、... 查看详情

英文垃圾邮件分类机器学习篇——带你一次看个爽(代码片段)

英文垃圾邮件分类机器学习篇——带你一次看个爽——朴素贝叶斯、SVM、逻辑回归、随机森林、XGBoost今天我们开始数据挖掘的一个经典分类项目，垃圾邮件分类，话不多说，我们直接开始吧。首先我们导入一些用到... 查看详情

机器学习

将MahoutonSpark中的机器学习算法和MLlib中支持的算法统计如下：主要针对MLlib进行总结分类与回归分类和回归是监督式学习;监督式学习是指使用有标签的数据（LabeledPoint）进行训练，得到模型后，使用测试数据预测结果。其中... 查看详情

13-垃圾邮件分类2

1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2,random_ 查看详情

13-垃圾邮件分类2

1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2,random_state= 查看详情

机器学习绪论

　　首先，为什么机器学习很重要？我们一般的程序只能解决输入一定、计算过程一定、输出一定的问题。但是在现实生活中我们有很多问题都是无法用语言进行准确描述，我们在这里以一个反垃圾软件系统为例。如果我们需要... 查看详情

模式识别与机器学习——logisticregression

　　虽然叫做“回归”，但是这个算法是用来解决分类问题的。回归与分类的区别在于：回归所预测的目标量的取值是连续的（例如房屋的价格）；而分类所预测的目标变量的取值是离散的（例如判断邮件是否为垃圾邮件）。当... 查看详情

13-垃圾邮件分类2(代码片段)

1.读取2.数据预处理3.数据划分—训练集和测试集数据划分fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2,random_state=0,stratify=y_train)emails=pd.r 查看详情

13-垃圾邮件分类2(代码片段)

1.读取2.数据预处理3.数据划分—训练集和测试集数据划分fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2,random_state=0,stratify=y_train)defsplit_da 查看详情

13-垃圾邮件分类2(代码片段)

1.读取2.数据预处理3.数据划分—训练集和测试集数据划分fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2,random_state=0,stratify=y_train)4.文本特征提取skl 查看详情

13垃圾邮件分类

1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(dat 查看详情

机器学习介绍

机器学习：让机器去学习 1.举一个栗子e.g.传统垃圾邮件分类问题传统解决思路：设定规则，定义“垃圾邮件”，让计算机去执行规则。问题：对很多问题规则难以定义，比如识别一只猫或人脸识别。且规则总在不断变化。新... 查看详情

利用朴素贝叶斯（naviebayes）进行垃圾邮件分类

...公式描写叙述的是一组条件概率之间相互转化的关系。在机器学习中。贝叶斯公式能够应用在分类问题上。这篇文章是基于自己的学习所整理。并利用一个垃圾邮件分类的样例来加深对于理论的理解。这里我们来解释一下朴素这... 查看详情

00.andrew机器学习week1

##Introduction机器学习的定义givecomputerstheabilitytolearnwithoutbeingexplicitlyprogrammed.T：明白任务是什么，比如将邮件分为垃圾邮件（1）和正常邮件（0）E：有足够的经验来供模型学习P：有一定判断来度量学习情况的好坏课程内容机器学... 查看详情

13-垃圾邮件分类2(代码片段)

1.读取2.数据预处理importcsvimportnltkimportrefromnltk.corpusimportstopwordsfromnltk.stemimportWordNetLemmatizerimportpandasaspd#返回类别defgetLb(data):ifdata.startswith("J"):returnnltk.corpus.wordnet.ADJelifdata.startswith("V"):returnnltk.corpus.wordnet.VERBelifdata.startswith("N"):return... 查看详情

机器学习笔记ml01c

...用户（玩多久。花多少的钱，与朋友互动有多少），从中机器学习，看看他离开的概率有多少，从而可以送一些道具给他，或邀请他参加活动，使他留下来*百度的新闻分类，爬虫，计算每个词在某类新闻出现的概率比较高，本... 查看详情

13-垃圾邮件分类2

1.读取2.数据预处理3.数据划分—训练集和测试集数据划分fromsklearn.model_selectionimporttrain_test_splitx_train,x_test,y_train,y_test=train_test_split(data,target,test_size=0.2,random_state=0,stratify=y_train)4.文本特征提取sklearn.feature_extraction.text.CountVectorizer... 查看详情