正文

阿旭机器学习实战33中文文本分类之情感分析--朴素贝叶斯knn逻辑回归(代码片段)

阿_旭  阿_旭  2023-03-05  787

关键词：

【阿旭机器学习实战】系列文章主要介绍机器学习的各种算法模型及其实战案例，欢迎点赞，关注共同学习交流。

1.查看原始数据结构

关注GZH：阿旭算法与机器学习，回复：“ML33”即可获取本文数据集、源码与项目文档

数据集共有4个文件：
stopwords.txt为停用词文件；
train.negative.txt为训练用负面数据文件；
train.positive.txt为训练用正面数据文件；
test.combined.txxt为测试用数据文件。

文件内容如下：

2.导入数据并进行数据处理

from matplotlib import pyplot as plt
import jieba # 分词
import re # 正则
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

2.1 提取数据与标签

def read_data(path, is_pos=None):
    """
    给定文件的路径，读取文件
    path: path to the data
    is_pos: 是否数据是postive samples. 
    return: (list of review texts, list of labels) 
    """
    reviews, labels  = [], []
    with open(path, 'r',encoding='utf-8') as file:
        review_start  = False
        review_text = []
        for line in file:
            line = line.strip()
            if not line: continue
            if not review_start and line.startswith("<review"):
                review_start = True
                if "label" in line:
                    labels.append(int(line.split('"')[-2]))
                continue                
            if review_start and line == "</review>":
                review_start = False
                reviews.append(" ".join(review_text))
                review_text = []
                continue
            if review_start:
                review_text.append(line)
    if is_pos:
        labels = [1]*len(reviews)
    elif not is_pos is None:
        labels = [0]*len(reviews)
    return reviews, labels


def process_file():
    """
    读取训练数据和测试数据，并对它们做一些预处理
    """    
    train_pos_file = "data_sentiment/train.positive.txt"
    train_neg_file = "data_sentiment/train.negative.txt"
    test_comb_file = "data_sentiment/test.combined.txt"
    
    # 读取文件部分，把具体的内容写入到变量里面
    train_pos_cmts, train_pos_lbs = read_data(train_pos_file, True)
    train_neg_cmts, train_neg_lbs = read_data(train_neg_file, False)
    train_comments = train_pos_cmts + train_neg_cmts
    train_labels = train_pos_lbs + train_neg_lbs
    test_comments, test_labels = read_data(test_comb_file)
    return train_comments, train_labels, test_comments, test_labels
train_comments, train_labels, test_comments, test_labels = process_file()

train_comments[:5]

['发短信特别不方便！背后的屏幕很大用起来不舒服，是手触屏的！切换屏幕很麻烦！',
 '手感超好，而且黑色相比白色在转得时候不容易眼花，找童年的记忆啦。',
 '！！！！！',
 '先付款的   有信用',
 '价格 质量 售后 都很满意']

# 训练数据和测试数据大小
print (len(train_comments), len(test_comments))

print (train_comments[1], train_labels[1])

8064 2500
手感超好，而且黑色相比白色在转得时候不容易眼花，找童年的记忆啦。 1

2.2 过滤停用词

def load_stopwords(path):
    """
    从外部文件中导入停用词
    """
    stopwords = set()
    with open(path, 'r',encoding='utf-8') as in_file:
        for line in in_file:
            stopwords.add(line.strip())
    return stopwords


def clean_non_chinese_symbols(text):
    """
    处理非中文字符
    """
    text = re.sub('[!！]+', "!", text)
    text = re.sub('[?？]+', "?", text)
    text = re.sub("[a-zA-Z#$%&\\'()*+,-./:;：<=>@，。★、…【】《》“”‘’[\\\\]^_`|~]+", " UNK ", text)
    return re.sub("\\s+", " ", text)  

def clean_numbers(text):
    """
    处理数字符号  128  190  NUM 
    """
    return re.sub("\\d+", ' NUM ', text)

def preprocess_text(text, stopwords):
    """
    文本的预处理过程
    """
    text = clean_non_chinese_symbols(text)
    text = clean_numbers(text)
    text = " ".join([term for term in jieba.cut(text) if term and not term in stopwords])
    return text

path_stopwords = "./data_sentiment/stopwords.txt"
stopwords = load_stopwords(path_stopwords)

# 对于train_comments, test_comments进行字符串的处理，几个考虑的点：
#   1. 停用词过滤
#   2. 去掉特殊符号
#   3. 去掉数字（比如价格..)
#   4. ...
#   需要注意的点是，由于评论数据本身很短，如果去掉的太多，很可能字符串长度变成0
#   预处理部部分，可以自行选择合适的方案，只要注释就可以。

train_comments_new = [preprocess_text(comment, stopwords) for comment in train_comments]
test_comments_new = [preprocess_text(comment, stopwords) for comment in test_comments]

print (train_comments_new[0], test_comments_new[0])

发短信 特别 不 方便 ! 背后 屏幕 很大 起来 不 舒服   UNK   手触 屏 ! 切换 屏幕 很 麻烦 ! 终于 找到 同道中人 初中   UNK   已经 喜欢 上   UNK   同学 都 鄙夷 眼光 看   UNK   人为   UNK   样子 古怪 说 ＂ 丑 ＂ 当场 气晕 现在 同道中人   UNK   好开心 !   UNK   !   UNK

2.3 TfidfVectorizer将文本向量化

#   利用tf-idf从文本中提取特征,写到数组里面. 
#   参考：https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
tfidf = TfidfVectorizer()
X_train =  tfidf.fit_transform(train_comments_new) # 训练数据的特征
y_train =  train_labels # 训练数据的label
X_test = tfidf.transform(test_comments_new) # 测试数据的特征
y_test = test_labels# 测试数据的label

print (np.shape(X_train), np.shape(X_test), np.shape(y_train), np.shape(y_test))

(8064, 23101) (2500, 23101) (8064,) (2500,)

3.利用不同模型进行训练与评估

3.1 朴素贝叶斯模型

from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

clf = MultinomialNB()
# 利用朴素贝叶斯做训练
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print("accuracy on test data: ", accuracy_score(y_test, y_pred))

accuracy on test data:  0.6368

3.2 k近邻模型

from sklearn.neighbors import KNeighborsClassifier
clf = KNeighborsClassifier(n_neighbors=1)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print("accuracy on test data: ", accuracy_score(y_test, y_pred))

accuracy on test data:  0.524

3.3 逻辑回归模型

from sklearn.linear_model import LogisticRegression

clf = LogisticRegression(solver='liblinear')
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print("accuracy on test data: ", accuracy_score(y_test, y_pred))

accuracy on test data:  0.7136

如果文章对你有帮助，感谢点赞+关注！

关注下方GZH：阿旭算法与机器学习，回复：“ML33”即可获取本文数据集、源码与项目文档，欢迎共同学习交流

文本情感分析-机器学习实验三(代码片段)

情感分析-机器学习实验三实验目的：通过实验，掌握文本分析的整体流程，了解文本分类、情感分析、自动摘要等内容通过给定的文本内容，完成分词、文本向量化、文本分类、情感分析等相关实验实验可从文本... 查看详情

机器学习实战教程：朴素贝叶斯实战篇之新浪新闻分类(代码片段)

...ttps://cuijiahua.com/blog/2017/11/ml_5_bayes_2.html一、前言上篇文章机器学习实战教程（四）：朴素贝叶斯基础篇之言论过滤器讲解了朴素贝叶斯的基础知识。本篇文章将在此基础上进行扩展，你将看到以下内容：拉普拉斯平滑垃圾邮件过... 查看详情

机器学习朴素贝叶斯(代码片段)

目录1朴素贝叶斯算法简介2概率基础复习2.1概率定义2.2案例：判断女神对你的喜欢情况2.3联合概率、条件概率与相互独立2.4贝叶斯公式2.4.1公式介绍2.4.2案例计算2.4.3文章分类计算2.5小结3案例：商品评论情感分析2.1api介绍3.... 查看详情

郑捷《机器学习算法原理与编程实践》学习笔记（第二章中文文本分类—朴素贝叶斯算法）

（上接第二章）　　2.3分类算法：朴素贝叶斯　　2.3.1贝叶斯公式推导（略）　　分类的流程：　　　　第一阶段：训练数据生成训练样本集：TF-IDF　　第二阶段：对每个类别计算p（yi）。　　第三个阶段：对每个特征属性计算... 查看详情

基于朴素贝叶斯算法的情感分类(代码片段)

...分析（Subjectivityanalysis），它是对带有情感色彩的主观性文本进行分析、处查看详情

机器学习算法原理与编程实践之朴素贝叶斯分类

在介绍朴素贝叶斯分类之前，首先介绍一下大家都比较了解的贝叶斯定理，即已知某条件概率，如何得到两个时间交换后的概率，也就是在已知P(A|B)的情况下如何求得P(B|A)？可以通过如下公式求得：而朴素贝叶斯分类是一种简单... 查看详情

机器学习算法与编程实践之中文文本分类

这周学习了机器学习算法与编程实践第二章——中文文本分类的部分内容。该章以文本挖掘为大背景，以文本分类算法为中心，详细介绍了中文文本分类项目的相关知识点。一、文本挖掘与文本分类的概念被普遍认可的文本挖掘... 查看详情

情感分析-r与spark机器学习库测试分类比较

1 环境R3.0以上版本安装机器学习软件包：说明：此两个包是R机器学习包。RTextTools包含文本处理，e1071包含分类器。>install.packages("RTextTools")>install.packages("e1071") 2 实验步骤研究对象：http:... 查看详情

中文文本分类大概的步骤

...主要有二分类，多分类，多标签分类文本分类方法：传统机器学习方法（贝叶斯，svm等），深度学习方法（fastText，TextCNN等）文本分类的处理大致分为文本预处理、文本特征提取、分类模型构建等。和英文文本处理分类相比，中... 查看详情

使用机器学习的情感分析分类器

】使用机器学习的情感分析分类器【英文标题】：SentimentAnalysisclassifierusingMachineLearning【发布时间】：2016-04-3020:08:14【问题描述】：我们如何为情绪分析制作一个有效的分类器，因为为此我们需要在庞大的数据集上训练我们的分... 查看详情

机器学习实战朴素贝叶斯(代码片段)

朴素贝叶斯朴素贝叶斯概述文本分类准备数据:从文-本中构建词向量-训练算法：从词向量计算概率-贝叶斯分类函数importnumpyasnpimportmatplotlib.pyplotaspltfromnumpyimport*"""function:创建数据集parameters:无returns:postingList-数据集class... 查看详情

keras深度学习实战（28）——利用单词向量构建情感分析模型(代码片段)

Keras深度学习实战（28）——利用单词向量构建情感分析模型0.前言1.模型与数据集分析1.1模型分析1.2数据集分析2.情感分析模型2.1使用CBOW模型获取单词向量2.2构建并训练情感分析模型小结系列链接0.前言在获取单词向量的相关博... 查看详情

bert实战：使用distilbert进行文本情感分类(代码片段)

这次根据一篇教程JayAlammar:AVisualGuidetoUsingBERTfortheFirstTime学习下如何在Pytorch框架下使用BERT。主要参考了中文翻译版本教程提供了可用的代码，可以在colab或者github获取。1.huggingface/transformersTransformers提供了数千个预训练的模型... 查看详情

机器学习实战三（naivebayes）

机器学习实战三（NaiveBayes）前两章的两种分类算法，是确定的分类器，但是有时会产生一些错误的分类结果，这时可以要求分类器给出一个最优的猜测结果，估计概率。朴素贝叶斯就是其中一种。学过概率论的人对于贝叶斯这... 查看详情

《机器学习实战》程序清单4-2朴素贝叶斯分类器训练函数(代码片段)

此文旨在把trainNB0这个函数详细讲清楚。def trainNB0(trainMatrix,trainCategory): numTrainDocs = len(trainMatrix) numWords = len(trainMatrix[ 查看详情

第二天学习进度--文本情感分类(代码片段)

昨天学习了简单的文本处理，之后在课后的练习中实现了包括了对tf-idf的处理和基于朴素贝叶斯简单的文本分类基于tf-idf的数据集在出现多个关键词的时候一般能够相对准确对文本进行分类，但是对于相对具有深层含义的内容，... 查看详情

学习打卡07可解释机器学习笔记之shape+lime代码实战(代码片段)

可解释机器学习笔记之Shape+Lime代码实战文章目录可解释机器学习笔记之Shape+Lime代码实战基于Shapley值的可解释性分析使用Pytorch对MNIST分类可解释性分析使用shap的DeepExplainer进行可视化使用Pytorch对预训练ImageNet图像分类可解... 查看详情