搜索引擎文本分类

stackupdown stackupdown     2022-09-12     674

关键词:

Q1. 为什么搜索引擎要用到文本分类?

  搜索引擎要处理海量文本,人工分类不现实,机器的自动分类对提高文本的分类效率至少起到了一个基准的效果。另外,文本分类跟搜索引擎系统可以进行信息互通,文本分类的输入是文本,输出可以是标签或者是否从属于某个分类。

Q2.文本分类基础算法

  文本分类基础算法与机器学习、人工智能、数据挖掘中用到的算法都是联系紧密的,它从属的自然语言处理也正是人工智能的分支。你可能会想到文本分类肯定要用到基础的分类器,而且在更复杂的情况下可能还要用到人工智能的一些学习方法,比如双向LSTM和CNN。

  目前来看,文本分类通常用的是有监督的学习方法,这不是说无监督就没有用了,只是为了精度的要求,有监督是比较靠谱的。另外,文本分类几乎都是按照数据挖掘的套路来做的,好像是抽取特征->训练->验证->分类。

  分类器输入文本,输出标签(single-label or multi-label)。

Q3.文本分类的规模有多大?

  文本分类的规模有大有小,但是这只是针对训练集来说,而实际分类的输入除了数目以外,单个的大小是没有太大差异的。

正文

无监督算法和有监督算法

   一、有监督分类器

  决策树

  Bayes 分类器    Rocchio分类器

    朴素贝叶斯分类器:计算

, 即给出文档dj,求它属于类别 cp的概率,概率最大的cp就是文档本分到的类别了。在概率论与数理统计中求这个概率的最大一般都是求对数然后偏导为0。

 

  二、支持向量机

    支持向量机是什么?从一般的教材说法来看,它是一个多维空间的平面方程,由法向量和点唯一确定。支持向量是指在这个空间内能够使该方程满足偏移常数为1的向量。

    这个平面是由训练集确定参数,以实现分类间隔最大化的一个结果。

    【在机器学习包sklearn中提供了它的实现,训练的特点是花的空间少但是时间特别长】

    核函数:针对不同的输入向量,将它们映射到变换空间中所用到的函数,一般采用输入向量的乘积(或称点积)

    有了支持向量机,就要用SVM的相应决策函数。

 

  三、集成分类器

    它是将不同的分类器(如前面说的SVM, DT, Bayes)的结果合成,构成更高精度的方法。

    当然,怎么合成不是乱来的。怎么合理地合成引出了集成学习这一概念。

    增强学习分类器叫做boost

    Adaboost 是最早在论文中提到的将boost应用在文本分类的算法。此后又出现了一些算法。

    历史发展: boost->Adaboost->AdaBoost。

 

  四、无监督学习

    特征选择和降维(一般用SVD, PCA)。

 

其他

     文档分类的评价标准

      Precision, Recall,F-标准,。

    标准文档集

    1. Reuters [21578] http://www.daviddlewis.com/resources/testcollections/reuters21578/, 2004年收集, (8.2 MB; 28.0 MB uncompressed, though I downloaede a file of 27 MB).

    2. RCV Reuters Corpus Volumes 路透社新闻报道

    3. OHSUMED 医学主题词, MEDICINE 数据库的子集

    ftp://medir.ohsu.edu/pub/ohsumed (已失效)

    http://davis.wpi.edu/xmdv/datasets/ohsumed.html        TREC9 的文档过滤子竞赛

    4. WebKB(超文本集合)

    5. ACMDL(ACM-Digital-Library的一个子集), ODP

 

    竞赛举例

      CIKM竞赛, 2014年 Query Intent Detection

 

             软件包

    ID3 C4.5 [1311], [1313]

    SVMLight[839], LibSVM[355], SVMPerf[840]

    Bow[1104], Weka[1707]

     参考会议

    ICML, SIGKDD,SIGIR

 

文本分类(代码片段)

...提取。[1]搜索和信息检索:存储和文本文档的检索,包括搜索引擎和关键字搜索。文本聚类:使用聚类方法,对词汇,片段,段落或者文件进行分组和归类。文本分类:对片段,段落或文件进行分组和归类,在使用数据挖掘分类... 查看详情

paddlenlp基于ernir3.0文本分类以中医疗搜索检索词意图分类(kuake-qic)为例多分类(单标签)(代码片段)

相关项目链接:Paddlenlp之UIE模型实战实体抽取任务【打车数据、快递单】Paddlenlp之UIE分类模型【以情感倾向分析新闻分类为例】含智能标注方案)应用实践:分类模型大集成者[PaddleHub、Finetune、prompt]Paddlenlp之UIE关系... 查看详情

机器学习算法与编程实践之中文文本分类

这周学习了机器学习算法与编程实践第二章——中文文本分类的部分内容。该章以文本挖掘为大背景,以文本分类算法为中心,详细介绍了中文文本分类项目的相关知识点。一、文本挖掘与文本分类的概念被普遍认可的文本挖掘... 查看详情

文本分类(代码片段)

文本情感分类文本分类是自然语言处理的一个常见任务,它把一段不定长的文本序列变换为文本的类别。本节关注它的一个子问题:使用文本情感分类来分析文本作者的情绪。这个问题也叫情感分析,并有着广泛的应用。同搜索... 查看详情

在自然语言处理中使用图进行文本分类

】在自然语言处理中使用图进行文本分类【英文标题】:textclassificationusinggraphsinnaturallanguageprocessing【发布时间】:2020-10-0913:35:24【问题描述】:我尝试搜索,但找不到有关此主题的有用信息。这就是为什么我在这里问它...我知... 查看详情

如何使用 keras RNN 在数据集中进行文本分类?

】如何使用kerasRNN在数据集中进行文本分类?【英文标题】:HowtousekerasRNNfortextclassificationinadataset?【发布时间】:2017-05-1009:17:27【问题描述】:我已经使用keras编写了ANN分类器,现在我正在学习自己在keras中编写RNN代码以进行文本... 查看详情

哪些 Python 贝叶斯文本分类模块类似于 dbacl?

】哪些Python贝叶斯文本分类模块类似于dbacl?【英文标题】:WhichPythonBayesiantextclassificationmodulesaresimilartodbacl?【发布时间】:2010-10-1700:16:31【问题描述】:快速的Google搜索显示,有大量的贝叶斯分类器以Python模块的形式实现。如... 查看详情

使用特定标签在自定义帖子类型和分类中搜索

...product_tag。所以现在,我想在博客和常见问题解答中搜索文本“食物”以及那些标签为“食物”的产品。这是查询的参数:$args=array(\'tax_que 查看详情

使用 BERT 和 Keras 的神经网络进行文本分类

】使用BERT和Keras的神经网络进行文本分类【英文标题】:UsingBERTandKeras\'sneuralnetworkfortextclassification【发布时间】:2021-05-0802:18:27【问题描述】:我正在尝试使用BERT运行二进制监督文本分类任务,但我不知道该怎么做。我尝试使... 查看详情

paddlenlp基于ernir3.0文本分类:wos数据集为例(层次分类)(代码片段)

...UIE关系抽取模型【高管关系抽取为例】PaddleNLP基于ERNIR3.0文本分类以中医疗搜索检 查看详情

文本分类:多标签文本分类与多类文本分类

】文本分类:多标签文本分类与多类文本分类【英文标题】:TextClassification:MultilableTextClassificationvsMulticlassTextClassification【发布时间】:2016-06-1417:21:43【问题描述】:我对处理多标签分类问题的方法有疑问。根据文献回顾,我发... 查看详情

pagerank算法

...是Google用来标识网页的等级或重要性的一种算法。最早的搜索引擎采用的是 分类目录 的方法,即通过人工对网页进行分类并整理出高质量的网站。随着网页数目的急剧增大,这种方法显然无法实施。于是,搜索引擎进入... 查看详情

新闻文本分类任务:使用transformer实现(代码片段)

.........)👈(封面图由文心一格生成)新闻文本分类任务:使用Transformer实现自然语言处理(NLP)领域中的新闻文本分类任务旨在将一段文本自动分类到某个预定义的类别中,例如体育、政治、科技... 查看详情

中文文本分类大概的步骤

文本分类问题:给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个文本分类应用:常见的有垃圾邮件识别,情感分析文本分类方向:主要有二分类,多分类,多标签分类文本分类方法:传统机器学习方法(贝叶... 查看详情

文本分类与句子分类[重复]

】文本分类与句子分类[重复]【英文标题】:Textclassificationvs.Sentenceclassification[duplicate]【发布时间】:2014-06-2101:51:27【问题描述】:这两者有什么区别?文章似乎以不同的方式对待它们......也就是说,一篇论文将展示对文本分类... 查看详情

文本分类/分类算法[关闭]

】文本分类/分类算法[关闭]【英文标题】:Textclassification/categorizationalgorithm[closed]【发布时间】:2011-04-0419:26:55【问题描述】:我的目标是[半]自动将文本分配到不同的类别。有一组用户定义的类别和每个类别的一组文本。理想... 查看详情

文本分类分类器

】文本分类分类器【英文标题】:textcategorizationclassifiers【发布时间】:2013-02-2220:43:11【问题描述】:有人知道好的开源文本分类模型吗?我知道StanfordClassifier、Weka、Mallet等,但它们都需要培训。我需要将新闻文章分类为体育/... 查看详情

knn原理与实践

...法应用:knn算法不仅可以用于分类,还可以用于回归..1、文本分类:文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务.2、可以使用knn算法做到比较通用的现有用户产品推荐,基于用户的最近邻(长... 查看详情