如何根据内容对与圣经相关的文本进行分类

     2023-03-13     293

关键词:

【中文标题】如何根据内容对与圣经相关的文本进行分类【英文标题】:How to classify texts that are related to the bible based on their content 【发布时间】:2020-07-03 02:40:05 【问题描述】:

我有一个来自社交网络(FB、Twitter)的 cmets 的文本数据库。 我的目标是根据内容对与圣经有密切关系的文本进行分类(例如,如果使用了引用或“圣经”词。 这是一个二元分类问题,我需要帮助来弄清楚如何处理它(也许以某种方式将圣经用作字典)。谢谢!

【问题讨论】:

【参考方案1】:

您可以训练有监督的二元分类器(例如,基于 TF-IDF 计数器的逻辑回归,或 fasttext 分类器,或微调 BertForSequenceClassification)。

然后将此分类器应用于您的 cmets 数据库,并找到一个合理的概率阈值,以仅保留分类器足够自信的 cmets。

作为训练的正例,您可以使用圣经本身的句子,圣经相关的***文章的句子等。作为负例,您可以使用从网络收集的任何句子语料库 - 例如the Leipzig corpora 之一。

【讨论】:

谢谢!在其他文本上训练分类器进行训练而不是在我的数据集上进行测试的想法听起来很棒。您是否有类似代码的 python 或 r 笔记本的参考资料? 只是谷歌“tf-idf +逻辑回归”;例如这是第一个搜索结果kaggle.com/sudhirnl7/logistic-regression-tfidf

如何根据监督场景的多个特征的相关性进行分类

】如何根据监督场景的多个特征的相关性进行分类【英文标题】:howtodoClassificationbasedonthecorrelationofmultiplefeaturesforaSupervisedscenario【发布时间】:2018-01-0401:47:57【问题描述】:我有2个特征:“Contact_Last_Name”和“Account_Last_Name”,... 查看详情

对与音乐相关的 Twitter 数据进行情感分析的功能

...进行情感分析。在网上进行了大量搜索后,我已经了解了如何使用“tweepy”pythonapi获取推文,并且还 查看详情

如何使用保存的文本分类模型对新的文本数据集进行预测

】如何使用保存的文本分类模型对新的文本数据集进行预测【英文标题】:Howtomakepredictiononnewtextdatasetusingsavedtextclassificationmodel【发布时间】:2021-01-2519:12:00【问题描述】:我根据本指南训练了一个文本分类器:https://developers.goo... 查看详情

如何根据常规提交规范对 UI 更改进行分类?

】如何根据常规提交规范对UI更改进行分类?【英文标题】:HowtoclassifyUIchangeaccordingtotheconventionalcommitsspecification?【发布时间】:2021-01-2503:50:46【问题描述】:根据conventionalcommits,应该如何对单纯的UI更改进行分类?例如,假设... 查看详情

人工智能--基于lstm的文本挖掘(代码片段)

...部门处理。目前,大部分电子政务系统还是依靠人工根据经验处理,存在工作量大、效率低,且差错率高等问题。请根据附件text_data.xlsx给出的数据,划分训练样本和测试样本,参考以下代码,建立基于LSTM... 查看详情

对与另一个数组相关的数组进行排序

】对与另一个数组相关的数组进行排序【英文标题】:Sortinganarrayrelatedtoanotherarray【发布时间】:2022-01-0504:34:59【问题描述】:我有两个数组,x和y,其中y是x中每个元素的十位的值。现在,我想对y进行排序。但是,y的顺序与x的... 查看详情

jquery如何根据输入到文本框的关键字查询页面内容、然后把相关的内容全部显示到list中、

点击list中的内容可以直接跳转到页面的相关位置文本框输入Emma、进行查询、然后把文中查询到Emma全部同时添加显示在右边的list中(例:所有的红色Emma)点击list中所添加的Emma、分别跳转到不同的位置给你个思路:搜索方法里用... 查看详情

如何使用火花朴素贝叶斯分类器进行 IDF 文本分类?

】如何使用火花朴素贝叶斯分类器进行IDF文本分类?【英文标题】:HowtousesparkNaiveBayesclassifierfortextclassificationwithIDF?【发布时间】:2015-11-2018:05:58【问题描述】:我想使用tf-idf将文本文档转换为特征向量,然后训练一个朴素贝叶... 查看详情

如何根据用户在文本框中输入的内容进行过滤,如果为空则显示全部

】如何根据用户在文本框中输入的内容进行过滤,如果为空则显示全部【英文标题】:Howtofilterbywhattheuserentersinatextbox,exceptshowallifit\'sempty【发布时间】:2016-08-0912:09:38【问题描述】:我想过滤带有查询的表单,这样用户必须在文... 查看详情

根据内容对客户问题进行分类

】根据内容对客户问题进行分类【英文标题】:Categorizecustomerquestionsbasedoncontent【发布时间】:2017-05-2920:15:09【问题描述】:我正在开发用户可以提问的网络应用程序。这些问题应该根据问题内容、标题、用户数据、地区等按一... 查看详情

选择用于对用户文本数据进行分类的 sklearn 管道

...型。问题的简要描述:鉴于用户数据的许多实例,我试图根据相关关键字包含将它们分类为各种类别。它是有监督的,所 查看详情

如何使用 scikit-learn 对大文本数据进行分类?

】如何使用scikit-learn对大文本数据进行分类?【英文标题】:HowcanIclassifybigtextdatawithscikit-learn?【发布时间】:2019-10-0803:05:27【问题描述】:我有50GB的大型数据库,其中包含780个专业的486,000篇论文的摘录。出于科学目的,有必要... 查看详情

如何构建算法来根据关键字对 HTML 页面进行分类?

】如何构建算法来根据关键字对HTML页面进行分类?【英文标题】:HowcanIbuildanalgorithmtoclassifyanHTMLpagebasedonkeywords?【发布时间】:2011-11-0908:13:45【问题描述】:我正在尝试创建一种算法,根据在页面上找到的关键字设置与网页的相... 查看详情

文本分类与句子分类[重复]

...。我想知道-如果一个人对整个文本应用句子分类,然后根据其大部分句子被分类到的内容对段落进行分类-这会算作正确的文本分类 查看详情

nlp的文本分析与特征工程(代码片段)

...源|TowardsDataScience摘要在本文中,我将使用NLP和Python解释如何为机器学习模型分析文本数据和提取特征。自然语言处理(NLP)是人工智能的一个研究领域,它研究计算机与人类语言之间的相互作用,特别是如何对计算机进行编程... 查看详情

对文本进行分类的 NLP 步骤或方法?

...法或步骤来解决问题。【问题讨论】:【参考方案1】:如何使用词袋模型。它经过多年的尝试和 查看详情

多模态特征融合:图像语音文本如何转为特征向量并进行分类

...态的数据,通过输入数据到模型中,我们可以看到模型是如何学习到数据的特征向量的,同时分类任务的模型也是实现更复杂任务模型的基础。从分类任务中可以了解到图像、文本、语音在模型的特征向量是什么。以飞浆的多模... 查看详情

使用 Apache Mahout 对数据进行分类

...列文件才能生成模型。是的,我能够做到这一点。现在,如何对测试数据进行分类?20News示例仅测试正确性。但是,我想做实际的分 查看详情