pai文本分析实验:常用文本分析组件及案例实战

fous数据实验室 fous数据实验室     2022-09-19     697

关键词:

上一篇介绍了PAI以及机器学习相关的一点知识,没有深入算法原理,只是从使用角度出发熟悉了操作流程,后面随着学习的深入,我也会对算法原理做一个详细的阐述。这次我们还是继续实战,认识机器学习在文本分析领域是如何工作的。先贴出官方的教程:机器学习PAI眼中的《人民的名义》

准备开始

还是在阿里PAI环境下,我们从实验模板:人民的名义分析进入,然后点击去PAI平台创建,这样就在机器学习页面创建好了实验。接下里设置各个组件的参数,我们先看下模型图:

你会发现模板创建的结果和教程的模型图不一样。这里我们要自己添加红色框内的组件,自定义分词、自定义停用词、停用词过滤和词频统计。所有组件直接在左侧拖到工作区即可。接下来对整个实验流程进行说明分析。

实验流程

首先,我们要读取待分析的文本,这部分是PAI公共库的数据,创建好模板会自动导入。数据是九段文本,节选自人民的名义,后面的分析都是基于这部分数据做的。我们可以右键点击查看数据:

Split Word

接下来为了分析,我们需要切分文本内容,也就是通过split_word组件,这是基于AliWS词法分析系统,对指定列文章内容进行分词,分词后以空格作为分隔符。但是我们既然要分析人民的名义,那么必须保证关键人物被正确分词,这个需要我们给split_word组件添加一个词库,这样再遇见我们定义的关键词时就能正确切分了。文件可以在这里下载:name_ split

停用词

接下来还要添加停用词,那什么是停用词呢?停用词就是句子中的干扰词,比如“什么,这,那,了,的,还有一些符号!,?,:”等,只要不影响我们分析的结果,其实都可以过滤,这是一份中文停用词表(1208个).txt,不过这里我们只能传递单个停留词,所以用不了,我们自己写一个常用停留词文件即可,针对本次分析使用stop_words就可以了。接着我们需要创建两张表,都只有一个字段,定义为string类型,把我们的name_split和stop_words文件导入,然后再数据源处选择我们自己的表即可。

词频统计

当设置好了数据源、分词、停用词过滤,就可以做词频统计:在对文章进行分词的基础上,按行保序输出对应文章ID列(docId)对应文章的词,统计指定文章ID列(docId)对应文章内容(docContent)的词频。添加词频统计组件,设置文档ID列,和文档内容列即可。

关键词抽取

关键词抽取是自然语言处理中的重要技术之一,具体是指从文本里面把跟这篇文章意义最相关的一些词抽取出来。本算法基于TextRank,它受到网页之间关系PageRank算法启发,利用局部词汇之间关系(共现窗口)构建网络,计算词的重要性,选取权重大的做为关键词。

可以看上面这张图,比如制定一个规则:相邻3个words之间有关联,那么就把它们连起来,这样整段内容可以形成一个网络图,它的边上与之关联的词越多(词频高)说明这个词就是key word。

文本摘要

所谓自动文摘就是利用计算机自动地从原始文献中提取文摘,文摘是全面准确地反映某一文献中心内容地简单连贯的短文。本算法基于TextRank,通过提取文档中已存在的句子形成摘要。点击查看数据可以看到根据九段内容提炼的摘要。

运行结果

每一步都可以通过右键查看数据,这里我们取两个直观的结果做检验。关键词提取组件可以返回每章关键词语以及权重,通过这个结果可以看到每一章的关键人物有哪些,以及他们的权重排名情况:

下面是词频统计的部分结果,可以看到每一章不同单词出现的次数统计:

结果基本和官网实验结果差不错,有个别差异是因为所选分词和停用词不同造成的。最后一个是语义向量距离,反应段落之间的相关性:

我们把结果按distance由近到远排序,可以看到向量距离最小的A区域语句相关度还是比较高的,理解就是相邻段落故事相关性较大,而距离比较远的差异就会比较大,比如红框中数据。

~ 完 ~

[阿里云-机器学习pai快速入门与业务实战]课时1-机器学习背景知识以及业务架构介绍

...格预测SNS关系挖掘:微博粉丝领袖分析、社交关系链分析文本类场景:新闻分类、关键词提起、文章摘要、文本内容分析非结构化数据处理场景:图片分类、图片文本内容提取OCR其它各类预测场景:降雨预测、足球比赛结果预测 &n... 查看详情

文本情感分析-机器学习实验三(代码片段)

...分析-机器学习实验三实验目的:通过实验,掌握文本分析的整体流程,了解文本分类、情感分析、自动摘要等内容通过给定的文本内容,完成分词、文本向量化、文本分类、情感分析等相关实验实验可从文本分类... 查看详情

androidframework实战开发-binder通信常见使用方式,及案例分析

csdn在线学习课程,课程咨询答疑和新课信息:QQ交流群:422901085进行课程讨论android跨进程通信实战视频课程(加群获取优惠)(1)binder通信常见使用方式,及案例分析 查看详情

androidframework实战开发-binder通信常见使用方式,及案例分析

csdn在线学习课程,课程咨询答疑和新课信息:QQ交流群:422901085进行课程讨论android跨进程通信实战视频课程(加群获取优惠)(1)binder通信常见使用方式,及案例分析 查看详情

加油站会员管理小程序01需求分析

...合实战案例,我们完整的介绍一下IT的常用技能,如需求分析、原型制作、数据源及功能设计、编程技巧等。通过实战案例的讲解,带着大家从0到1的搭建一款小程序,让零基础的同学也 查看详情

r从网页抓取到文本分析全教程:影评的获取与分析(代码片段)

前言本文介绍使用爬虫技术抓取网页,及对获取的网页文本数据做后续分析的实战案例。我将以网友对《流浪地球》豆瓣影评文本的获取与分析全过程,作为演示案例。文本挖掘的本质是,通过自然语言处理(NaturalLanguageProcessin... 查看详情

r语言实战应用精讲50篇(二十八)-r语言时空数据分析实战案例-数据处理及可视化(代码片段)

...据,这些数据以各种形式提供给用户,但通常以CSV文件或文本文件中的表格形式提供。通常会花费大量时间来加载数据并对其进行预处理,以便将它们转化为适合分析的形式。R中有几个包可以帮助用户快速实现这些目标;在这... 查看详情

r语言实战应用精讲50篇(二十八)-r语言时空数据分析实战案例-数据处理及可视化(代码片段)

...据,这些数据以各种形式提供给用户,但通常以CSV文件或文本文件中的表格形式提供。通常会花费大量时间来加载数据并对其进行预处理,以便将它们转化为适合分析的形式。R中有几个包可以帮助用户快速实现这些目标;在这... 查看详情

gavin老师transformer直播课感悟-rasa对话机器人项目实战之教育领域educationbot项目架构运行测试流程分析及rasainteractive实验分析(六十)

...之教育领域EducationBot项目架构、运行测试、业务流程进行分析,并通过Rasainteractive进行实验分析。一、Rasa对话机器人项目实战之教育领域EducationBot项目架构、运行测试、业务流程分析Rasa对话机器人项目实战之教育领域EducationBot... 查看详情

《自然语言处理实战入门》文本检索----文本查询实例:elasticsearch配置ik分词器及使用

...oracle,通过sql语句的LIKE查询,可以实现前缀匹配。我们在文本检索过程中,主要使用倒排索引进行,但Elasticsearch默认的分词器将汉语文本直接分成了单个的汉字,正如第五小节代码清单显示的那样,这就会对检索结果产生影响,... 查看详情

r从网页抓取到文本分析全教程:影评的获取与分析(代码片段)

前言本文介绍使用爬虫技术抓取网页,及对获取的网页文本数据做后续分析的实战案例。我将以网友对《流浪地球》豆瓣影评文本的获取与分析全过程,作为演示案例。文本挖掘的本质是,通过自然语言处理(NaturalLanguageProcessin... 查看详情

《逆向分析实战》数据的存储及表示形式

...算机中的各种数据都是以二进制形式进行存储的,无论是文本文件、图片文件,还是音频文件、视频文件、可执行文件等,统统都是由二进制文件存储的。学习过计算机的读者在学习计算机基础的时候一定学习过进制转换 查看详情

《python数据分析与挖掘实战》第四章案例代码总结与修改分析

第四章案例代码总结与修改分析【有问题或错误,请私信我将及时改正;借鉴文章标明出处,谢谢】每个案例代码全部为书中源代码,出现错误按照每个案例下面给出的代码错误,原因,及怎样修改进行修改即可解决每个案例错... 查看详情

大数据分析案例-基于随机森林算法构建新闻文本分类模型

查看详情

windows逆向分析入门——实战篇(收发文本消息)

...个方法:系统函数;第六个方法:第三方库。目标是收发文本消息。 一、发送消息  分析  1、发送信息的一般流程    1、界面上编辑消息    2、点击发送按钮    3、消息存入数据库    4、通过网络... 查看详情

solr文本分析剖析文本分析分词器详解自定义文本分析字段及分词器(代码片段)

一.概述  Solr文本分析消除了索引词项与用户搜索词项之间的语言差异,让用户在搜索buyinganewhouse时能找到类似的内容,例如:purchasinganewhome这样的文档。如果搭配恰当,文本分析就能允许用户使用自然语言进行搜索,而无需... 查看详情

数据分析实战

...aFrame数据框向量化运算数据处理数据导入导入CSV文件导入文本文件导入Excel文件数据导出导出文本文件重复值处理缺失值处理空格值处理字段抽取字段拆分记录抽取随机抽样记录合并字段合并字段匹配简单计算数据标准化数据分... 查看详情

菜菜数据分析实战五期

...安酱老师讲的非常认真许多案例让我很深刻的理解了数据分析1.数据分析思维及软件安装2.数据分析师必备Excel3.Tableau进行可视化4.数据分析之MySQL必知必会5.数据分析之Python6.实际业务篇7.指标建模&分析方法8.实战案例9.数据分... 查看详情