正文

中文分词方法以及一些算法

viczhang  viczhang  2022-10-21  237

关键词：

对于搜索引擎的搜索准确度影响很大

1.基于字符串匹配（机械分词）一般作为一个初分手段

（1）正向最大匹配法（需要充分大的词典）

例子: 将句子 ’ 今天来了许多新同事 ’ 分词。设最大词长为5

今天来了许

今天来了

今天来

今天 ====》得到一个词 – 今天

来了许多新

来了许多

来了许

来了

来 ====》得到一个词 – 来

了许多新同

了许多新

了许多

了许

了 ====》得到一个词 – 了

许多新同事

许多新同

许多新

许多 ====》得到一个词 – 许多

新同事

新同

新 ====》得到一个词 – 新

同事 ====》得到一个词 – 同事

最后正向最大匹配的结果是：/今天/来/了/许多/新/同事/

代码参考： http://blog.csdn.net/xn4545945/article/details/8720620

缺陷：效率不高，尤其对于长文本分词、精确度不高、不能解决词的歧义问题

（2）逆向最大匹配

与正向最大匹配法大致相同，方向相反，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少

（3）最小切分法

使每一句切分出来的词数最少

（4）双向匹配法

结合正向最大与逆向最大方法

2.基于统计

定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。

配合词典

主要统计模型为：N元文法模型（N-gram）、隐马尔科夫模型(Hidden Markov Model, HMM)

bigram、trigram

全切分方法，找出最优切分，优点在于可以发现新词并且可以发现切分歧义。

3.基于理解

其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。

有哪些比较好的中文分词方案？

中文分词是中文文本处理的一个基础步骤，也是中文人机自然语言交互的基础模块。不同于英文的是，中文句子中没有词的界限，因此在进行中文自然语言处理时，通常需要先进行分词，分词效果将直接影响词性、句法树等模块... 查看详情

nlp︱中文分词技术小结几大分词引擎的介绍与比较

笔者想说：觉得英文与中文分词有很大的区别，毕竟中文的表达方式跟英语有很大区别，而且语言组合形式丰富，如果把国外的内容强行搬过来用，不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远。哈... 查看详情

浅谈分词算法基于词典的分词方法

[TOC]前言在浅谈分词算法（1）分词中的基本问题中我们探讨了分词中的基本问题，也提到了基于词典的分词方法。基于词典的分词方法是一种比较传统的方式，这类分词方法有很多，如：正向最大匹配（forwardmaximummatchingmethod,FMM... 查看详情

1.jieba中文处理

参考技术Ajieba是一个在中文自然语言处理中用的最多的工具包之一，它以分词起家，目前已经能够实现包括分词、词性标注以及命名实体识别等多种功能。既然Jieba是以分词起家，我们自然要首先学习Jieba的中文分词功能。Jieba提... 查看详情

mmseg中文分词算法解析

Mmseg中文分词算法解析@author linjiexing开发中文搜索和中文词库语义自己主动识别的时候，我採用都是基于mmseg中文分词算法开发的Jcseg开源project。使用场景涉及搜索索引创建时的中文分词、新词发现的中文分词、语义词向量空... 查看详情

中文分词（概况）

中文词法分析中文属于分析型语言，词基本上没有专门表示语法意义的附加成分,形态变化很少，语法关系靠词序和虚词来表示中文词法分析难点重叠词，离合词，词缀中文词语的切分歧义中文未定义词词性标注解决方法：基于... 查看详情

python中文分词的原理你知道吗？

中文分词，即ChineseWordSegmentation，即将一个汉字序列进行切分，得到一个个单独的词。表面上看，分词其实就是那么回事，但分词效参考技术A中文分词，即ChineseWordSegmentation，即将一个汉字序列进行切分，得到一个个单独的词。... 查看详情

编程实践golang实现中文分词

Golang实现中文分词分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。中文分词（ChineseWordSegmentation）指的是将一个汉字序列（句子）切分成一个一个... 查看详情

商品搜索引擎---分词（插件介绍与入门实例）

...现的方式，以及一些词库的推荐。一、ICTCLAS1.1、介绍中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上& 查看详情

jiba中文分词原理

中文分词就是将一个汉字序列分成一个一个单独的词。现有的分词算法有三大类：基于字符串匹配的分词：机械分词方法，它是按照一定的策略将待分析的字符串与一个充分大的机器词典中的词条进行匹配，若在词典中找到某个... 查看详情

go语言中文分词技术使用技巧

...据用户的关键词串用各种匹配方法进行分词的一种技术。中文分词（Chinese Word Segmentation）指的是将一个汉字序列（句子）切分成一个一个的单独的词，分词就是将连续的字序列按照一定的规则重新组合成词序列的过程。... 查看详情

中文分词算法综述

...英文文本词与词之间以空格分隔，方便计算机识别，但是中文以字为单位，句子所有字连起来才能表达一个完整的意思。如英文“Iamwritingablog”，英文词与词之间有空格进行隔开，而对应的中文“我在写博客”，所有的词连在一... 查看详情

31_彻底掌握ik中文分词_ik分词器配置文件讲解以及自定义词库实战

...KAnalyzer.cfg.xml：用来配置自定义词库main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起quantifier.dic：放了一些单位相关的词suffix.dic：放了一些后缀surname.dic：中国的姓氏stopword.dic：英文停用词main.... 查看详情

基于词典的中文分词算法2：最少分词法

最少切分分词算法该分词算法依据最少切分原则，从几种分词算法切分结果中取切分词数最少一种的。比如，从正向最大匹配和逆向最大匹配两者中选择词数较少的方案，当词数相同时，采取某种策略，选择其中一个。https://blog... 查看详情

中文分词的原理是啥？

我想要知道中文分词工具的原理什么？求大神帮帮忙？我使用的是python的jieba分词，它的原理是首先将要分词的字符串与自身的词典进行匹配查找，如果字典中有词语就返回该词语，然后使用HMM模型对其余为分出词语的词进行算... 查看详情

elasticsearch安装以及配置hanlp中文分词插件

参考技术Aelasticsearch默认开启两个端口：9200，用于ES节点和外部通讯；9300，用于ES节点之间通讯报错：org.elasticsearch.bootstrap.StartupException:java.lang.RuntimeException:cannotrunelasticsearchasroot，不能以root用户的身份运行elasticsearch解决方法：... 查看详情

基于词典的中文分词算法3：最大概率法

最大概率法分词是在最大匹配分词算法上的改进。在某些语句切分时，按最大长度切分词语可能并不是最优切分。而不按最优长度切分词语，则同一语句会出现多种切分结果。计算每种切分结果的概率，选取概率最高的切分作为... 查看详情

结巴分词

...要对关键词进行分词,最终采用的是python的结巴分词方法.中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。其基本实现原理有三点：基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况... 查看详情