day112es中文分词介绍

DEJAVU_ERIC DEJAVU_ERIC     2022-12-01     574

关键词:

一 中文分词介绍

elasticsearch提供了几个内置的分词器:standard analyzer(标准分词器)、simple analyzer(简单分词器)、whitespace analyzer(空格分词器)、language analyzer(语言分词器)

而如果我们不指定分词器类型的话,elasticsearch默认是使用标准分词器的

我们需要下载中文分词插件,来实现中文分词

二 下载

地址为:https://github.com/medcl/elasticsearch-analysis-ik

安装方式参照【02-ElasticSearch之-插件介绍】

#我们采用第二种,url安装
./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.4.2/elasticsearch-analysis-ik-7.4.2.zip

 

es实战es分词器介绍(代码片段)

文章目录ES分词器介绍什么是分词器分词器的组成CharacterfiltersTokenizersTokenfilters分词的过程写入时分词搜索时分词测试分词效果分词器的分类使用示例以StandardAnalyzer为例测试分析效果其他:Normalizers(规范器)ES分词器... 查看详情

elasticsearch7.8.0版本进阶——ik中文分词器(代码片段)

目录一、ES的默认分词器测试示例二、IK中文分词器2.1、IK中文分词器下载地址2.2、ES引入IK中文分词器2.3、IK中文分词器测试示例三、ES扩展词汇测试示例一、ES的默认分词器测试示例通过Postman发送GET请求查询分词效果,在消... 查看详情

elasticsearch第三步-中文分词

elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍ik的用法,当我们创建一个index(库db_news)时,eas... 查看详情

架构师成长记_第八周_10_es-分词与五种内置分词器(代码片段)

...不会进行拆分)keywordES-分词PS:内置默认的分词器是不支持中文的,中文的话会 查看详情

elasticsearch中文分词器详解(代码片段)

1.es安装中文分词器官网:https://github.com/medcl/elasticsearch-analysis-ik1.1.安装中文分词器安装中文分词器的要求:​1.分词器的版本要与es的版本一直​2.所有es节点都需要安装中文分词器​3.安装完分词器需要重启1.在线安装[root@elastics... 查看详情

41.分词器简单介绍

主要知识点   1、什么是分词器 分词器就是把一个文档切分成词语,也就是es中所做的normalization(提升recall召回率) recall,召回率:搜索的时候,增加能够搜索到的结果的数量。 经过分词器分词之后,es才能建... 查看详情

elasticsearch之中文分词器插件es-ik

...csearch之分词器的工作流程Elasticsearch之停用词Elasticsearch之中文分词器Elasticsearch之几个重要的分词器       elasticsearch官方默认的分词插件  1、elasticsearch官方默 查看详情

elasticsearch安装中文分词器(代码片段)

发车   为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用。今天我们就尝试安装下IK分词。上... 查看详情

es对中文进行精确查询

...在使用过程中发现,英文数字是没问题的,但是对于默认中文ik分词器来说,就会发现中文精确查询查不出数据,因为底层都已经分词了,所以用matchPhraseQuery去做精确查询,MatchQuery适用于对搜索内容进行分词的范围查找 查看详情

elasticsearch拼音分词和ik分词的安装及使用(代码片段)

...言以蔽之,IK分词是目前使用非常广泛分词效果比较好的中文分词器。做ES开发的,中文分词十有八九使用的都是IK分词器。下载地址:https://github.com/medcl/elasticsearch-analysis-ik2.pinyin分词器的下载安装可以在淘宝、京东的搜索框中输... 查看详情

elasticsearch笔记整理:javaapi使用与es中文分词

[TOC]pom.xml使用maven工程构建ESJavaAPI的测试项目,其用到的依赖如下:<dependency><groupId>org.elasticsearch</groupId><artifactId>elasticsearch</artifactId><version>2.3.0</version>& 查看详情

使用es对中文文章进行分词,并进行词频统计排序

前言:首先有这样一个需求,需要统计一篇10000字的文章,需要统计里面哪些词出现的频率比较高,这里面比较重要的是如何对文章中的一段话进行分词,例如“北京是中华人民共和国的首都”,“北京”,“中华人民共和国”... 查看详情

es5.4安装headik中文分词插件

安装maven打包工具wget http://mirror.bit.edu.cn/apache/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gztar -xf apache-maven-3.3.9-bin.tar.gzmv apache-maven-3.3.9 /usr/local 查看详情

elasticsearch分词器,了解一下

...及ElasticSearch自带的分词器是怎么工作的,最后会介绍下中文分词是怎么做的。首先来说下什么是Analysis:顾名思义,文本分析就是把全文本转换成一系列单词(term/token)的过程,也叫分词。在ES中,Analysis是通过分词器(Analyzer... 查看详情

elasticsearch之中文分词器插件es-ik的热更新词库

  前提Elasticsearch之中文分词器插件es-ik的自定义词库      先声明,热更新词库,需要用到,web项目和Tomcat。不会的,请移步Eclipse下Maven新建项目、自动打依赖jar包(包含普通项目和Web项目)Tomcat*的安装... 查看详情

es中安装中文/拼音分词器(ik+pinyin)

...(详细步骤网上很多,本文只提供整体思路和步骤):IK中文分词器:https://github.com/medcl/elasticsearch-analysis-ik拼音分词器:https://github.com/medcl/elasticsearch-analysis-pinyin(竟然都是同一个作者的杰作,还有mmseg和简繁转换的类库,依然... 查看详情

nlp︱中文分词技术小结几大分词引擎的介绍与比较

笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远。哈... 查看详情

es中中文分词器的使用

  一直到今天,才打算写这篇文章。我使用的es服务器,是使用docker进行安装的,不像传统的那种安装,分词器要添加到docker里,一直有些头疼。  es整体都整理好了,进行补充没有实现的一些es知识点。1.参考地址  github... 查看详情