41.分词器简单介绍

Outback Outback     2022-10-20     547

关键词:

主要知识点

   

1、什么是分词器

分词器就是把一个文档切分成词语,也就是es中所做的normalization(提升recall召回率)

recall,召回率:搜索的时候,增加能够搜索到的结果的数量。

经过分词器分词之后,es才能建立倒排索引

2、内置分词器的介绍

es内置种分词器,他们分别是、standard analyzersimple analyzerwhitespace analyzerlanguage analyzer。所以如果是中文还要程序员自动手动安装中文分词器

假设有如下一段话:

Set the shape to semi-transparent by calling set_trans(5)

   

  • standard analyzer:结果是 set, the, shape, to, semi, transparent, by, calling, set_trans, 5(默认的是standard
  • simple analyzer:结果是 set, the, shape, to, semi, transparent, by, calling, set, trans
  • whitespace analyzer:结果是 Set, the, shape, to, semi-transparent, by, calling, set_trans(5)
  • language analyzer(特定的语言的分词器,比如说,english,英语分词器):结果是 set, shape, semi, transpar, call, set_tran, 5

3、其他说明

Elasticsearch中,内置了很多分词器(analyzers),例如standard (标准分词器)、english(英文分词)和chinese (中文分词)。其中standard 就是无脑的一个一个词(汉字)切分,所以适用范围广,但是精准度低;english 对英文更加智能,可以识别单数负数,大小写,过滤stopwords(例如"the"这个词)等;chinese 效果很差,后面会演示。这次主要玩这几个内容:安装中文分词ik,对比不同分词器的效果,得出一个较佳的配置。关于Elasticsearch,两篇很有用的文章:Elasticsearch的安装,运行和基本配置 和 备份和恢复,需要的可以看下。

   

   

lucene介绍及简单入门案例(集成ik分词器)(代码片段)

介绍    Lucene是apache软件基金会4jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析... 查看详情

es实战es分词器介绍(代码片段)

文章目录ES分词器介绍什么是分词器分词器的组成CharacterfiltersTokenizersTokenfilters分词的过程写入时分词搜索时分词测试分词效果分词器的分类使用示例以StandardAnalyzer为例测试分析效果其他:Normalizers(规范器)ES分词器... 查看详情

elasticsearch分词器,了解一下

参考技术A这篇文章主要来介绍下什么是Analysis,什么是分词器,以及ElasticSearch自带的分词器是怎么工作的,最后会介绍下中文分词是怎么做的。首先来说下什么是Analysis:顾名思义,文本分析就是把全文本转换成一系列单词(ter... 查看详情

solrsolr实现简单的类似百度搜索高亮功能-1.配置ik分词器

配置Ik分词器一效果图   二实现此功能需要添加分词器,在这里使用比较主流的IK分词器。1没有配置IK分词器,用solr自带的text分词它会把一句话分成单个的字。2 配置IK分词器,的话它会把句子分成词组三下载配置... 查看详情

ubuntu安装es(elesticsearch),es结构介绍,ik分词器的简单使用,es入门增删改查api,结果集高亮(代码片段)

1-下载安装包大家可以自己选择一个版本安装https://www.elastic.co/cn/downloads/past-releases/elasticsearch-6-3-0解压后再bin下启动es,然后内存不满足es的要求启动报错了./elasticsearch临时解决方案(重启失效),在root下sysctl-wvm.max_map_... 查看详情

elasticsearch分词器的介绍和使用(代码片段)

分词器的介绍和使用什么是分词器?将用户输入的一段文本,按照一定逻辑,分析成多个词语的一种工具常用的内置分词器standardanalyzer、simpleanalyzer、whitespaceanalyzer、stopanalyzer、languageanalyzer、patternanalyzerstandardanalyzer标准分析器是... 查看详情

30.ik中文分词器的安装和简单使用

在之前我们学的都是英文,用的也是英文的standard分词器。从这一节开始,学习中文分词器。中国人基本上都是中文应用,很少是英文的,而standard分词器是没有办法对中文进行合理分词的,只是将每个中文字符一个一个的切割... 查看详情

es学习:分词器介绍以及中文分词器ik的安装与使用(代码片段)

什么是分词把文本转换为一个个的单词,分词称之为analysis。es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体。示例POSThttp://192.168.247.8:9200/_analyze"analyzer":"standard","text":"good... 查看详情

solr8.0ik中文分词器的简单配置(代码片段)

下载ik分词器,由于是solr8.0,一些ik分词器版本可能不兼容,以下是个人亲测可行的版本链接:https://pan.baidu.com/s/1_Va-9af-jMcqepGQ9nWo3Q提取码:0a3y然后将解压出来的两个jar包放到以下路径: 其它的三个文件放到以下路径:如果... 查看详情

propertytokenizermybatis属性分词器

PropertyTokenizer分词器其实很简单,简言之就是按照一定的规则将字符串进行分词publicclassPropertyTokenizerimplementsIterator<PropertyTokenizer>//属性名称privateStringname;//属性名称➕索引主要是集合属性eg:user[0]privatefinalStringindexedName;//索 查看详情

如何在solr中添加ik分词器

 分词技术是搜索技术里面的一块基石。很多人用过,如果你只是为了简单快速地搭一个搜索引擎,你确实不用了解太深。但一旦涉及效果问题,分词器上就可以做很多文章。例如,在我们实际用作电商领域的搜索的工作中,... 查看详情

lucene的分词器宝典(代码片段)

分词器概念介绍:Analyzer类(分词器)就是把一段文本中的词按某些规则取出,提供和以后查询时使用的工具类,注意在创建索引时会用到分词器,在使用字符串搜索时也会用到分词器,这两个地方要使用同一个分词器,否则可能... 查看详情

elasticsearchik分词器的安装使用与扩展

ES的默认分词器(standard)不支持中文分词,满足不了平时的需求,所以需要用能够支持中文分词的IK分词器。而且IK分词器也是支持英文分词的。本文介绍下IK分词器的安装、基本使用方法;专有名词、同义词的使用࿱... 查看详情

elasticsearch安装中文分词器插件smartcn

...:http://blog.java1234.com/blog/articles/373.htmlelasticsearch安装中文分词器插件smartcn elasticsearch默认分词器比较坑,中文的话,直接分词成单个汉字。我们这里来介绍下smartcn插件,这个是官方推荐的,中科院搞的,基本能满足需求;还... 查看详情

elasticsearch分布式搜索引擎--elasticsearch-analysis-pinyin拼音分词器的安装和介绍(代码片段)

1.拼音分词器要实现根据字母做补全,就必须对文档按照拼音分词。在GitHub上恰好有elasticsearch的拼音分词插件。7.12.1版本(因为我的es是7.12.1版本)1.1.1在线安装安装步骤:#进入容器内部dockerexec-ites/bin/bash#在线下... 查看详情

es实战-使用ik分词器进行词频统计(代码片段)

简介:通过IK分词器分词并生成词云。本文主要介绍如何通过IK分词器进行词频统计。使用分词器对文章的词频进行统计,主要目的是实现如下图所示的词云功能,可以找到文章内的重点词汇。后续也可以对词进行词... 查看详情

架构师成长记_第八周_10_es-分词与五种内置分词器(代码片段)

文章目录ES-分词PS:1.全局分析方式(_analyze)2.指定字段分析方式(索引名/_analyze)ES-五种内置分词器介绍1标准分词器standard2非字母分词器simple3空格拆分分词器whitespace4智能化分词器(会去掉英文中无意义的词a/an/is/the等)stop5关键字分词... 查看详情

elasticsearch分词器的使用与ik分词器安装(代码片段)

Elasticsearch分词器安装与使用ES内置分词器standard:默认分词器,简单会被拆分,英文统一转换为小写simlle:按照非字母分词,英文统一转换为小写whitespace:按照空格分词stop:去除无意义的单词,比... 查看详情