elasticsearch入门第二篇:elasticsearch安装与使用ik中文分词器(代码片段)

Archy_Wang_1 Archy_Wang_1     2022-12-02     412

关键词:

1、简介
IKAnalyzer 是一个开源的,基于 Java 语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer 已经推出了3个大版本。最初,它是以开源项目 Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。 最近刚刚发布了 3.1.1Stable 稳定版本,新版本的 IKAnalyzer 则发展为面向 Java 的公用分词组件,独立于 Lucene 项目,同时提供了对 Lucene 的默认优化实现。

2、安装IK中文分词器
下载IK中文分词器:https://github.com/medcl/elasticsearch-analysis-ik/releases

注意:选择的IK分词器版本一定要与你的 Elasticsearch 版本一致,否则就无法启动 Elasticsearch 服务。

例如,本人的 Elasticsearch 版本为:8.4.1,所有下载的IK分词器版本也为:8.4.1。

(1)下载完成后,解压zip文件。

(2)然后进入 Elasticsearch 目录下的 plugins 目录,在 plugins 目录下创建一个名为:analysis-ik 的文件夹。

(3)将解压后的文件全拷贝到到该:D:\\ProgramFiles\\elasticsearch-8.4.1\\plugins\\analysis-ik 文件夹下,如下图:

(4)重启 Elasticsearch 服务。

3、IK中文分词器的使用
根据官方的建议,IK分词器的名字可以使用: ik_max_word 或者 ik_smart。

ik_max_word:会将文本做最细粒度的拆分,比如会将“朝暮轮回,四季更替”拆分为 “朝暮、轮回、四季、更替、四、季”。

ik_smart:会做最粗粒度的拆分,比如会将“朝暮轮回,四季更替”拆分为 “朝暮、轮回、四季、更替”。

3.1 查看分词结果

POST /_analyze

  "analyzer":"ik_max_word",
  "text":"您好,欢迎访问 pan_junbiao的博客"

执行结果:

 3.2 创建索引

PUT /user_info

  "settings": 
    "index": 
      "number_of_shards": "2",
      "number_of_replicas": "0"
    
  ,
  "mappings": 
    "properties": 
      "id": 
        "type": "integer"
      ,
      "user_name": 
        "type": "text"
      ,
      "blog_remark": 
        "type": "text",
        "analyzer": "ik_max_word"
      
    
  

 执行结果:

 3.3 批量添加数据

POST _bulk
 "create" :  "_index" : "user_info", "_id" : "1001"  
 "id":1, "user_name": "pan_junbiao的博客","blog_remark": "您好,欢迎访问 pan_junbiao的博客"
 "create" :  "_index" : "user_info", "_id" : "1002"  
 "id":2,"user_name": "pan_junbiao的CSDN博客","blog_remark": "您好,欢迎访问 pan_junbiao的CSDN博客"
 "create" :  "_index" : "user_info", "_id" : "1003"  
 "id":3,"user_name": "pan_junbiao的博客","blog_remark": "https://blog.csdn.net/pan_junbiao"

执行结果:

3.4 查询数据

POST /user_info/_search


"query": 

"match": 

"blog_remark": "博客"

      

   

 执行结果:

问题:安装IK后启动elasticsearch.bat报错,原因是elasticsearch的安装目录中有带空格的目录,修改后就可以了

elasticsearch:分析器

ElasticSearch入门第七篇:分析器这是ElasticSearch2.4版本系列的第七篇:ElasticSearch入门第一篇:Windows下安装ElasticSearchElasticSearch入门第二篇:集群配置ElasticSearch入门第三篇:索引ElasticSearch入门第四篇:使用C#添加和更新文档ElasticSear... 查看详情

elasticsearch入门第六篇:复合数据类型——数组,对象和嵌套

这是ElasticSearch2.4版本系列的第六篇:ElasticSearch入门第一篇:Windows下安装ElasticSearchElasticSearch入门第二篇:集群配置ElasticSearch入门第三篇:索引ElasticSearch入门第四篇:使用C#添加和更新文档ElasticSearch入门第五篇:使用C#查询文档... 查看详情

elasticsearch入门第二篇:elasticsearch安装与使用ik中文分词器(代码片段)

1、简介IKAnalyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的... 查看详情

elasticsearch入门第二篇:elasticsearch安装与使用ik中文分词器(代码片段)

1、简介IKAnalyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的... 查看详情

elasticsearch入门第二篇:elasticsearch安装与使用ik中文分词器(代码片段)

1、简介IKAnalyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的... 查看详情

elasticsearch入门第二篇:elasticsearch安装与使用ik中文分词器(代码片段)

...IK中文分词器下载IK中文分词器:https://github.com/medcl/elasticsearch-analysis-ik/releases注意:选择的IK分词器版本一定要与你的Elasticsearch版本一致,否则就无法启动Elasticsearch服务。例如,本人的Elasticsearch版本为:8.4.1&... 查看详情

javamail入门第二篇创建邮件

JavaMailAPI使用javax.mail.Message类来表示一封邮件,Message类是一个抽象类,所以我们需要使用其子类javax.mail.internet.MimeMessage类来创建Message类的实例对象,如果我们创建的是一个简单文本邮件,那么MimeMessage类就可以满足我们的需求... 查看详情

springboot~入门第二篇~页面html跳转~

遇到的问题:按照别人的blog搭jsp页面就是html页面跳转不了,总是如图:终于找到了一个能用的blog,换 thymeleaf(html页面跳转)成功。 控制器代码注意下:@Controller而不是@RestController,不然也会直接返回字段值就变成入门... 查看详情

linux入门第二篇:shell命令及运行原理和linux权限的概念

目录shell命令及运行原理Linux权限的概念Linux下的用户Linux创建用户和删除用户Linux用户切换Linux增加用户权限(添加到信任列表)Linux权限的管理01.文件访问者的分类02.文件类型和访问权限(事物属性)03.文件权限... 查看详情

elasticsearch入门第一篇:elasticsearch在windows系统下的安装(代码片段)

Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。... 查看详情

elasticsearch入门第一篇:elasticsearch在windows系统下的安装(代码片段)

Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。... 查看详情

elasticsearch入门第一篇:elasticsearch在windows系统下的安装(代码片段)

Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。... 查看详情

zookeeper入门第一篇

转载原文地址:ZooKeeper学习总结第一篇:ZooKeeper快速入门ZooKeeper学习总结第二篇:ZooKeeper深入探讨ZooKeeper学习第一期---Zookeeper简单介绍1.概述Zookeeper简单来说就是一个分布式协调技术的具体实现,所谓分布式协调技术就是在集群... 查看详情

elasticsearch入门第一篇:elasticsearch在windows系统下的安装(代码片段)

Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。... 查看详情

spring入门第一天

Spring的前世今生   查看详情

java入门第一节课程

查看详情

git入门第三讲:修改提交

Git入门第三讲:修改提交​​1.查看当前状态​​​​2.修改文件内容​​​​3.重新查看状态​​​​4.查看具体修改了什么内容​​​​5.添加文件​​​​6.提交所有添加文件​​############################################指令集#查看... 查看详情

git入门第二讲:创建版本库

Git入门第二讲:创建版本库​​1.创建版本库(仓库)​​​​2.初始化仓库​​​​3.添加文件到仓库​​​​4.将添加好的文件提交到仓库​​​​5.总结​​######################################命令集##########################################... 查看详情