solr6.6.0添加ik中文分词器

朽木自雕也 朽木自雕也     2022-09-16     240

关键词:

IK分词器就是一款中国人开发的,扩展性很好的中文分词器,它支持扩展词库,可以自己定制分词项,这对中文分词无疑是友好的。 
jar包下载链接:http://pan.baidu.com/s/1o85I15o 密码:p82g
下载好之后,将IK对应的jar复制到项目的D:\tomcat\webapps\solr\WEB-INF\lib下面,然后在WEB-INF下面创建一个classes的目录,将其余三个文件(IKAnalyzer.cfg.xml , ext.dic和stopword.dic)复制到这个classes目录下。 

 


打开D:\solrhome\core_demo\conf 下的managed-schema,添加:

<!-- K分词 -->
<fieldType name="text_ik" class="solr.TextField">   
    <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
    <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
</fieldType>

同时,把需要分词的字段,设置为text_ik。type属性=text_ik,也就是我们自定义的IK中文分词

 

现在我们测试中文分词

使用联合sgk域来实现多域查询 

 

另外,解释一下IK的配置,其中IKAnalyzer.cfg.xml为配置文件,主要用来配置扩展词库,禁止词词库等

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
    <comment>IK Analyzer 扩展配置</comment>
    <!--用户可以在这里配置自己的扩展字典 -->
    <entry key="ext_dict">ext.dic;</entry> 
    <!--用户可以在这里配置自己的扩展停止词字典-->
    <entry key="ext_stopwords">stopword.dic;</entry> 
</properties> 

这里说下useSmart,我试过,当设置为true时,分词粒度比较小,支取权重比较高的分词,当设置为false时,分词粒度比较小,能匹配多个词;

到这里,IKAnalyzer就算配置完毕,可以直接在后台调试分词了

 

solr集成ik中文分词器

1、将IKAnalyzer-2012-4x.jar拷贝到examplesolr-webappwebappWEB-INFlib下;2、在schema.xml文件中添加fieldType:<fieldTypename="text_ik"class="solr.TextField">      <analyzercla 查看详情

ik(中文)分词器

参考技术A注意:IK分词器有两种类型,分别是ik_smart分词器和ik_max_word分词器。ik_smart:会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。ik_max_word:会将文本做最细粒度的拆分,比如会将“... 查看详情

elasticsearch7.8.0版本进阶——ik中文分词器(代码片段)

目录一、ES的默认分词器测试示例二、IK中文分词器2.1、IK中文分词器下载地址2.2、ES引入IK中文分词器2.3、IK中文分词器测试示例三、ES扩展词汇测试示例一、ES的默认分词器测试示例通过Postman发送GET请求查询分词效果,在消... 查看详情

solr配置中文分词器ik

1.下载或者编译IK分词器的jar包文件,然后放入 ...apache-tomcat-8.5.16webappssolrWEB-INFlib这个lib文件目录下;  IK分词器下载地址:http://download.csdn.net/download/qq_35318576/102435182.打开...workspace-solrsolrmy_coreconfm 查看详情

elasticsearch速学-ik中文分词器远程字典设置

前面已经对”IK中文分词器“有了简单的了解: 但是可以发现不是对所有的词都能很好的区分,比如:  逼格这个词就没有分出来。词库实际上IK分词器也是根据一些词库来进行分词的,我们可以丰富这个词库。 IK... 查看详情

solrcloud配置中文分词器ik

无论是solr还是luncene,都对中文分词不太好,所以我们一般索引中文的话需要使用ik中文分词器。三台机器(192.168.1.236,192.168.1.237,192.168.1.238)已经安装好了solrcloud我安装的是solr5.5使用的是ik是IKAnalyzer2012FF_u2.rar下载IKAnalyzer2012FF_... 查看详情

elasticsearch安装中文分词器(代码片段)

发车   为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用。今天我们就尝试安装下IK分词。上... 查看详情

java中文分词为啥用ik

...Lucene自带的分词器比较适合英文的分词,而IK首先是一个中文的分词器。具体的优点先不细说,单说分词的结果来看:1比如说我爱北京使用自带的分词我/爱/北/京IK分词我/爱/北京2可以自己扩展词典有很多分词器是不能够进行自... 查看详情

elasticsearch实战(二十六)-ik中文分词器

...    为什么要在elasticsearch中要使用ik这样的中文分词?因为ES提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用。一、安装       &... 查看详情

dockerfile构建elasticsearch镜像安装ik中文分词器插件(代码片段)

DockerFile构建ElasticSearch镜像安装IK中文分词器插件为什么要安装IK中文分词器?ES提供的分词是英文分词,对中文做分词时会拆成单字而不是词语,非常不好,因此索引信息含中文时需要使用中文分词器插件。一、环境及文件准备... 查看详情

30.ik中文分词器的安装和简单使用

...文,用的也是英文的standard分词器。从这一节开始,学习中文分词器。中国人基本上都是中文应用,很少是英文的,而standard分词器是没有办法对中文进行合理分词的,只是将每个中文字符一个一个的切割开来,比如说中国人-->... 查看详情

elk专栏之ik分词器和javaapi操作索引--05(代码片段)

ELK专栏之IK分词器和Javaapi操作索引--05中文分词器之IK分词器IK分词器的安装和使用IK分词器的安装IK分词器的基本知识IK分词器的使用IK配置文件IK分词器配置文件自定义词库使用MySQL热更新词库热更新步骤JavaAPI实现索引管理新增索... 查看详情

如何在elasticsearch中安装中文分词器(ik)和拼音分词器?

  声明:我使用的Elasticsearch的版本是5.4.0,安装分词器前请先安装maven一:安装mavenhttps://github.com/apache/maven说明:安装maven需要java1.7+编译安装分词器时,可能会报错,报错信息如下:[ERROR]COMPILATIONERROR:[INFO]---------------------------... 查看详情

elasticsearch之中文分词器插件es-ik

...csearch之分词器的工作流程Elasticsearch之停用词Elasticsearch之中文分词器Elasticsearch之几个重要的分词器       elasticsearch官方默认的分词插件  1、elasticsearch官方默 查看详情

elasticsearch搜索引擎安装配置中文分词器ik插件(代码片段)

...默认的分词器是标准分词器Standard,如果直接使用在处理中文内容的搜索时,中文词语被分成了一个一个的汉字,因此引入中文分词器IK就能解决这个问题,同时用户可以配置自己的扩展字典、远程扩展字典等。 二、IK安装1... 查看详情

elasticsearch实战(二十六)-ik中文分词器(代码片段)

        为什么要在elasticsearch中要使用ik这样的中文分词?因为ES提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用。一、安装        我们可以从 官... 查看详情

ik中文分词器原理(代码片段)

目录1.字符类型分类目前共有5种字符类型:staticintidentifyCharType(charinput)  if(input>='0'&&input<='9')     returnCHAR_ARABIC;//阿拉伯数字       elseif((input>='a' 查看详情

windows使用ik分词器插件(代码片段)

IK分词器插件什么是Ik分词器?分词:即把一段中文或者别的划分成一个个关键字,我们在搜索的的时候回把自己的信息进行分词,回把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词是将每个字... 查看详情