[lucene系列笔记1]lucene6的安装与配置(windows系统)

lvmememe lvmememe     2022-08-14     733

关键词:

lucene是一个java开源的高效全文检索工具包,最近做项目要用到,把学习的过程记录一下。

 

第一步:下载安装jdk

1.首先从官网下载jdk(下载之前先查看你的电脑是多少位操作系统,如果是32就下载32的,如果是64位就下载64位的,否则不能兼容)。下载之后解压到当前文件夹,双击安装JDK的可执行文件,按步骤和提示,一直点“下一步”完成安装,这里假设安装到目标文件C:Program FilesJavajdk1.8.0_25;

2.JDK安装完成后,需手动配置环境变量,右键“我的电脑”,在菜单中选择“属性”—“高级系统设置”--“高级”,再单击“环境变量”按钮,弹出如下所示的窗口。 

3.选择“新建”按钮,新建java_home的变量值为:  C:ProgramFilesJavajdk1.8.0_25,“确定”保存该变量; 

4.在系统变量中列表中找到"Path"变量,选择“编辑”按钮,在弹出的窗口中的变量值后面添加,“C:Program FilesJavajdk1.8.0_25in;”,一定要注意分号";"不可缺少;

5.按照以上步骤完成后,JDK基本以成功安装到系统,开发环境已经可用了,

开始菜单 - 运行,输入"javac"命令,如果能弹出信息窗口,则说明安装成功。

 

第二步:下载配置lucene(这里假设下载的是6.2.1)

  注意:lucene4.0以前的版本CLASSPATH的变量值有所不同,请参考其他教程

1.下载Lucene-6.2.1。在C盘中解压到当前文件夹。

2.将lucene-6.2.1中的Lucene-core-6.2.1.jar和lucene-demo-6.2.1.jar这两个文件复制到JDK目录的lib目录下:C:Program FilesJavajdk1.8.0_25lib。

3.设置CLASSPATH

在“用户变量”和“系统变量”中都要设置CLASSPATH的变量值为:

.;%JAVA_HOME%liblucene-demo-6.2.1.jar;%JAVA_HOME%liblucene-core-6.2.1.jar;C:lucene-6.2.1corelucene-core-6.2.1.jar;C:lucene-6.2.1queryparserlucene-queryparser-6.2.1.jar;C:lucene-6.2.1analysiscommonlucene-analyzers-common-6.2.1.jar;C:lucene-6.2.1demolucene-demo-6.2.1.jar;

 

第三步:运行Demo

1.在lucene-6.2.1文件夹下建立一个cc.txt文本文档,在其中输入nihao,并保存。

2.建立索引,运行cmd进入控制台,输入:java org.apache.lucene.demo.IndexFiles -docs C:lucene-6.2.1

如果一切正确的话,就能看到一堆的控制台输出了,建立的索引会放在一个index文件夹下,index文件夹在你cmd当前所在目录C:UsersAdministrator。(当然也可以cd到其他目录里建索引)

3.查询索引 :java org.apache.lucene.demo.SearchFiles

4.输入“nihao”应该会把刚才的cc.txt搜索出来。

 

至此,Lucene的安装配置完成了。下一篇会记录怎么在eclipse里面使用。

lucene6+hanlp中文分词

...这让我想起一直以来都想折腾的全文搜索技术,于是就用lucene6.2.1加上HanLP的分词插件做了这么一个模块CSearch。效果看这里:https://chulung.com/search源码:CSearch2.关于分词索引的一个核心功能便是分词,lucene自带的分词是基于英语的,... 查看详情

lucene6.0经常使用类与方法

1.文件夹org.apache.lucene.store.Directory指定索引所在文件夹。org.apache.lucene.store.RAMDirectory 存放于内存中的文件夹。org.apache.lucene.store.RAMDirectory.RAMDirectory(FSDirectorydir,IOContextcontext)构造函数。把文件索引加载内存中。o 查看详情

lucene6.0提取新闻热词top-n

一、需求给出一篇新闻文档,统计出现频率最高的有哪些词语。二、思路关于文本关键词提取的算法有很多,开源工具也不止一种。这里只介绍如何从Lucene索引中提取词项频率的TopN。索引过程的本质是一个词条化的生存倒排索... 查看详情

lucene6去掉了filter但是可以用booleanquery实现filter查询

Lucene在6.0版本之后彻底废除了Filter的使用,采用BooleanQuery来实现Filter的功能,核心代码如下:TermQuerytermQuery=newTermQuery(newTerm("content","长"));TermQuerytermQuery1=newTermQuery(newTerm("content","格"));BooleanQuery.Builderbuil 查看详情

lucene(01)

...博文地址:http://www.cnblogs.com/tenglongwentian/Lucene,最新版是Lucene6.2.1,匹配的jdk版本是1.8正式版。这里用jdk7最后一版,所以用Lucene5.3.3。新建一个maven项目,如果不会可以参考前面的博文,前面的博文有专门提到如何新建maven项目。... 查看详情

lucene源码分析的一些资料

针对lucene6.1较新的分析:http://46aae4d1e2371e4aa769798941cef698.devproxy.yunshipei.com/conansonic/article/details/51849659老的:AnnotatedLucene(源码剖析中文版)Lucene原理与代码分析完整版   查看详情

Lucene 6.6.0 中的索引时间字段级别提升?

】Lucene6.6.0中的索引时间字段级别提升?【英文标题】:IndextimefieldlevelboostinginLucene6.6.0?【发布时间】:2018-01-3100:02:24【问题描述】:在Lucene6.6.0及更高版本中,字段级索引时间提升为deprecated。文档指出:不推荐使用索引时间提... 查看详情

python安装与配环境变量安装pytcharm

...0c;x86表示是32位机子的,x86-64表示64位机子的。一般的笔记本电脑都是64位的。下载完成后打卡.exe文件选择:(python3.7位AddPython3.7toPATH然后,把这些都选上:然后选择:点install,然 查看详情

Lucene 查询结果对于 long 和 double 值不正确

...values【发布时间】:2017-11-0312:38:51【问题描述】:我使用Lucene6.1.0来索引具有名称和值的元素。例如<documents><Document><fieldname="NAME"value="Long_-1"/>& 查看详情

搜索引擎系列二:lucene(lucene介绍lucene架构lucene集成)(代码片段)

一、Lucene介绍1.Lucene简介  最受欢迎的java开源全文搜索引擎开发工具包。提供了完整的查询引擎和索引引擎,部分文本分词引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便... 查看详情

lucene系列:分词器

1、什么是分词器  采用一种算法,将中英文本中的字符拆分开来,形成词汇,以待用户输入关健字后搜索2、为什么要分词器   因为用户输入的搜索的内容是一段文本中的一个关健字,和原始表中的内容有差别... 查看详情

lucene学习笔记

版本:lucene5.5 全文搜索基本由三部分组成: -索引部分 -分词部分 -搜索部分创建索引基本步骤: 1.创建DirectoryDirectorydirectory=newRAMDirectory();//创建在内存的索引Directorydirectory=FSDirectory.open(Paths.get("路径"));//创建... 查看详情

lucene学习笔记

师兄推荐我学习Lucene这门技术,用了两天时间,大概整理了一下相关知识点。一、什么是LuceneLucene即全文检索。全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置... 查看详情

lucene系列:(11)异步分页

使用到的jar包,分为4部分:(1)beanutilscommons-beanutils-1.9.2.jarcommons-collections-3.2.1.jarcommons-logging-1.1.1.jar(2)gsongson-2.6.2.jar(3)IKAnalyzerIKAnalyzer3.2.0Stable.jar(4)lucenelucene-analyzers-3.0.2.j 查看详情

lucene系列:搜索结果排序

1、什么是搜索结果排序  搜索结果是按某个或某些字段高低排序来显示的结果2、影响网站排名的多种因素   head/meta/   网页的标签整洁   网页执行速度   采用div+css   ... 查看详情

原创笔记cicd系列之三:goharbor安装

CICD系列之三:goharbor安装准备主机:10.0.0.14将Harbor安装在linux上。在安装Harbor之前,必须确保机器上已经安装了docker17.06.0-ce+和docker-compose1.18.0+。1.升级docker(按需)wgethttps://download.docker.com/l...yum-yinstalldocker-ce-17.06.2.ce-1.e 查看详情

lucene系列:luceneutils之索引库优化

1、什么是索引库   索引库是Lucene的重要的存储结构,它包括二部份:原始记录表,词汇表   原始记录表:存放的是原始记录信息,Lucene为存入的内容分配一个唯一的编号   词汇表:存放的是经... 查看详情

lucene系列:(10)多条件搜索queryparser

1、什么是条件搜索  用关健字与指定的单列或多例进行匹配的搜索2、单字段条件搜索QueryParser queryParser = new QueryParser(LuceneUtils.getVersion(),"content",LuceneUtils.getAnalyzer());3、多字段条件搜索,项目中提倡多字段... 查看详情