Elasticsearch 默認(rèn)配置 IK 及 Java AnalyzeRequestBuilder 使用
本文提綱
一、什么是 Elasticsearch-analysis-ik
二、默認(rèn)配置 IK
三、使用 AnalyzeRequestBuilder 獲取分詞結(jié)果
四、小結(jié)
前言
在 《Elasticsearch 和插件 elasticsearch-head 安裝詳解》 文章中,我使用的是 Elasticsearch 5.3.x。這里我改成了 ElasticSearch 2.3.2。是因?yàn)榘姹緦?duì)應(yīng)關(guān)系 https://github.com/spring-projects/spring-data-elasticsearch/wiki/Spring-Data-Elasticsearch---Spring-Boot---version-matrix:
- Spring Boot Version (x) Spring Data Elasticsearch Version (y) Elasticsearch Version (z)
- x <= 1.3.5 y <= 1.3.4 z <= 1.7.2*
- x >= 1.4.x 2.0.0 <=y < 5.0.0** 2.0.0 <= z < 5.0.0**
* - 只需要你修改下對(duì)應(yīng)的 pom 文件版本號(hào)
** - 下一個(gè) ES 的版本會(huì)有重大的更新
這里可以看出,5.3.x 不在第二行范圍內(nèi)。因此這里我講下,如何在 ElasticSearch 2.3.2 中默認(rèn)配置 IK。
一、什么是 Elasticsearch-analysis-ik
了解什么是 Elasticsearch-analysis-ik,首先了解什么是 IK Analyzer。 IK Analyzer 是基于 lucene 實(shí)現(xiàn)的分詞開源框架。官方地址:https://code.google.com/p/ik-analyzer/ 。
Elasticsearch-analysis-ik 則是將 IK Analyzer 集成 Elasticsearch 的插件,并支持自定義詞典。GitHub 地址:https://github.com/medcl/elasticsearch-analysis-ik。特性支持:
分析器 Analyzer: ik_smart 或 ik_max_word
分詞器 Tokenizer: ik_smart 或 ik_max_word
二、默認(rèn)配置 IK
在 Elasticsearch-analysis-ik 官網(wǎng)中可以看到,其中版本需要對(duì)應(yīng):
- IK版 ES版本
- 主 5.x -> master
- 5.3.2 5.3.2
- 5.2.2 5.2.2
- 5.1.2 5.1.2
- 1.10.1 2.4.1
- 1.9.5 2.3.5
- 1.8.1 2.2.1
- 1.7.0 2.1.1
- 1.5.0 2.0.0
- 1.2.6 1.0.0
- 1.2.5 0.90.x
- 1.1.3 0.20.x
- 1.0.0 0.16.2 -> 0.19.0
這里使用的是 Elasticsearch-analysis-ik 1.9.2,支持 ElasticSearch 2.3.2。下載地址:https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v1.9.2/elasticsearch-analysis-ik-1.9.2.zip,下載成功后進(jìn)行安裝。
解壓 zip 文件,復(fù)制里面的內(nèi)容到 elasticsearch-2.3.2/plugins/ik。
- cd elasticsearch-2.3.2/plugins
- mkdir ik
- cp ...
在 elasticsearch-2.3.2/config/elasticsearch.yml 增加配置:
- index.analysis.analyzer.default.tokenizer : "ik_max_word"
- index.analysis.analyzer.default.type: "ik"
配置默認(rèn)分詞器為 ik,并指定分詞器為 ik_max_word。
然后重啟 ES 即可。驗(yàn)證 IK 是否成功安裝,訪問下
localhost:9200/_analyze?analyzer=ik&pretty=true&text=泥瓦匠的博客是bysocket.com
可以得到下面的結(jié)果集:
- {
- "tokens": [
- {
- "token": "泥瓦匠",
- "start_offset": 0,
- "end_offset": 3,
- "type": "CN_WORD",
- "position": 0
- },
- {
- "token": "泥",
- "start_offset": 0,
- "end_offset": 1,
- "type": "CN_WORD",
- "position": 1
- },
- {
- "token": "瓦匠",
- "start_offset": 1,
- "end_offset": 3,
- "type": "CN_WORD",
- "position": 2
- },
- {
- "token": "匠",
- "start_offset": 2,
- "end_offset": 3,
- "type": "CN_WORD",
- "position": 3
- },
- {
- "token": "博客",
- "start_offset": 4,
- "end_offset": 6,
- "type": "CN_WORD",
- "position": 4
- },
- {
- "token": "bysocket.com",
- "start_offset": 8,
- "end_offset": 20,
- "type": "LETTER",
- "position": 5
- },
- {
- "token": "bysocket",
- "start_offset": 8,
- "end_offset": 16,
- "type": "ENGLISH",
- "position": 6
- },
- {
- "token": "com",
- "start_offset": 17,
- "end_offset": 20,
- "type": "ENGLISH",
- "position": 7
- }
- ]
- }
記得在Docker 容器安裝時(shí),需要對(duì)應(yīng)的端口開發(fā)。
三、使用 AnalyzeRequestBuilder 獲取分詞結(jié)果
ES 中默認(rèn)配置 IK 后,通過 Rest HTTP 的方式我們可以進(jìn)行得到分詞結(jié)果。那么在 Spring Boot 和提供的客戶端依賴 spring-data-elasticsearch 中如何獲取到分詞結(jié)果。
加入依賴 pom.xml
- <!-- Spring Boot Elasticsearch 依賴 -->
- <dependency>
- <groupId>org.springframework.boot</groupId>
- <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
- </dependency>
在 application.properties 配置 ES 的地址:
- # ES
- spring.data.elasticsearch.repositories.enabled = true
- spring.data.elasticsearch.cluster-nodes = 127.0.0.1:9300
然后創(chuàng)建一個(gè)方法,入?yún)⑹撬阉髟~,返回的是分詞結(jié)果列表。
- @Autowired
- private ElasticsearchTemplate elasticsearchTemplate;
- /**
- * 調(diào)用 ES 獲取 IK 分詞后結(jié)果
- *
- * @param searchContent
- * @return
- */
- private List<String> getIkAnalyzeSearchTerms(String searchContent) {
- // 調(diào)用 IK 分詞分詞
- AnalyzeRequestBuilder ikRequest = new AnalyzeRequestBuilder(elasticsearchTemplate.getClient(),
- AnalyzeAction.INSTANCE,"indexName",searchContent);
- ikRequest.setTokenizer("ik");
- List<AnalyzeResponse.AnalyzeToken> ikTokenList = ikRequest.execute().actionGet().getTokens();
- // 循環(huán)賦值
- List<String> searchTermList = new ArrayList<>();
- ikTokenList.forEach(ikToken -> { searchTermList.add(ikToken.getTerm()); });
- return searchTermList;
- }
indexName 這里是指在 ES 設(shè)置的索引名稱。
從容器注入的 ElasticsearchTemplate Bean 中獲取 Client ,再通過 AnalyzeRequestBuilder 分析請(qǐng)求類型中進(jìn)行分詞并獲取分詞結(jié)果 AnalyzeResponse.AnalyzeToken 列表。
四、小結(jié)
默認(rèn)配置了 IK 分詞器,則 DSL 去 ES 查詢時(shí)會(huì)自動(dòng)調(diào)用 IK 分詞。
如果想要自定義詞庫,比如比較偏的領(lǐng)域性。
【本文為51CTO專欄作者“李強(qiáng)強(qiáng)”的原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)通過51CTO聯(lián)系作者獲取授權(quán)】