自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

幾百行代碼完成百度搜索引擎,真的可以嗎?

系統(tǒng)
阿粉最近遇到一個(gè)需求,因?yàn)閿?shù)據(jù)量沒有達(dá)到需要使用 ElasticSearch 的級別,也不想單獨(dú)部署一套集群,所以準(zhǔn)備自己基于 Lucene 實(shí)現(xiàn)一個(gè)簡易的搜索服務(wù)。下面我們一起來看一下吧。

 [[347248]]

本文轉(zhuǎn)載自微信公眾號「Java極客技術(shù)」,作者鴨血粉絲 。轉(zhuǎn)載本文請聯(lián)系Java極客技術(shù)公眾號。  

Hello 大家好,我是鴨血粉絲,大家都叫我阿粉,搜索引擎想必大家一定不會默認(rèn),我們項(xiàng)目中經(jīng)常使用的 ElasticSearch 就是一種搜索引擎,在我們的日志系統(tǒng)中必不可少,ELK 作為一個(gè)整體,基本上是運(yùn)維標(biāo)配了,另外目前的搜索引擎底層都是基于 Lucene 來實(shí)現(xiàn)的。

阿粉最近遇到一個(gè)需求,因?yàn)閿?shù)據(jù)量沒有達(dá)到需要使用 ElasticSearch 的級別,也不想單獨(dú)部署一套集群,所以準(zhǔn)備自己基于 Lucene 實(shí)現(xiàn)一個(gè)簡易的搜索服務(wù)。下面我們一起來看一下吧。

背景

**Lucene **是一套用于全文檢索和搜索的開放源碼程序庫,由 Apache 軟件基金會支持和提供。Lucene 提供了一個(gè)簡單卻強(qiáng)大的應(yīng)用程序接口,能夠做全文索引和搜索。Lucene 是現(xiàn)在最受歡迎的免費(fèi) Java 信息檢索程序庫。

上面的解釋是來自維基百科,我們只需要知道 Lucene 可以進(jìn)行全文索引和搜索就行了,這里的索引是動詞,意思是我們可以將文檔或者文章或者文件等數(shù)據(jù)進(jìn)行索引記錄下來,索引過后,我們查詢起來就會很快。

索引這個(gè)詞有的時(shí)候是動詞,表示我們要索引數(shù)據(jù),有的時(shí)候是名詞,我們需要根據(jù)上下文場景來判斷。新華字典前面的字母表或者書籍前面的目錄本質(zhì)上都是索引。

接入

引入依賴

首先我們創(chuàng)建一個(gè) SpringBoot 項(xiàng)目,然后在 pom 文件中加入如下內(nèi)容,我這里使用的 lucene 版本是 7.2.1,

  1. <properties> 
  2.     <lucene.version>7.2.1</lucene.version> 
  3. </properties> 
  4.  
  5. <!-- Lucene核心庫 --> 
  6. <dependency> 
  7.  <groupId>org.apache.lucene</groupId> 
  8.  <artifactId>lucene-core</artifactId> 
  9.  <version>${lucene.version}</version> 
  10. </dependency> 
  11. <!-- Lucene解析庫 --> 
  12. <dependency> 
  13.  <groupId>org.apache.lucene</groupId> 
  14.  <artifactId>lucene-queryparser</artifactId> 
  15.  <version>${lucene.version}</version> 
  16. </dependency> 
  17. <!-- Lucene附加的分析庫 --> 
  18. <dependency> 
  19.  <groupId>org.apache.lucene</groupId> 
  20.  <artifactId>lucene-analyzers-common</artifactId> 
  21.  <version>${lucene.version}</version> 
  22. </dependency> 

索引數(shù)據(jù)

在使用 Lucene 之前我們需要先索引一些文件,然后再通過關(guān)鍵詞查詢出來,下面我們來模擬整個(gè)過程。為了方便我們這里模擬一些數(shù)據(jù),正常的數(shù)據(jù)應(yīng)該是從數(shù)據(jù)庫或者文件中加載的,我們的思路是這樣的:

  1. 生成多條實(shí)體數(shù)據(jù);
  2. 將實(shí)體數(shù)據(jù)映射成 Lucene 的文檔形式;
  3. 索引文檔;
  4. 根據(jù)關(guān)鍵詞查詢文檔;

第一步我們先創(chuàng)建一個(gè)實(shí)體如下:

  1. import lombok.Data; 
  2.  
  3. @Data 
  4. public class ArticleModel { 
  5.     private String title; 
  6.     private String author; 
  7.     private String content; 

我們再寫一個(gè)工具類,用來索引數(shù)據(jù),代碼如下:

  1. import org.apache.commons.collections.CollectionUtils; 
  2. import org.apache.commons.lang.StringUtils; 
  3. import org.apache.lucene.analysis.Analyzer; 
  4. import org.apache.lucene.analysis.standard.StandardAnalyzer; 
  5. import org.apache.lucene.document.*; 
  6. import org.apache.lucene.index.IndexWriter; 
  7. import org.apache.lucene.index.IndexWriterConfig; 
  8. import org.apache.lucene.store.Directory; 
  9. import org.apache.lucene.store.FSDirectory; 
  10. import org.springframework.beans.factory.annotation.Value; 
  11. import org.springframework.stereotype.Component; 
  12.  
  13. import java.io.IOException; 
  14. import java.nio.file.Paths; 
  15. import java.util.ArrayList; 
  16. import java.util.List; 
  17. import java.util.Map; 
  18.  
  19. public class LuceneIndexUtil { 
  20.  
  21.     private static String INDEX_PATH = "/opt/lucene/demo"
  22.     private static IndexWriter writer; 
  23.  
  24.     public static LuceneIndexUtil getInstance() { 
  25.         return SingletonHolder.luceneUtil; 
  26.     } 
  27.  
  28.     private static class SingletonHolder { 
  29.         public final static LuceneIndexUtil luceneUtil = new LuceneIndexUtil(); 
  30.     } 
  31.  
  32.     private LuceneIndexUtil() { 
  33.         this.initLuceneUtil(); 
  34.     } 
  35.  
  36.     private void initLuceneUtil() { 
  37.         try { 
  38.             Directory dir = FSDirectory.open(Paths.get(INDEX_PATH)); 
  39.             Analyzer analyzer = new StandardAnalyzer(); 
  40.             IndexWriterConfig iwc = new IndexWriterConfig(analyzer); 
  41.             writer = new IndexWriter(dir, iwc); 
  42.         } catch (IOException e) { 
  43.             log.error("create luceneUtil error"); 
  44.             if (null != writer) { 
  45.                 try { 
  46.                     writer.close(); 
  47.                 } catch (IOException ioException) { 
  48.                     ioException.printStackTrace(); 
  49.                 } finally { 
  50.                     writer = null
  51.                 } 
  52.             } 
  53.         } 
  54.     } 
  55.  
  56.     /** 
  57.      * 索引單個(gè)文檔 
  58.      * 
  59.      * @param doc 文檔信息 
  60.      * @throws IOException IO 異常 
  61.      */ 
  62.     public void addDoc(Document doc) throws IOException { 
  63.         if (null != doc) { 
  64.             writer.addDocument(doc); 
  65.             writer.commit(); 
  66.             writer.close(); 
  67.         } 
  68.     } 
  69.  
  70.     /** 
  71.      * 索引單個(gè)實(shí)體 
  72.      * 
  73.      * @param model 單個(gè)實(shí)體 
  74.      * @throws IOException IO 異常 
  75.      */ 
  76.     public void addModelDoc(Object model) throws IOException { 
  77.         Document document = new Document(); 
  78.         List<Field> fields = luceneField(model.getClass()); 
  79.         fields.forEach(document::add); 
  80.         writer.addDocument(document); 
  81.         writer.commit(); 
  82.         writer.close(); 
  83.     } 
  84.  
  85.     /** 
  86.      * 索引實(shí)體列表 
  87.      * 
  88.      * @param objects 實(shí)例列表 
  89.      * @throws IOException IO 異常 
  90.      */ 
  91.     public void addModelDocs(List<?> objects) throws IOException { 
  92.         if (CollectionUtils.isNotEmpty(objects)) { 
  93.             List<Document> docs = new ArrayList<>(); 
  94.             objects.forEach(o -> { 
  95.                 Document document = new Document(); 
  96.                 List<Field> fields = luceneField(o); 
  97.                 fields.forEach(document::add); 
  98.                 docs.add(document); 
  99.             }); 
  100.             writer.addDocuments(docs); 
  101.         } 
  102.     } 
  103.  
  104.     /** 
  105.      * 清除所有文檔 
  106.      * 
  107.      * @throws IOException IO 異常 
  108.      */ 
  109.     public void delAllDocs() throws IOException { 
  110.         writer.deleteAll(); 
  111.     } 
  112.  
  113.     /** 
  114.      * 索引文檔列表 
  115.      * 
  116.      * @param docs 文檔列表 
  117.      * @throws IOException IO 異常 
  118.      */ 
  119.     public void addDocs(List<Document> docs) throws IOException { 
  120.         if (CollectionUtils.isNotEmpty(docs)) { 
  121.             long startTime = System.currentTimeMillis(); 
  122.             writer.addDocuments(docs); 
  123.             writer.commit(); 
  124.             log.info("共索引{}個(gè) Document,共耗時(shí){} 毫秒", docs.size(), (System.currentTimeMillis() - startTime)); 
  125.         } else { 
  126.             log.warn("索引列表為空"); 
  127.         } 
  128.     } 
  129.  
  130.     /** 
  131.      * 根據(jù)實(shí)體 class 對象獲取字段類型,進(jìn)行 lucene Field 字段映射 
  132.      * 
  133.      * @param modelObj 實(shí)體 modelObj 對象 
  134.      * @return 字段映射列表 
  135.      */ 
  136.     public List<Field> luceneField(Object modelObj) { 
  137.         Map<String, Object> classFields = ReflectionUtils.getClassFields(modelObj.getClass()); 
  138.         Map<String, Object> classFieldsValues = ReflectionUtils.getClassFieldsValues(modelObj); 
  139.  
  140.         List<Field> fields = new ArrayList<>(); 
  141.         for (String key : classFields.keySet()) { 
  142.             Field field; 
  143.             String dataType = StringUtils.substringAfterLast(classFields.get(key).toString(), "."); 
  144.             switch (dataType) { 
  145.                 case "Integer"
  146.                     field = new IntPoint(key, (Integer) classFieldsValues.get(key)); 
  147.                     break; 
  148.                 case "Long"
  149.                     field = new LongPoint(key, (Long) classFieldsValues.get(key)); 
  150.                     break; 
  151.                 case "Float"
  152.                     field = new FloatPoint(key, (Float) classFieldsValues.get(key)); 
  153.                     break; 
  154.                 case "Double"
  155.                     field = new DoublePoint(key, (Double) classFieldsValues.get(key)); 
  156.                     break; 
  157.                 case "String"
  158.                     String string = (String) classFieldsValues.get(key); 
  159.                     if (StringUtils.isNotBlank(string)) { 
  160.                         if (string.length() <= 1024) { 
  161.                             field = new StringField(key, (String) classFieldsValues.get(key), Field.Store.YES); 
  162.                         } else { 
  163.                             field = new TextField(key, (String) classFieldsValues.get(key), Field.Store.NO); 
  164.                         } 
  165.                     } else { 
  166.                         field = new StringField(key, StringUtils.EMPTY, Field.Store.NO); 
  167.                     } 
  168.                     break; 
  169.                 default
  170.                     field = new TextField(key, JsonUtils.obj2Json(classFieldsValues.get(key)), Field.Store.YES); 
  171.                     break; 
  172.             } 
  173.             fields.add(field); 
  174.         } 
  175.         return fields; 
  176.     } 
  177.     public void close() { 
  178.         if (null != writer) { 
  179.             try { 
  180.                 writer.close(); 
  181.             } catch (IOException e) { 
  182.                 log.error("close writer error"); 
  183.             } 
  184.             writer = null
  185.         } 
  186.     } 
  187.  
  188.     public void commit() throws IOException { 
  189.         if (null != writer) { 
  190.             writer.commit(); 
  191.             writer.close(); 
  192.         } 
  193.     } 

有了工具類,我們再寫一個(gè) demo 來進(jìn)行數(shù)據(jù)的索引

  1. import java.util.ArrayList; 
  2. import java.util.List; 
  3.  
  4. /** 
  5.  * <br> 
  6.  * <b>Function:</b><br> 
  7.  * <b>Author:</b>@author Silence<br> 
  8.  * <b>Date:</b>2020-10-17 21:08<br> 
  9.  * <b>Desc:</b>無<br> 
  10.  */ 
  11. public class Demo { 
  12.     public static void main(String[] args) { 
  13.         LuceneIndexUtil luceneUtil = LuceneIndexUtil.getInstance(); 
  14.         List<ArticleModel> articles = new ArrayList<>(); 
  15.         try { 
  16.             //索引數(shù)據(jù) 
  17.             ArticleModel article1 = new ArticleModel(); 
  18.             article1.setTitle("Java 極客技術(shù)"); 
  19.             article1.setAuthor("鴨血粉絲"); 
  20.             article1.setContent("這是一篇給大家介紹 Lucene 的技術(shù)文章,必定點(diǎn)贊評論轉(zhuǎn)發(fā)?。?!"); 
  21.             ArticleModel article2 = new ArticleModel(); 
  22.             article2.setTitle("極客技術(shù)"); 
  23.             article2.setAuthor("鴨血粉絲"); 
  24.             article2.setContent("此處省略兩千字..."); 
  25.             ArticleModel article3 = new ArticleModel(); 
  26.             article3.setTitle("Java 極客技術(shù)"); 
  27.             article3.setAuthor("鴨血粉絲"); 
  28.             article3.setContent("最后邀請你加入我們的知識星球,Today is big day!"); 
  29.             articles.add(article1); 
  30.             articles.add(article2); 
  31.             articles.add(article3); 
  32.             luceneUtil.addModelDocs(articles); 
  33.             luceneUtil.commit(); 
  34.              
  35.         } catch (Exception e) { 
  36.             e.printStackTrace(); 
  37.         } 
  38.     } 

上面的 content 內(nèi)容可以自行進(jìn)行替換,阿粉這邊避免湊字?jǐn)?shù)的嫌疑就不貼了。

展示

運(yùn)行結(jié)束過后,我們用過 Lucene 的可視化工具 luke 來查看下索引的數(shù)據(jù)內(nèi)容,下載過后解壓我們可以看到有.bat 和 .sh 兩個(gè)腳本,根據(jù)自己的系統(tǒng)進(jìn)行運(yùn)行就好了。阿粉這邊是 mac 用的是 sh 腳本運(yùn)行,運(yùn)行后打開設(shè)置的索引目錄即可。

進(jìn)入過后,我們可以看到下圖顯示的內(nèi)容,選擇 content 點(diǎn)擊 show top items 可以看到右側(cè)的索引數(shù)據(jù),這里根據(jù)分詞器的不同,索引的結(jié)果是不一樣的,阿粉這里采用的分詞器就是標(biāo)準(zhǔn)的分詞器,小伙伴們可以根據(jù)自己的要求選擇適合自己的分詞器即可。

搜索數(shù)據(jù)

數(shù)據(jù)已經(jīng)索引成功了,接下來我們就需要根據(jù)條件進(jìn)行數(shù)據(jù)的搜索了,我們創(chuàng)建一個(gè) LuceneSearchUtil.java 來操作數(shù)據(jù)。

  1. import org.apache.commons.collections.MapUtils; 
  2. import org.apache.lucene.analysis.Analyzer; 
  3. import org.apache.lucene.analysis.standard.StandardAnalyzer; 
  4. import org.apache.lucene.index.DirectoryReader; 
  5. import org.apache.lucene.queryparser.classic.QueryParser; 
  6. import org.apache.lucene.search.*; 
  7. import org.apache.lucene.store.Directory; 
  8. import org.apache.lucene.store.FSDirectory; 
  9. import org.springframework.beans.factory.annotation.Value; 
  10.  
  11. import java.io.IOException; 
  12. import java.nio.file.Paths; 
  13. import java.util.Map; 
  14.  
  15.  
  16. public class LuceneSearchUtil { 
  17.  
  18.     private static String INDEX_PATH = "/opt/lucene/demo"
  19.     private static IndexSearcher searcher; 
  20.  
  21.     public static LuceneSearchUtil getInstance() { 
  22.         return LuceneSearchUtil.SingletonHolder.searchUtil; 
  23.     } 
  24.  
  25.     private static class SingletonHolder { 
  26.         public final static LuceneSearchUtil searchUtil = new LuceneSearchUtil(); 
  27.     } 
  28.  
  29.     private LuceneSearchUtil() { 
  30.         this.initSearcher(); 
  31.     } 
  32.  
  33.     private void initSearcher() { 
  34.         Directory directory; 
  35.         try { 
  36.             directory = FSDirectory.open(Paths.get(INDEX_PATH)); 
  37.             DirectoryReader reader = DirectoryReader.open(directory); 
  38.             searcher = new IndexSearcher(reader); 
  39.         } catch (IOException e) { 
  40.             e.printStackTrace(); 
  41.         } 
  42.     } 
  43.  
  44.     public TopDocs searchByMap(Map<String, Object> queryMap) throws Exception { 
  45.         if (null == searcher) { 
  46.             this.initSearcher(); 
  47.         } 
  48.         if (MapUtils.isNotEmpty(queryMap)) { 
  49.             BooleanQuery.Builder builder = new BooleanQuery.Builder(); 
  50.             queryMap.forEach((key, value) -> { 
  51.                 if (value instanceof String) { 
  52.                     Query queryString = new PhraseQuery(key, (String) value); 
  53. //                    Query queryString = new TermQuery(new Term(key, (String) value)); 
  54.                     builder.add(queryString, BooleanClause.Occur.MUST); 
  55.                 } 
  56.             }); 
  57.             return searcher.search(builder.build(), 10); 
  58.         } 
  59.         return null
  60.     } 
  61.  

在 demo.java 中增加搜索代碼如下:

  1. //查詢數(shù)據(jù) 
  2.    Map<String, Object> map = new HashMap<>(); 
  3.    map.put("title""Java 極客技術(shù)"); 
  4. //   map.put("title""極客技術(shù)"); 
  5. //   map.put("content""最"); 
  6.    LuceneSearchUtil searchUtil = LuceneSearchUtil.getInstance(); 
  7.    TopDocs topDocs = searchUtil.searchByMap(map); 
  8.    System.out.println(topDocs.totalHits); 

運(yùn)行結(jié)果如下,表示搜索到了兩條。

通過可視化工具我們可以看到 title 為"Java 極客技術(shù)"確實(shí)是有兩條記錄,而且我們也確認(rèn)只插入了兩條數(shù)據(jù)。注意這里如果根據(jù)其他字符去查詢可能查詢不出來,因?yàn)榘⒎圻@里的分詞器采用的是默認(rèn)的分詞器,小伙伴可以根據(jù)自身的情況采用相應(yīng)的分詞器。

至此我們可以索引和搜索數(shù)據(jù)了,不過這還是簡單的入門操作,對于不同類型的字段,我們需要使用不同的查詢方式,而且根據(jù)系統(tǒng)的特性我們需要使用特定的分詞器,默認(rèn)的標(biāo)準(zhǔn)分詞器不一定符合我們的使用場景。而且我們索引數(shù)據(jù)的時(shí)候也需要根據(jù)字段類型進(jìn)行不同 Field 的設(shè)定。上面的案例只是 demo 并不能在生產(chǎn)上使用,搜索引擎在互聯(lián)網(wǎng)行業(yè)是領(lǐng)頭羊,很多先進(jìn)的互聯(lián)網(wǎng)技術(shù)都是從搜索引擎開始發(fā)展的。

 

責(zé)任編輯:武曉燕 來源: Java極客技術(shù)
相關(guān)推薦

2010-05-06 13:32:59

2011-05-17 18:01:52

搜索引擎優(yōu)化

2011-11-15 08:40:17

百度

2011-10-28 16:19:21

百度搜索

2022-11-18 12:06:48

App接口搜索

2009-08-07 08:29:36

百度搜索引擎

2023-01-11 12:49:49

AIChatGPT

2021-01-28 06:07:32

百度搜索搜索引擎 應(yīng)用

2020-06-04 13:41:35

大數(shù)據(jù)疫情技術(shù)

2018-10-19 10:05:14

區(qū)塊鏈百度百度搜索

2009-12-04 09:27:02

搜索引擎色情

2012-11-25 15:42:47

互聯(lián)網(wǎng)百度搜索

2018-06-13 17:43:46

熊掌號

2012-04-06 09:23:09

百度蘋果

2020-03-17 08:23:47

搜索引擎百度Google

2023-09-21 15:05:12

ChatGPT搜索引擎

2012-11-16 11:01:50

移動搜索ASO

2011-06-29 16:02:40

jQuery
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號