使用CloudSearch 五步搞定云中文檔搜索
亞馬遜CloudSearch是一個(gè)為云計(jì)算中文檔創(chuàng)建搜索索引的有用工具。這項(xiàng)服務(wù)是基于使用文檔現(xiàn)有屬性項(xiàng)的,它可允許開發(fā)人員新增新的屬性項(xiàng)以便于對(duì)搜索索引進(jìn)行微調(diào)。
這里,我選擇了一個(gè)LibreOffice Writer文檔以用于說明如何使用CloudSearch來(lái)創(chuàng)建搜索索引和修復(fù)問題。出于演示的目的,我所選的文檔較小,這樣就可確保創(chuàng)建索引成本更低。
創(chuàng)建搜索索引共需五個(gè)步驟:準(zhǔn)備文檔、啟動(dòng)亞馬遜CloudSearch、定位索引字段源、增加索引字段以及運(yùn)行測(cè)試搜索。如果測(cè)試結(jié)果是成功的,那么你就可以使用相同的索引來(lái)搜索其他的LibreOffice文檔。
步驟1:準(zhǔn)備一個(gè)樣本文檔
- 選中File標(biāo)簽,選擇Properties。
- 在General Properties標(biāo)簽中,確保選中Apply the user data多選框。
- 在Tools標(biāo)簽下的Options,在LibreOffice User Data文本框中輸入你的名字。
- 選中Use Data for document properties多選框。
- 點(diǎn)擊OK。
- 在Edit標(biāo)簽下,打開Record Changes。
- 進(jìn)行必要的編輯。
- 以LibreOffice Writer的格式(.odt)保存文檔文件,然后以微軟的Word格式(.doc 或 .docx)保存。因?yàn)镃loudSearch并不會(huì)接受LibreOffice Writer (.odt)格式的文檔文件。
步驟2:?jiǎn)?dòng)CloudSearch
- 登錄到AWS的管理控制臺(tái)。
- 選擇CloudSearch。 在相關(guān)區(qū)域選擇激活域。
- 點(diǎn)擊Upload Documents。
- 選擇 File(s) on my local disk并點(diǎn)擊 Browse 選中你需要上傳的樣本文件。
- 點(diǎn)擊Continue。
在CloudSearch分析樣本文檔之后,相關(guān)界面會(huì)顯示索引字段的一個(gè)列表:
- application_name
- author
- content
- content_type
- creation_date
- creator
- date
- language
- last_author
- last_modified
- last_printed
- resourcename
- revision_number
- total_time
上述列表中的斜體標(biāo)記表示并沒有針對(duì)域進(jìn)行配置。只有解決了這一問題,你才能繼續(xù)下一步。
點(diǎn)擊Cancel。
步驟3:定位正確配置的索引字段源
- 在Help標(biāo)簽下選擇About LibreOffice以獲得application_name 字段的源。
- 在Tools標(biāo)簽的Options中選擇Language Settings以獲得Language字段的源。英語(yǔ)(美國(guó))是默認(rèn)選項(xiàng)。
- 在File標(biāo)簽的Properties中選擇General Properties以獲得以下表格中字段的源。
在向域配置新增索引字段之前,你可以確定是刪除還是保留這些字段。
步驟4:新增索引字段
- 登錄CloudSearch,打開相關(guān)界面。
- 選擇一個(gè)激活域名。
- 選擇Indexing Options。
- 每次對(duì)下述每一個(gè)字段點(diǎn)擊Add Index Field。
注:在默認(rèn)情況下,CloudSearch將把每個(gè)字段自動(dòng)設(shè)置為可搜索。
- 點(diǎn)擊Submit。
- 點(diǎn)擊Run indexing,重新編制索引。
- 點(diǎn)擊OK開始編制索引。一般來(lái)說,編制和部署小型索引文件只需花費(fèi)數(shù)分鐘時(shí)間,而編制和部署大型索引文件則可能需要花費(fèi)數(shù)個(gè)小時(shí)之久。索引文件越小,重建搜索索引文件的成本就越低。
步驟5:提交搜索請(qǐng)求
- 選擇Dashboard。
- 從S3 buckets或你的本地文件系統(tǒng)中選擇待上傳文件,并點(diǎn)擊Upload Documents。
- 點(diǎn)擊Run a Test Search。
- 在Search框內(nèi)輸入一個(gè)單詞。例如,“vulnerability”。
- 點(diǎn)擊Go,CloudSearch就會(huì)以文檔相關(guān)度分?jǐn)?shù)降序的次序列出索引字段。
注:文檔相關(guān)度得分是根據(jù)文檔中搜索詞出現(xiàn)次數(shù)與整個(gè)域中所有文檔中搜索詞出現(xiàn)次數(shù)的比值而得到的。在本文的示例中,我們使用了一個(gè)文檔。
以下是一個(gè)文檔的結(jié)果:
該文檔相關(guān)度得分為0.5532488。搜索詞被發(fā)現(xiàn)一次。
創(chuàng)建者和作者是Judith。
***的作者是Judith。
該文檔被修改過六次。
語(yǔ)言默認(rèn)為美國(guó)英語(yǔ)(en-US)。
創(chuàng)建者和作者是Judith。
創(chuàng)建時(shí)間為2014年6月20日10:08:15。
內(nèi)容是:生物漏洞評(píng)估變更。
修改日期為12:57:38。
內(nèi)容類型為application/vnd.openxmlformats(Word docx)。
資源名稱Biometric vulnerability assessment.docx。
總之,對(duì)一個(gè)小文件運(yùn)行測(cè)試搜索可確保處理成本較低。如果測(cè)試結(jié)果是成功的,那么你就可以使用相同的索引來(lái)對(duì)大量的文檔進(jìn)行搜索。
原文鏈接:http://www.searchcloudcomputing.com.cn/showcontent_88060.htm