自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

使用開源搜索引擎YaCy的技巧

開源
YaCy 最令人興奮的一點就是它事實上是一個本地客戶端,全球范圍內(nèi)的每一個 YaCy 用戶都是構(gòu)成整個這個分布式搜索引擎架構(gòu)的一個節(jié)點,這意味著每個用戶都可以掌控自己的互聯(lián)網(wǎng)搜索體驗。

[[315864]]

無需適應(yīng)其他人的眼光,而是使用 YaCY 搜索引擎定義你想要的互聯(lián)網(wǎng)。

在我以前介紹 YaCy 入門的文章中講述過 YaCy 這個對等peer-to-peer式的搜索引擎是如何安裝和使用的。YaCy 最令人興奮的一點就是它事實上是一個本地客戶端,全球范圍內(nèi)的每一個 YaCy 用戶都是構(gòu)成整個這個分布式搜索引擎架構(gòu)的一個節(jié)點,這意味著每個用戶都可以掌控自己的互聯(lián)網(wǎng)搜索體驗。

Google 曾經(jīng)提供過 google.com/linux 這樣的主題簡便方式以便快速篩選出和 Linux 相關(guān)的搜索內(nèi)容,這個小功能受到了很多人的青睞,但 Google 最終還是在 2011 年的時候把它下線了。

而 YaCy 則讓自定義搜索引擎變得可能。

自定義 YaCy

YaCy 安裝好之后,只需要訪問 localhost:8090 就可以使用了。要自定義搜索引擎,只需要點擊右上角的“管理Administration”按鈕(它可能隱藏在小屏幕的菜單圖標(biāo)中)。

你可以在管理面板中配置 YaCy 對系統(tǒng)資源的使用策略,以及如何跟其它的 YaCy 客戶端進(jìn)行交互。

YaCy profile selector

例如,點擊側(cè)欄中的“第一步First steps”按鈕可以配置備用端口,以及設(shè)置 YaCy 對內(nèi)存和硬盤的使用量;而“監(jiān)控Monitoring”面板則可以監(jiān)控 YaCy 的運行狀況。大多數(shù)功能都只需要在面板上點擊幾下就可以完成了,例如以下幾個常用的功能。

內(nèi)網(wǎng)搜索應(yīng)用

目前市面上也有不少公司推出了內(nèi)網(wǎng)搜索應(yīng)用,而 YaCy 可以免費為你提供一個。對于能夠通過 HTTP、FTP、Samba 等協(xié)議訪問的文件,YaCy 都可以進(jìn)行索引,因此無論是作為私人的文件搜索還是企業(yè)內(nèi)部的本地共享文件搜索,YaCy 都可以實現(xiàn)。它可以讓內(nèi)部網(wǎng)絡(luò)中的用戶使用你個人的 YaCy 實例來查找共享文件,于此同時保持對內(nèi)部網(wǎng)絡(luò)以外的用戶不可見。

網(wǎng)絡(luò)配置

YaCy 在默認(rèn)情況下就支持隱私和隔離。點擊“用例與賬號Use Case & Account”頁面頂部的“網(wǎng)絡(luò)配置Network Configuration”鏈接,即可進(jìn)入網(wǎng)絡(luò)配置面板設(shè)置對等網(wǎng)絡(luò)。

YaCy network configuration

爬取站點

YaCy 的分布式運作方式?jīng)Q定了它對頁面的爬取是由用戶驅(qū)動的。并沒有一個大型公司對整個互聯(lián)網(wǎng)上的所有可訪問頁面都進(jìn)行搜索,對于 YaCy 來說也是這樣,一個站點只有在被用戶指定爬取的前提下,才會被 YaCy 爬取并進(jìn)入索引。

YaCy 客戶端提供了兩種爬取頁面的方式:你可以手動爬取,并讓 YaCy 根據(jù)建議去爬取。

YaCy advanced crawler

手動爬取

手動爬取是指由用戶輸入指定的網(wǎng)站 URL 并啟動 YaCy 的爬蟲任務(wù)。只需要點擊“高級爬蟲Advanced Crawler”并輸入計劃爬取的若干 URL,然后選擇頁面底部的“進(jìn)行遠(yuǎn)程索引Do Remote indexing”選項,這個選項會讓客戶端向互聯(lián)網(wǎng)廣播它要索引的 URL,可選地接受這些請求的客戶端可以幫助你爬取這些 URL。

點擊頁面底部的“開始新爬蟲任務(wù)Start New Crawl Job”按鈕就可以開始進(jìn)行爬取了,我就是這樣對一些常用和有用站點進(jìn)行爬取和索引的。

爬蟲任務(wù)啟動之后,YaCy 會將這些 URL 對應(yīng)的頁面在本地生成和存儲索引。在高級模式下,也就是本地計算機(jī)允許 8090 端口流量進(jìn)出時,全網(wǎng)的 YaCy 用戶都可以使用到這一份索引。

加入爬蟲網(wǎng)絡(luò)

盡管一些非常敬業(yè)的 YaCy 高級用戶已經(jīng)強(qiáng)迫癥般地在互聯(lián)網(wǎng)上爬取了很多頁面,但對于全網(wǎng)浩如煙海的頁面而言也只是滄海一粟。單個用戶所擁有的資源遠(yuǎn)不及很多大公司的網(wǎng)絡(luò)爬蟲,但大量 YaCy 用戶如果聯(lián)合起來成為一個社區(qū),能產(chǎn)生的力量就大得多了。只要開啟了 YaCy 的爬蟲請求廣播功能,就可以讓其它客戶端參與進(jìn)來爬取更多頁面。

只需要在“高級爬蟲Advanced Crawler”面板中點擊頁面頂部的“遠(yuǎn)程爬取Remote Crawling”,勾選“加載Load”旁邊的復(fù)選框,就可以讓你的客戶端接受其它人發(fā)來的爬蟲任務(wù)請求了。

YaCy remote crawling

YaCy 監(jiān)控相關(guān)

YaCy 除了作為一個非常強(qiáng)大的搜索引擎,還提供了很豐富的主題和用戶體驗。你可以在“監(jiān)控Monitor”面板中監(jiān)控 YaCy 客戶端的網(wǎng)絡(luò)運行狀況,甚至還可以了解到有多少人從 YaCy 社區(qū)中獲取到了自己所需要的東西。

YaCy monitoring screen

搜索引擎發(fā)揮了作用

你使用 YaCy 的時間越長,就越會思考搜索引擎如何改變自己的視野,因為你對互聯(lián)網(wǎng)的體驗很大一部分來自于你在搜索引擎中一次次簡單查詢的結(jié)果。實際上,當(dāng)你和不同行業(yè)的人交流時,可能會注意到每個人對“互聯(lián)網(wǎng)”的理解都有所不同。有些人會認(rèn)為,互聯(lián)網(wǎng)的搜索引擎中充斥著各種廣告和推廣,同時也僅僅能從搜索結(jié)果中獲取到有限的信息。例如,假設(shè)有人不斷搜索關(guān)于關(guān)鍵詞 X 的內(nèi)容,那么大部分商業(yè)搜索引擎都會在搜索結(jié)果中提高關(guān)鍵詞 X 的權(quán)重,但與此同時,另一個關(guān)鍵詞 Y 的權(quán)重則會相對降低,從而讓關(guān)鍵詞 Y 被淹沒在搜索結(jié)果當(dāng)中,即使這樣對完成特定任務(wù)更好。

就像在現(xiàn)實生活中一樣,走出虛擬的世界視野會讓你看到一個更廣闊的世界。嘗試使用 YaCy,看看你發(fā)現(xiàn)了什么。

 

責(zé)任編輯:龐桂玉 來源: Linux中國
相關(guān)推薦

2011-06-20 18:23:06

SEO

2023-01-03 15:42:29

機(jī)器學(xué)習(xí)視頻搜索

2011-06-22 19:01:54

關(guān)鍵詞

2009-02-19 09:41:36

搜索引擎搜狐百度

2009-09-22 16:23:52

搜索引擎

2022-10-11 09:27:45

搜索引擎es索引

2017-08-07 08:15:31

搜索引擎倒排

2020-03-20 10:14:49

搜索引擎倒排索引

2010-06-13 16:27:28

搜索引擎

2020-02-19 13:38:42

開源索引互聯(lián)網(wǎng)

2016-12-26 13:41:19

大數(shù)據(jù)搜索引擎工作原理

2022-10-08 09:13:18

搜索引擎?站

2012-09-07 13:22:21

搜索搜狗

2010-04-20 11:43:46

2017-08-21 11:14:36

2015-08-31 10:41:58

搜索引擎Google云應(yīng)用

2012-05-14 11:01:50

搜索引擎微軟

2011-06-15 19:09:24

搜索引擎

2011-06-22 17:28:51

SEO

2020-08-10 14:39:30

搜索引擎
點贊
收藏

51CTO技術(shù)棧公眾號