數(shù)據(jù)云URL過濾技術(shù)
面臨以上種種問題,該如何解決?全部關(guān)閉網(wǎng)絡(luò)的大門不符合現(xiàn)代人類文明的發(fā)展與進(jìn)步,也不利于合理商業(yè)業(yè)務(wù)的開展。單純依靠使用者自我約束的網(wǎng)絡(luò)使用制度也已經(jīng)無法執(zhí)行。于是,誕生了專門針對URL進(jìn)行過濾的技術(shù),以此達(dá)到對員工上網(wǎng)瀏覽內(nèi)容的控制與管理。
下面我們將對URL過濾技術(shù)的進(jìn)化做一個簡單的介紹。
20世紀(jì)90年代中期,URL過濾解決方案依靠企業(yè)內(nèi)部IT人員人工建立、更新與編輯站點(diǎn)黑白名單。這一做法的缺點(diǎn)是,所有分類由一個或少數(shù)幾個人自由決定,對于這種資源密集型而且缺乏客觀性的站點(diǎn)分類方法,不僅會使許多被認(rèn)可的網(wǎng)站被封鎖或被禁止的網(wǎng)站允許通過,而且隨著web站點(diǎn)的快速增長與相關(guān)技術(shù)的日益復(fù)雜,這種方案很難實(shí)現(xiàn)客觀、細(xì)粒度的URL分類,顯然不能成為企業(yè)或單位有效的URL過濾方案。
20世紀(jì)90年代末,出現(xiàn)了專門對URL進(jìn)行收集、分類的廠商。URL過濾技術(shù)開始采用本地?cái)?shù)據(jù)庫分類引擎。URL及其內(nèi)容在根據(jù)預(yù)先定義的類別下通過分類引擎進(jìn)行相應(yīng)的關(guān)鍵字查找分析與分類(如賭博、色情及網(wǎng)上購物等),分類好的URL存儲在一個集中的主數(shù)據(jù)庫中,然后通過更新復(fù)制一份副本移交到客戶本地?cái)?shù)據(jù)庫中。這種URL過濾方案的缺點(diǎn)是,隨著網(wǎng)頁數(shù)量的激增,由于一刀切的關(guān)鍵字分類技術(shù)和本地分類數(shù)據(jù)庫的限制,無法實(shí)現(xiàn)更高、更準(zhǔn)確的覆蓋率和更廣泛的URL分類。
2000年初,URL過濾解決方案試圖采用啟發(fā)式內(nèi)容分析的方法,這種動態(tài)的分類技術(shù),通過智能分析網(wǎng)站標(biāo)題和網(wǎng)頁html主體中相關(guān)內(nèi)容的概率來確定URL類別。從理論上講,相比前兩類URL分類方案,這是一種很好的分類方法,然而在實(shí)際中它本身卻存在問題,很多基于啟發(fā)式的Web內(nèi)容分析結(jié)果沒有相關(guān)的配套技術(shù)實(shí)時地發(fā)送給終端用戶,而且采用的仍然是傳統(tǒng)的本地?cái)?shù)據(jù)庫進(jìn)行存儲。但是當(dāng)今web2.0時代,web數(shù)據(jù)是一個不定數(shù)據(jù)且日益多樣化的集合體,而每個用戶的需求卻獨(dú)特且具體,基于本地URL數(shù)據(jù)庫的過濾技術(shù),只能過濾存儲本地用戶需要的數(shù)據(jù),不能存儲所有相關(guān)及最新數(shù)據(jù),以執(zhí)行快速和準(zhǔn)確的監(jiān)測,因此這種傳統(tǒng)的URL過濾技術(shù)也無法應(yīng)對高度復(fù)雜且快速發(fā)展壯大的web2.0網(wǎng)絡(luò)。
據(jù)Google調(diào)查,互聯(lián)網(wǎng)上的網(wǎng)頁數(shù)量以每天一億的數(shù)量急速增長。以上三種URL 分類方法已經(jīng)不能夠準(zhǔn)確有效的收集、分類所有的URL類別。數(shù)據(jù)存儲和處理要求也已經(jīng)遠(yuǎn)遠(yuǎn)超出了本地?cái)?shù)據(jù)庫能力。于是在2009年,業(yè)界出現(xiàn)了數(shù)據(jù)云的URL過濾技術(shù),這類廠商有Commtouch、Anchiva等。這種數(shù)據(jù)云URL過濾機(jī)制,基于云技術(shù)的URL收集、分類處理及發(fā)放策略,并不依賴于本地?cái)?shù)據(jù)庫有限的資源進(jìn)行分析與檢測,也不依賴于數(shù)據(jù)庫更新最新的URL分類,利用的是專門的分類服務(wù)器群,根據(jù)實(shí)際網(wǎng)絡(luò)的使用與普及方式對網(wǎng)頁內(nèi)容及語義進(jìn)行全面分析后的分類。與傳統(tǒng)的云不同的是,真正做到了云的客戶端自動主動地去云的服務(wù)器端獲取所需的數(shù)據(jù),而不是單純的基于云服務(wù)端的定時推送更新方法。下面我們將借助Anchiva的數(shù)據(jù)云URL過濾機(jī)制對數(shù)據(jù)云URL過濾技術(shù)進(jìn)行簡單的介紹。
Anchiva(安啟華)數(shù)據(jù)云的URL分析過濾技術(shù)由兩部分組成:部署在企業(yè)網(wǎng)絡(luò)邊界處的Anchiva web安全網(wǎng)關(guān)(SWG)和Anchiva基于云的URL分類中心。網(wǎng)關(guān)設(shè)備和URL分類中心實(shí)時通信獲取最新的URL分類。不僅打破了傳統(tǒng)本地?cái)?shù)據(jù)庫的限制,而且與其他基于云的技術(shù)不同的是Anchiva web安全網(wǎng)關(guān)中具有URL緩存技術(shù),這個本地的緩存為每一個獨(dú)立的用戶存儲最為相關(guān)的URL,這些設(shè)備本地的URL類別,有效地確保了URL匹配的最佳性能,并且采用的是一種本地緩存自動學(xué)習(xí)的機(jī)制,隨著企業(yè)用戶使用時間的增長,這個本地緩存的URL庫會更加的貼近每一個用戶的實(shí)際需求,將能給客戶更加精準(zhǔn)的URL過濾。
以下是Anchiva web安全網(wǎng)關(guān)URL過濾對HTTP-GET 請求的處理過程:
1、Anchiva web安全網(wǎng)關(guān)的URL匹配處理引擎接受來自本地用戶的HTTP-GET請求。
2、URL匹配處理引擎首先從設(shè)備上的本地緩存中查找相關(guān)的URL分類。
3、如果URL匹配處理引擎從本地緩存中查找到了正確的URL分類,那么將該HTTP-GET請求根據(jù)客戶設(shè)定好的相關(guān)過濾策略進(jìn)行允許或阻止的操作。
4、如果沒有在本地緩存中找到正確的URL分類,URL匹配處理引擎會自動將該HTTP-GET請求發(fā)送到Anchiva數(shù)據(jù)云URL分類中心。
5、Anchiva數(shù)據(jù)云URL分類中心將自動查詢并返回正確的分類給設(shè)備的URL匹配處理引擎。
6、URL匹配處理引擎根據(jù)URL分類中心返回的分類對該HTTP-GET請求按照客戶設(shè)定好的相關(guān)過濾策略進(jìn)行允許或阻止的操作,并在設(shè)備本地緩存的URL類別中添加相應(yīng)的URL分類。
Anchiva數(shù)據(jù)云URL過濾處理過程圖:

另外,需要大家認(rèn)清的一點(diǎn)是,任何的URL分類技術(shù)在web2.0時代都不可能做到100%的分類,如果用戶發(fā)出未經(jīng)分類的瀏覽請求,則會自動反饋到云端的分類引擎進(jìn)行分類,在24小時內(nèi)將對未經(jīng)分類URL完成分類。如此一來,數(shù)據(jù)云系統(tǒng)用戶形成一個實(shí)質(zhì)用戶社區(qū),已被社區(qū)用戶瀏覽過的流行站點(diǎn)將被分類并存儲,方便下一位用戶訪問。這種用戶互動保證了數(shù)據(jù)云系統(tǒng)保持不斷的更新與擴(kuò)展,無疑是當(dāng)今web2.0時代最有效實(shí)用且積極主動的一種收集分類處理技術(shù)。
說了這么多,下面我們對幾種URL過濾技術(shù)做以下對比總結(jié):
|
90年代中期
自分類黑/白名單 |
90年代末
本地黑/白名單 |
2000年初
啟發(fā)式檢測分類 |
2009年基于云的URL過濾技術(shù) |
分類技術(shù) |
企業(yè)IT人員人工分類 |
關(guān)鍵字查詢分類引擎 |
啟發(fā)式的關(guān)鍵字概率分類技術(shù) |
完整的web內(nèi)容及語義分析技術(shù) |
存儲方法 |
黑白名單文檔 |
本地?cái)?shù)據(jù)庫 |
本地?cái)?shù)據(jù)庫/云端服務(wù)器群 |
云端服務(wù)器群/本地緩存 |
更新方法 |
人工編輯更新黑白名單 |
復(fù)制數(shù)據(jù)庫副本更新方法 |
服務(wù)器定時推送更新 |
客戶端隨時獲取URL分類更新 |
準(zhǔn)確性 |
差 |
一般 |
較好 |
極好 |
覆蓋范圍 |
差 |
一般 |
較好 |
極好 |
總結(jié) |
缺乏客觀性的分類方法,資源集中,不準(zhǔn)確。 |
誤報(bào)、漏報(bào)率高,互聯(lián)網(wǎng)的增長速度遠(yuǎn)遠(yuǎn)超過了本地?cái)?shù)據(jù)庫存儲能力。 |
服務(wù)器不能實(shí)時推送準(zhǔn)確的分類,沒有客戶端隨時獲取技術(shù),客戶端使用本地?cái)?shù)據(jù)庫存儲,容量有限。 |
無處理性能和本地?cái)?shù)據(jù)庫存儲限制,先進(jìn)的本地緩存自動學(xué)習(xí)機(jī)制,能夠滿足每個客戶獨(dú)特且具體的需求。 |