上網(wǎng)行為管理產(chǎn)品選購(gòu)的核心技術(shù)
【51CTO.com綜合報(bào)道】根據(jù)核心技術(shù)選型會(huì)使自己不迷失在各種花邊功能中,因?yàn)楹诵谋旧頂?shù)量就不多,但同時(shí)又很能說(shuō)明實(shí)力。
上網(wǎng)行為管理產(chǎn)品的確是有互聯(lián)網(wǎng)管理的好幫手,但是個(gè)人感覺(jué)選型過(guò)程對(duì)IT部門來(lái)說(shuō)都會(huì)是一個(gè)比較頭痛的事情,因?yàn)檫@類設(shè)備干的是應(yīng)用層的活,沒(méi)有RFC或者IETF可以參考,所以功能琳瑯滿目。
從功能提供上判斷只是第一步的工作,因?yàn)楦鱾€(gè)廠商所提供的未必真能做得到;小流量測(cè)試做到的,大流量的生產(chǎn)環(huán)境下未必還能有效。此時(shí)就需要能夠透過(guò)現(xiàn)象看本質(zhì),考察其核心技術(shù)的實(shí)現(xiàn)能力和成績(jī)。畢竟核心技術(shù)的提升不是一蹴而就的事情,能把核心技術(shù)做到較強(qiáng)說(shuō)明其研發(fā)實(shí)力和后期的改進(jìn)能力也會(huì)比較強(qiáng)。
通過(guò)一段時(shí)間,與幾家國(guó)內(nèi)外廠商的接觸,筆者現(xiàn)在基本了解了這類產(chǎn)品的工作機(jī)理和一些核心技術(shù),下面就我的理解來(lái)談?wù)勗搹哪男┖诵募夹g(shù)入手,如何簡(jiǎn)單地評(píng)判這些核心技術(shù)的好壞。
一、用戶識(shí)別與認(rèn)證背后的核心技術(shù):
透明識(shí)別和聯(lián)動(dòng)認(rèn)證技術(shù)
機(jī)理就是通過(guò)對(duì)攜帶用戶信息的報(bào)文進(jìn)行解析,從中準(zhǔn)確地抽取出用戶信息,作為上網(wǎng)者的身份。他的難點(diǎn)在于多種認(rèn)證報(bào)文并存時(shí)要能夠逐一地識(shí)別出來(lái)是比較難的,其中最難的應(yīng)該是對(duì)PPPOE賬號(hào)的提取,因?yàn)樗吘共皇菢?biāo)準(zhǔn)的以太網(wǎng)格式。
為什么這是一個(gè)核心技術(shù)?因?yàn)檫@個(gè)技術(shù)需要大量的客戶積累才能完成,數(shù)量越多說(shuō)明核心技術(shù)越強(qiáng),畢竟廠商一般不會(huì)自己編一個(gè)聯(lián)動(dòng)認(rèn)證出來(lái),是需要較多的客戶提出后才會(huì)去做的。
為了驗(yàn)證這一點(diǎn)筆者特意安裝了一個(gè)Load Runner來(lái)模擬海量的認(rèn)證報(bào)文撥測(cè)了各個(gè)產(chǎn)品(切忌這個(gè)環(huán)節(jié)千萬(wàn)不可以單用戶測(cè)試,你肯定不想周一的早晨電話被打爆),效果區(qū)分比較明顯,各位IT同仁有興趣可以自己試一下
當(dāng)然如果覺(jué)得Load Runer 麻煩還有一個(gè)偷懶的方法,那就是看運(yùn)營(yíng)商采用哪個(gè)產(chǎn)品多。因?yàn)檫\(yùn)營(yíng)商很注重4A,并且對(duì)性能要求高,運(yùn)營(yíng)商認(rèn)為認(rèn)證可用,那你的也應(yīng)該可用。
二、網(wǎng)頁(yè)識(shí)別與過(guò)濾背后的核心技術(shù):
網(wǎng)頁(yè)分類技術(shù)、網(wǎng)頁(yè)分類庫(kù)
實(shí)現(xiàn)機(jī)理是廠商自己建立一個(gè)搜索引擎爬蟲,每天到處爬網(wǎng)站。對(duì)爬下來(lái)的網(wǎng)站進(jìn)行語(yǔ)義分析之后歸檔到自己的分類庫(kù),在設(shè)備中引用。
為什么說(shuō)這個(gè)技術(shù)是核心技術(shù)?因?yàn)檫@個(gè)技術(shù)是目前網(wǎng)頁(yè)過(guò)濾領(lǐng)域公認(rèn)的比較靠譜的技術(shù),是網(wǎng)頁(yè)過(guò)濾的基石。目前國(guó)外做的比較好的是Websense,國(guó)內(nèi)做的比較好的是網(wǎng)康。經(jīng)過(guò)了解后發(fā)現(xiàn),這個(gè)技術(shù)實(shí)現(xiàn)起來(lái)還是比較難的,因?yàn)榕来罅康木W(wǎng)站并且能夠進(jìn)行語(yǔ)義分析都是需要人力、財(cái)力和時(shí)間積累,不是幾天能夠做的出來(lái)的。
當(dāng)然這也有一個(gè)偷懶的方法,那就是看看廠商標(biāo)注URL分類庫(kù)的大小,越大的肯定經(jīng)營(yíng)的時(shí)間越長(zhǎng),積累越多,一個(gè)產(chǎn)品不好的廠商很難投入人力,財(cái)力來(lái)搞這個(gè)東西。目前了解到的的最大庫(kù)應(yīng)該是網(wǎng)康的2000萬(wàn)條。
這里還要說(shuō)明一些選型誤區(qū)
其一:有些廠商說(shuō)URL庫(kù)沒(méi)有用,說(shuō)他們的設(shè)備可以實(shí)時(shí)、智能地基于網(wǎng)頁(yè)內(nèi)容判斷是否應(yīng)該過(guò)濾,我可以告訴大家這是騙人的。因?yàn)榻?jīng)過(guò)刨根問(wèn)底,發(fā)現(xiàn)他們用的就是關(guān)鍵字匹配技術(shù),這個(gè)技術(shù)估計(jì)一個(gè)剛畢業(yè)的學(xué)生2天就可以編出來(lái)。但關(guān)鍵字根本無(wú)法識(shí)別語(yǔ)義,哪敢用啊。如果關(guān)鍵字匹配要是真的能和搜索引擎分類技術(shù)平起平坐,那估計(jì)中國(guó)早就有幾千個(gè)百度了。
其二:有些廠商說(shuō)他們可以過(guò)濾HTTPS網(wǎng)站,經(jīng)過(guò)單機(jī)測(cè)試還真可以用。但采用Load Runner測(cè)試時(shí)就發(fā)現(xiàn)性能急劇下降。原因就是因?yàn)檫@是一個(gè)中間人代理技術(shù),效率極低。而且更重要的一點(diǎn)是僅僅接了5個(gè)同事的網(wǎng)進(jìn)行Gmail審計(jì),結(jié)果每個(gè)人都問(wèn)我,你是不是搞什么東西了,Gmail不斷地彈出提示框說(shuō)證書不合法,收發(fā)一封信要點(diǎn)十幾次鼠標(biāo)進(jìn)行確認(rèn)。這要是讓業(yè)務(wù)部門發(fā)現(xiàn)了還不投訴到天黑。
經(jīng)了解其實(shí)URL庫(kù)大的廠商他們也都能做這些,但是他們并沒(méi)有把這個(gè)當(dāng)成亮點(diǎn),還比較厚道。
三、應(yīng)用識(shí)別與控制背后的核心技術(shù):
DPI、DFI、應(yīng)用協(xié)議庫(kù)
這個(gè)核心技術(shù)的機(jī)理就是從不加密的報(bào)文中找到明文特征字來(lái)標(biāo)識(shí)一個(gè)應(yīng)用,對(duì)加密的報(bào)文找到數(shù)據(jù)流的模型特征,例如包長(zhǎng),連接數(shù)等。最近還聽(tīng)說(shuō)網(wǎng)康提出了一個(gè)XAI 技術(shù),說(shuō)是可以根據(jù)P2P的文件類型進(jìn)行流控,這個(gè)還挺有意思。
衡量這個(gè)核心技術(shù)的好與壞也很簡(jiǎn)單,一方面看應(yīng)用庫(kù)的大小,另一方面看應(yīng)用庫(kù)中每個(gè)應(yīng)用彼此獨(dú)立,因?yàn)橛行S商協(xié)議庫(kù)號(hào)稱800多,但是一個(gè)QQ傳文件就45個(gè)協(xié)庫(kù)列表,這個(gè)很不靠譜。
核心技術(shù)選型小錦囊:
1-不要輕信單機(jī)測(cè)試:因?yàn)楹芏嗷ㄉ诘墓δ軉螜C(jī)測(cè)試都可以,但大規(guī)模應(yīng)用后設(shè)備可能不可用。
2-關(guān)注需要長(zhǎng)期積累才能見(jiàn)成效的關(guān)鍵技術(shù):
a)看透明用戶識(shí)別的種類:用Load Runner測(cè)試,了解運(yùn)營(yíng)商大量使用哪個(gè)產(chǎn)品
b)看網(wǎng)頁(yè)過(guò)濾效果:用Load Runner測(cè)試,比較URL庫(kù)的數(shù)量,看廠商公示的更新頻率。因?yàn)檫@個(gè)是不專業(yè)產(chǎn)品難以短時(shí)間做出來(lái)的。
c)看應(yīng)用過(guò)濾效果:應(yīng)用協(xié)議庫(kù)數(shù)量,協(xié)議間的獨(dú)立性,看廠商公示的更新頻率。能夠識(shí)別P2P文件類型更好。
d)看外發(fā)內(nèi)容過(guò)濾效果:關(guān)注關(guān)鍵字的數(shù)量,是否可以建立超過(guò)1000個(gè)以上的關(guān)鍵字庫(kù),并且外發(fā)信息沒(méi)有明顯時(shí)延
3-不要被引入理論上的誤區(qū):
a)貶低URL庫(kù),高調(diào)宣傳實(shí)時(shí)網(wǎng)頁(yè)關(guān)鍵字匹配。關(guān)鍵字匹配網(wǎng)頁(yè)最終的結(jié)果就是什么都管不了
b)強(qiáng)力推銷HTTPS網(wǎng)頁(yè)過(guò)濾。這個(gè)可以有,但是大規(guī)模用起來(lái)后,你的電話就會(huì)被打爆
c)貶低X86,推崇NP,ASIC。固然后兩者是性能很強(qiáng)勁,但是那時(shí)路由器交換機(jī)用的技術(shù)。到了應(yīng)用層,帶來(lái)的就是無(wú)法快速更新協(xié)議庫(kù),網(wǎng)頁(yè)庫(kù)。并且大量的應(yīng)用被誤識(shí)別。
希望本文能夠?qū)Ω魑籌T同仁有一個(gè)對(duì)上網(wǎng)行為管理選型的有一定的幫助。