喬納森-弗萊切:被遺忘的“搜索引擎之父”
喬納森·弗萊切(Jonathon Fletcher)
導(dǎo)語(yǔ):英國(guó)BBC網(wǎng)站周二刊登題為《喬納森·弗萊切:被遺忘的搜索引擎之父》(Jonathon Fletcher: forgotten father of the search engine)的評(píng)論文章稱,雖然喬納森·弗萊切的大名并不為多數(shù)人所知,但全世界首個(gè)現(xiàn)代搜索引擎卻出自他的手筆。盡管因?yàn)榉N種原因,令他的項(xiàng)目沒有持續(xù)下去,但他開發(fā)的技術(shù)卻為后來的所有網(wǎng)絡(luò)搜索引擎奠定了基礎(chǔ)。
以下為文章全文:
在谷歌(888.67, 0.62, 0.07%)迎來15歲生日之際,這家網(wǎng)絡(luò)巨頭已經(jīng)成為了信息檢索的代名詞。
然而,如果你在谷歌上搜索喬納森·弗萊切(Jonathon Fletcher)的名字,卻無(wú)法立刻了解他在萬(wàn)維網(wǎng)發(fā)展歷程中所扮演的角色。當(dāng)然,也幾乎沒有什么信息將他譽(yù)為“現(xiàn)代搜索引擎之父”。
但在20年前,在蘇格蘭斯特靈大學(xué)的一間電腦實(shí)驗(yàn)室里,正是弗萊切發(fā)明了世界上首個(gè)采用網(wǎng)絡(luò)爬蟲技術(shù)的搜索引擎——無(wú)論是谷歌、必應(yīng)還是雅虎(29.48, 0.24, 0.82%),當(dāng)今的所有大型搜索引擎工具都使用了這項(xiàng)技術(shù)。
解決搜索問題
1993年,網(wǎng)絡(luò)世界剛剛萌芽。全世界首款廣受歡迎的瀏覽器Mosaic發(fā)布不久,全球網(wǎng)頁(yè)總數(shù)僅有幾千個(gè)。但即使是在那時(shí),如何檢索網(wǎng)絡(luò)信息仍是一個(gè)未解難題。
Mosaic有一個(gè)名叫What's New的頁(yè)面,可以在新網(wǎng)站創(chuàng)建后索引這些內(nèi)容。但問題在于,如果要讓Mosaic的開發(fā)者發(fā)現(xiàn)自己的網(wǎng)站,站長(zhǎng)們就必須寫信給該瀏覽器所在的美國(guó)伊利諾伊大學(xué)香檳分校國(guó)家超級(jí)計(jì)算機(jī)應(yīng)用中心(NCSA)。
彼時(shí),喬納森·弗萊切還是斯特靈大學(xué)的明星畢業(yè)生,剛剛得到了格拉斯哥大學(xué)的博士全額獎(jiǎng)學(xué)金。但就在他啟程前,格拉斯哥大學(xué)的獎(jiǎng)學(xué)金卻取消了,弗萊切似乎走進(jìn)了死胡同。
“我突然之間必須自謀生路,所以我回到斯特靈大學(xué),在技術(shù)部找了一份工作。”他回憶說。
就是在那個(gè)崗位上,他邂逅了萬(wàn)維網(wǎng)和Mosaic的What's New頁(yè)面。
更好的方式
在為斯特靈大學(xué)建設(shè)網(wǎng)絡(luò)服務(wù)器時(shí),弗萊切發(fā)現(xiàn)What's New頁(yè)面存在一個(gè)本質(zhì)缺陷。由于網(wǎng)頁(yè)是手工添加的,所以無(wú)法追蹤內(nèi)容變化。所以,鏈接很快就會(huì)過期,還可能被錯(cuò)誤標(biāo)記。
“如果你想知道有什么變化,就必須回過頭去親自查看。”弗萊切提到Mosaic的鏈接時(shí)說,“我有計(jì)算機(jī)學(xué)位,而且我覺得應(yīng)該可以有一種更好的方式,所以我決定寫一個(gè)程序來幫助我查找內(nèi)容。”
于是,便有了世界上第一個(gè)網(wǎng)絡(luò)爬蟲。
弗萊切將他的發(fā)明命名為JumpStation。他匯集了一個(gè)網(wǎng)頁(yè)的索引,然后利用網(wǎng)絡(luò)爬蟲展開搜索。這本質(zhì)上就是一套全自動(dòng)的程序,可以匯集它所訪問和索引的所有鏈接和所有網(wǎng)頁(yè)。直到遍歷了所有內(nèi)容,這套程序才會(huì)停止。
10天后,也就是1993年12月21日,JumpStation遍歷了所有網(wǎng)頁(yè),索引了2.5萬(wàn)個(gè)頁(yè)面。
而今天,谷歌的頁(yè)面索引量超過了1萬(wàn)億。
搜索的誕生
弗萊切很快為這個(gè)索引開發(fā)了一款易于使用的搜索工具,然后將他的網(wǎng)站提交到Mosaic的What's New頁(yè)面。于是,全世界第一個(gè)現(xiàn)代搜索引擎正是運(yùn)營(yíng)了。
“我認(rèn)為,他是真正的‘網(wǎng)絡(luò)搜索引擎之父’。”曾經(jīng)研究過信息檢索歷史的墨爾本皇家理工學(xué)院教授馬克·桑德森(Mark Sanderson)說,“很早以前就有人用電腦搜索信息,網(wǎng)絡(luò)誕生前肯定也有搜索引擎,但喬納森的搜索引擎卻第一個(gè)具備了所有現(xiàn)代搜索引擎的元素。”
然而,當(dāng)聯(lián)合創(chuàng)始人謝爾蓋·布林(Sergey Brin)和拉里·佩奇(Larry Page)成為家喻戶曉的明星時(shí),現(xiàn)居中國(guó)香港的弗萊切卻并沒有因?yàn)樽约涸诨ヂ?lián)網(wǎng)發(fā)展過程中所扮演的角色受到太大認(rèn)可。
這或許與他最終放棄了那個(gè)項(xiàng)目有很大關(guān)系。隨著JumpStation的增長(zhǎng),投資需求也越來越大——而斯特靈大學(xué)卻不愿提供這種支持。
“它使用了共享服務(wù)器,磁盤空間不多,而當(dāng)時(shí)的磁盤又小又貴。”弗萊切解釋說。
控制磁盤空間
到了1994年6月,JumpStation索引了27.5萬(wàn)個(gè)網(wǎng)頁(yè)。由于存儲(chǔ)空間捉襟見肘,迫使弗萊切只能索引網(wǎng)頁(yè)的標(biāo)題和頭文件,不能索引全部?jī)?nèi)容。然而,盡管做出了這種妥協(xié),但JumpStation還是不堪重負(fù)。
弗萊切也感到筋疲力盡。“這不是我份內(nèi)的事情,”他說,“我的工作是讓學(xué)生的實(shí)驗(yàn)室正常運(yùn)行,干些系統(tǒng)管理和技術(shù)方面的零活兒。”
這時(shí),一份來自東京的工作邀請(qǐng),提供了弗萊切無(wú)法拒絕的豐厚待遇。斯特靈大學(xué)幾乎完全沒有挽留他和JumpStation的意思。
“我顯然沒能成功說服他們認(rèn)可JumpStation的潛力。”弗萊切說,“我當(dāng)時(shí)做了我認(rèn)為正確的事情,但我20年來總會(huì)時(shí)不時(shí)地回首往事。”
斯特靈大學(xué)計(jì)算機(jī)和數(shù)學(xué)系主任雷斯利·史密斯(Leslie Smith)至今仍然記得弗萊切,他承認(rèn),JumpStation“領(lǐng)先于那個(gè)時(shí)代”。他還對(duì)BBC說:“斯特靈大學(xué)的同事都很高興他正在因?yàn)樽约喝〉玫某删瞳@得應(yīng)有的認(rèn)可。”
展望未來
盡管弗萊切的遭遇令人失望,但他開辟的這項(xiàng)技術(shù)卻成為后來所有搜索引擎的基礎(chǔ)。
“1993年的網(wǎng)絡(luò)世界還很小,”桑德森教授說,“當(dāng)時(shí)只要上過網(wǎng)的人,應(yīng)該都知道JumpStation。”
“到了1994年年中,人們才逐漸意識(shí)到搜索引擎的重要性。谷歌直到1998年才誕生,他們所做的也不過是喬納森早在1993年就做過的事情。”
幾周前,弗萊切因?yàn)樗倪@項(xiàng)成就在都柏林的一次會(huì)議上獲得了一些認(rèn)可,他當(dāng)時(shí)與來自微軟(32.39, 0.73, 2.32%)、雅虎和谷歌的代表們共同出席了一個(gè)座談會(huì)。但在演講中,他的重點(diǎn)卻放在了未來。
“在我看來,網(wǎng)絡(luò)不會(huì)永遠(yuǎn)存在下去。”他對(duì)聽眾說,“但尋找信息卻會(huì)成為一個(gè)永恒的話題。”
“搜索內(nèi)容和尋找信息的愿望并不受制于任何媒介。”他說。
當(dāng)今的媒介為那些追隨弗萊切步伐的人創(chuàng)造了巨額財(cái)富,但他并不感到遺憾。“我的父母為我驕傲,我的妻子以我為豪,我的孩子因我而榮,這對(duì)我來說都是無(wú)價(jià)之寶,所以我很幸福。”