自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌搜索引擎全面揭秘!近百份文檔泄露,博主爆肝數(shù)周逆向工程

人工智能 新聞
繼5月的文件泄露事件后,谷歌的搜索引擎又被掀了個底朝天。不僅DeepMind發(fā)論文解釋了Vizier系統(tǒng)的機(jī)制,博客作者M(jìn)ario Fischer還對近百份文檔做了徹底的調(diào)研分析,為我們還原了這個互聯(lián)網(wǎng)巨獸的全貌。

谷歌發(fā)表的論文又開始揭自家技術(shù)的老底了。

DeepMind高級研究科學(xué)家Xingyou (Richard) Song等人最近發(fā)表的論文中,解釋了谷歌Vizier服務(wù)背后的算法秘密。

圖片

作為一個運(yùn)行過數(shù)百萬次的黑盒優(yōu)化器,Vizier幫助谷歌內(nèi)部優(yōu)化了很多研究和系統(tǒng);同時,谷歌云和Vertex也上線了Vizier服務(wù),幫助研究者和開發(fā)人員進(jìn)行超參數(shù)調(diào)整或黑盒優(yōu)化。

Song表示,與Ax/BoTorch、HEBO、Optuna、HyperOpt、SkOpt等其他行業(yè)基線相比,Vizier在很多用戶場景中都有更穩(wěn)健的表現(xiàn),比如高維度、批查詢、多目標(biāo)問題等。

趁著論文發(fā)布,谷歌元老Jeff Dean也發(fā)推贊揚(yáng)Vizier系統(tǒng)。

圖片

他提到的開源版Vizier已經(jīng)托管在GitHub倉庫上,有非常詳細(xì)的文檔說明,并且最近仍在持續(xù)維護(hù)更新。

圖片

倉庫地址:https://github.com/google/vizier

圖片

OSS Vizier 的分布式客戶端-服務(wù)器系統(tǒng)

雖然谷歌研究院早在2017年就發(fā)文討論過整個Vizier系統(tǒng),但內(nèi)容遠(yuǎn)沒有最新的這篇詳實(shí)。

圖片

論文地址:https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/46180.pdf

這篇技術(shù)報告包含了大量研究工作的成果和用戶反饋,在描述開源Vizier算法的實(shí)現(xiàn)細(xì)節(jié)和設(shè)計選擇的同時,用標(biāo)準(zhǔn)化基準(zhǔn)的實(shí)驗(yàn)表現(xiàn)了Vizier在多種實(shí)用模式上的穩(wěn)健性和多功能性。

圖片

論文地址:https://arxiv.org/abs/2408.11527

其中,Vizier系統(tǒng)迭代過程的經(jīng)驗(yàn)教訓(xùn)也被一一展示,這對學(xué)界和行業(yè)都有很大的借鑒意義,值得一觀。

圖片

Vizier系統(tǒng)所用貝葉斯算法的核心組件

文章的主要貢獻(xiàn)如下:

- 正式確認(rèn)了Vizier當(dāng)前版本的默認(rèn)算法并解釋其功能、設(shè)計選擇,以及整個迭代過程中吸取的經(jīng)驗(yàn)教訓(xùn)

- 在原始的C++實(shí)現(xiàn)基礎(chǔ)上提供了開源的Python和JAX框架實(shí)現(xiàn)

- 使用行業(yè)通用基準(zhǔn)進(jìn)行測試,體現(xiàn)了Vizier在高維、分類、批量和多目標(biāo)優(yōu)化等模式下的穩(wěn)健性

- 對零階進(jìn)化采集優(yōu)化器(zeroth-order evolutionary acquisition optimizer)這個非常規(guī)的設(shè)計選擇進(jìn)行了消融實(shí)驗(yàn),展示并討論了其中的關(guān)鍵優(yōu)勢

論文作者列表中排名前二的是兩個Richard——

Xingyou (Richard) Song曾在OpenAI擔(dān)任強(qiáng)化學(xué)習(xí)泛化方面的研究員,2019年以高級研究科學(xué)家的身份加入Google Brain,并從2023年起擔(dān)任DeepMind高級研究科學(xué)家,從事GenAI方面的工作。

圖片

Qiuyi (Richard) Zhang目前在DeepMind Vizier團(tuán)隊中工作,也是開源版Vizier的共同創(chuàng)建者,他的研究主要關(guān)注超參數(shù)優(yōu)化、貝葉斯校準(zhǔn)和理論機(jī)器學(xué)習(xí)方向,此外在AI對齊、反事實(shí)/公平性等方面也有涉足。

圖片

2014年,Zhang以優(yōu)秀畢業(yè)生的身份從普林斯頓大學(xué)獲得學(xué)士學(xué)位,之后在加州大學(xué)伯克利分校獲得獲得應(yīng)用數(shù)學(xué)和計算機(jī)科學(xué)的博士學(xué)位。

搜索引擎機(jī)制大起底

作為絕對的行業(yè)巨頭,谷歌很多未被披露的核心技術(shù)都讓外界好奇已久,比如,搜索引擎。

十多年來超過90%的市場份額,讓谷歌搜索成為了或許是整個互聯(lián)網(wǎng)上最具影響力的系統(tǒng),它決定了網(wǎng)站的生死存亡及網(wǎng)絡(luò)內(nèi)容的呈現(xiàn)形態(tài)。

但谷歌究竟是如何對網(wǎng)站進(jìn)行排名的具體細(xì)節(jié),從來都是「黑匣子」。

不像Vizier這類產(chǎn)品,搜索引擎既是谷歌的財富密碼,也是看家技術(shù),官方發(fā)論文披露是不可能的。

雖然也有媒體、研究人員以及從事搜索引擎優(yōu)化工作的人士進(jìn)行過種種猜測,但也只是盲人摸象。

曠日持久的谷歌反壟斷訴訟最近宣布判決,美國的各級檢察官搜羅了約500萬頁的文件,變成公開的呈堂證供。

然而,谷歌內(nèi)部文檔泄露和反壟斷聽證會的公開文件等等,并沒有真正告訴我們排名的具體工作原理。

并且,由于機(jī)器學(xué)習(xí)的使用,自然搜索結(jié)果的結(jié)構(gòu)非常復(fù)雜,以至于參與排名算法開發(fā)的谷歌員工也表示,他們并不能完全理解許多信號權(quán)重的相互作用,無法解釋為什么某個結(jié)果會排在第一或第二。

5月27日,一位匿名消息人士(后證實(shí)為搜索引擎優(yōu)化行業(yè)資深從業(yè)者Erfan Azimi)曾向SparkToro公司的CEO Rand Fishkin提供了一份2500頁的谷歌搜索API泄露文檔,揭示了谷歌搜索引擎內(nèi)部排名算法的詳細(xì)信息。

圖片

但這還不是全部。

專門報道搜索引擎行業(yè)的新聞網(wǎng)站Search Engine Land最近還發(fā)表了一篇博客,根據(jù)數(shù)千份泄露的谷歌法庭文件進(jìn)行逆向工程,首次揭秘谷歌網(wǎng)絡(luò)搜索排名的核心技術(shù)原理。

圖片

原文鏈接:https://searchengineland.com/how-google-search-ranking-works-445141

這篇博文是原作者在幾周的工作中對近100份文檔經(jīng)過多次查看、分析、結(jié)構(gòu)化、丟棄和重組之后才誕生的,雖然并不一定嚴(yán)格準(zhǔn)確或面面俱到,但可以說是了解谷歌搜索引擎絕無僅有的全面且詳細(xì)的資料。

作者的省流版結(jié)構(gòu)示意圖如下:

圖片

毫無疑問,谷歌搜索引擎是一個龐大而復(fù)雜的工程。從爬蟲系統(tǒng)、存儲庫Alexandria、粗排名Mustang,再到過濾和細(xì)排名系統(tǒng)Superroot以及負(fù)責(zé)最終呈現(xiàn)頁面的GWS,這些都會影響網(wǎng)站頁面最終的呈現(xiàn)和曝光。

新文件:等待Googlebot訪問

當(dāng)一個新網(wǎng)站發(fā)布時,它不會立刻被谷歌索引,谷歌如何通過收集和更新網(wǎng)頁信息呢?

第一步就是爬蟲和數(shù)據(jù)收集,谷歌首先需要知道該網(wǎng)站URL的存在,網(wǎng)站地圖的更新或放置URL鏈接可以讓谷歌抓取到新網(wǎng)站。

并且,頻繁被訪問的頁面鏈接能更快地引起谷歌的注意。

爬蟲系統(tǒng)(trawler system)會抓取新內(nèi)容,并記錄何時重新訪問URL以檢查網(wǎng)站更新,這由一個稱為調(diào)度器的組件管理。

圖片

接著,存儲服務(wù)器決定是否轉(zhuǎn)發(fā)該URL或是否將其放到沙箱(sandbox)中。

谷歌之前一直否認(rèn)沙箱的存在,但最近的泄露信息表明,(可疑的)垃圾網(wǎng)站和低價值網(wǎng)站也會被放入沙箱,谷歌顯然會轉(zhuǎn)發(fā)一些垃圾網(wǎng)站,可能是為了進(jìn)一步分析內(nèi)容和訓(xùn)練算法。

然后,圖像鏈接被傳輸?shù)絀mageBot中,以便后續(xù)的搜索調(diào)用,有時會出現(xiàn)延遲的情況,ImageBot有分類功能,能夠?qū)⑾嗤蛳嗨频膱D片放置在一個圖像容器中。

爬蟲系統(tǒng)似乎使用自己的PageRank來調(diào)整信息抓取頻率,如果一個網(wǎng)站的流量更大,這個抓取頻率就會增加(ClientTrafficFraction)。

Alexandria:谷歌索引系統(tǒng)

谷歌的索引系統(tǒng)被稱為Alexandria,為每個網(wǎng)頁內(nèi)容分配唯一的DocID。如果出現(xiàn)內(nèi)容重復(fù)的情況,則不會創(chuàng)建新的ID,而是將URL鏈接到已有的DocID。

谷歌會明確區(qū)分URL和文檔:一個文檔可以由多個包含相似內(nèi)容的URL構(gòu)成,包括不同語言版本,所有這些URL都由同一個DocID進(jìn)行調(diào)用。

如果碰到不同域名的重復(fù)內(nèi)容,谷歌會選擇在搜索排名中會顯示規(guī)范版本。這也解釋了為什么其他的URL有時可能會有相似的排名。并且,所謂「規(guī)范」版本的URL也不是一錘子買賣,而是會隨著時間發(fā)生變化。

圖片

Alexandria收集文檔的URL

作者的文檔在網(wǎng)上只有一個版本,因此它被系統(tǒng)賦予了自己的DocID。

有了DocID之后,文檔的各個部分都會搜索出關(guān)鍵詞并匯總到搜索索引(search index)中?!笩嵩~列表」(hit list)中匯總了每頁多次出現(xiàn)的關(guān)鍵詞,會先被發(fā)送到直接索引(direct index)中。

以作者的網(wǎng)頁為例,由于其中多次出現(xiàn)「pencil」一詞,在詞匯索引(word index)中,DocID就列在「pencil」條目下。

算法會根據(jù)各種文本特征計算出文檔中「鉛筆」一詞的IR(信息檢索)分?jǐn)?shù)并分配給DocID,稍后用于發(fā)布列表(Posting List)。

比如,文檔中「pencil」一詞被加粗,并包含在一級標(biāo)題中(存儲在AvrTermWeight中),這類信號都會增加IR得分。

谷歌會將重要的文檔移至HiveMind,即主內(nèi)存系統(tǒng),同時使用快速SSD和傳統(tǒng)HDD(稱為TeraGoogle)來長期存儲不需要快速訪問的信息。

值得注意的是,專家估計,在最近的AI熱潮之前,谷歌掌握了全球約半數(shù)的網(wǎng)絡(luò)服務(wù)器。

一個龐大的互聯(lián)集群網(wǎng)絡(luò)能夠讓數(shù)百萬個主存單元一起工作,一位谷歌工程師曾在一次會議上指出,理論上,谷歌的主存儲器可以存儲整個網(wǎng)絡(luò)。

有趣的是,存儲在HiveMind中的重要文檔的鏈接以及反向鏈接似乎有更高的權(quán)重,而HDD(TeraGoogle)中的URL鏈接可能權(quán)重較低,甚至可能不被考慮。

每個DocID的附加信息和信號都以動態(tài)方式存儲在PerDocData中,這個存儲庫保存了每個文檔最近的20個版本(通過CrawlerChangerateURLHistory),許多系統(tǒng)在調(diào)整相關(guān)性時都會訪問這些信息。

并且,谷歌有能力隨著時間變化評估不同的版本。如果想要完全更改文檔的內(nèi)容或主題,理論上需要創(chuàng)建20個過渡版本來完全覆蓋掉舊的版本。

這就是為什么恢復(fù)一個過期域名(一個曾經(jīng)活躍,但之后由于破產(chǎn)或其他原因被放棄或出售的域名)不會保留原來域名的排名優(yōu)勢。

如果一個域名的Admin-C和其主題內(nèi)容同時發(fā)生變化,機(jī)器可以輕松識別出這一點(diǎn)。

此時,谷歌會將所有信號置零,曾經(jīng)有流量價值的舊域名不再提供任何優(yōu)勢,與全新注冊的域名無異,接手舊域名并不意味著接手原本的流量和排名。

圖片

除了泄密事件之外,美國司法機(jī)構(gòu)針對谷歌的聽證會和審判的證據(jù)文件也是有用的研究來源,甚至包含內(nèi)部電子郵件

QBST:有人在搜索「pencil」

當(dāng)有人在谷歌中輸入搜索詞「pencil」時,QBST(Query Based Salient Terms)開始工作。

QBST負(fù)責(zé)分析用戶輸入的搜索詞,根據(jù)重要性和相關(guān)性為其中包含的各個詞語分配不同的權(quán)重,并分別進(jìn)行相關(guān)DocID的查詢。

圖片

詞匯加權(quán)過程相當(dāng)復(fù)雜,涉及RankBrain、DeepRank(前身為BERT)和RankEmbeddedBERT等系統(tǒng)。

QBST對于SEO很重要,因?yàn)樗鼤绊慓oogle對搜索結(jié)果的排名,從而影響網(wǎng)站可以獲得多少流量和可見度。

如果網(wǎng)站包含與用戶查詢匹配最常用的術(shù)語,QBST就會讓網(wǎng)站排名更高。

經(jīng)過QBST后,相關(guān)詞匯如「pencil」,會被傳遞給Ascorer做進(jìn)一步處理。

Ascorer:創(chuàng)建「綠環(huán)」

Ascorer從倒排索引(即詞匯索引)中提取「pencil」條目下的前1000個DocID,按IR得分排名。

根據(jù)內(nèi)部文件,這個列表稱為「綠環(huán)」。在業(yè)內(nèi),這被稱為發(fā)布列表(posting list)。

在我們關(guān)于「鉛筆」例子中,相應(yīng)文檔在發(fā)布列表中排名第132位。如果沒有其他系統(tǒng)的介入,這將是它的最終位次。

Superroot:「千里挑十」

Superroot負(fù)責(zé)對剛剛Mustang篩選出的1000個候選網(wǎng)頁重新排名,將1000個DocID的「綠環(huán)」縮減為10個結(jié)果的「藍(lán)環(huán)」。

這個任務(wù)具體由Twiddlers和NavBoost執(zhí)行,其他系統(tǒng)可能也有參與,但由于信息不準(zhǔn)確,具體細(xì)節(jié)尚不清楚。

圖片

Mustang生成1000個潛在結(jié)果,Superroot將其過濾為10個

Twiddlers:層層過濾

各種文件表明,谷歌使用了數(shù)百個Twiddler系統(tǒng),我們可以將其視為類似于WordPress插件中的過濾器。

每個Twiddler都有自己特定的過濾目標(biāo),可以調(diào)整IR分?jǐn)?shù)或者排名位次。

之所以用這種方式設(shè)計,是因?yàn)門widdler相對容易創(chuàng)建,而且無需修改 Ascorer中復(fù)雜的排名算法。

排名算法的修改非常具有挑戰(zhàn)性,因?yàn)樯婕皾撛诘母弊饔?,需要大量的?guī)劃和編程。相反,多個Twiddler并行或順序操作,并不知道其他Twiddler的活動。

Twiddler基本可以分為兩種類型:

-PreDoc Twiddlers可以處理幾百個DocID的集合,因?yàn)樗鼈儙缀醪恍枰~外的信息;

-相反,「Lazy」類型的Twiddler需要更多的信息,例如來自PerDocData數(shù)據(jù)庫的信息,需要相對更長的時間和更復(fù)雜的過程。

因此,PreDocs先接收發(fā)布列表并減少網(wǎng)頁條目,然后再使用較慢的「Lazy」類型的過濾器,兩者結(jié)合使用大大節(jié)省了算力和時間。

圖片

兩種類型的、超過100個Twiddler負(fù)責(zé)減少潛在的搜索結(jié)果數(shù)量并重新排序

經(jīng)過測試,Twiddler有多種用途,開發(fā)者可以嘗試使用新的過濾器、乘數(shù)或特定位置限制,甚至可以做到非常精準(zhǔn)的操控,將一個特定的搜索結(jié)果排名到另一個結(jié)果的前面或后面。

谷歌的一份泄露的內(nèi)部文件顯示,某些Twiddler功能應(yīng)僅由專家與核心搜索團(tuán)隊協(xié)商后使用。

圖片

如果您認(rèn)為自己了解Twidder的工作原理,請相信我們:您不了解。我們也不確定自己是否了解

還有一些Twiddlers僅用于創(chuàng)建注釋,并將這些注釋添加到DocID中。

在COIVD期間,為什么你所在國家的衛(wèi)生部門在COVID-19搜索中總是排在第一位?

那正是因?yàn)門widdler會根據(jù)語言和地區(qū),使用queriesForWhichOfficial來促進(jìn)官方資源的精確分配。

雖然開發(fā)者無法控制Twiddler重新排序的結(jié)果,但了解其機(jī)制可以更好地解釋排名波動和那些「無法解釋的排名」。

質(zhì)量評估員和RankLab實(shí)驗(yàn)室

全球范圍內(nèi)有數(shù)千名質(zhì)量評估員負(fù)責(zé)為谷歌評估搜索結(jié)果,對新算法或過濾器進(jìn)行上線前的測試。

谷歌表示,他們的評分僅供參考,不會直接影響排名。

這本質(zhì)上是正確的,但他們的評分和投標(biāo)票的確對排名產(chǎn)生了極大的間接影響。

評估員通常在移動設(shè)備上進(jìn)行評估,從系統(tǒng)接收URL或搜索短語,并回答預(yù)設(shè)的問題。

例如,他們會被問到,「這篇內(nèi)容作者和創(chuàng)作實(shí)踐是否清晰?作者是否擁有該主題的專業(yè)知識?」

這些答案會被存儲起來并用于訓(xùn)練機(jī)器學(xué)習(xí)算法,讓算法能夠更好地識別高質(zhì)量、值得信賴的頁面,和不太可靠的頁面。

也就是說,人類評估者提供的結(jié)果成為深度學(xué)習(xí)算法的重要標(biāo)準(zhǔn),谷歌搜索團(tuán)隊創(chuàng)建的排名標(biāo)準(zhǔn)反而沒那么重要。

想象一下,什么樣的網(wǎng)頁會讓人類評估者覺得可信?

如果某個網(wǎng)頁包含作者的照片、全名和LinkedIn鏈接,通常會顯得令人信服。反之,缺乏這些特征的網(wǎng)頁會被判定為不那么可信。

接著,神經(jīng)網(wǎng)絡(luò)將識別這一特征為關(guān)鍵因素,經(jīng)過至少30天的積極測試運(yùn)行,模型可能開始自動將此特征用作排名標(biāo)準(zhǔn)。

因此,具有作者照片、全名和LinkedIn鏈接的頁面可能會通過Twiddler機(jī)制獲得排名提升,而缺乏這些特征的頁面則會出現(xiàn)排名下降。

另外,根據(jù)谷歌泄露的信息,通過isAuthor屬性和AuthorVectors屬性(類似于「作者指紋識別」),可以讓系統(tǒng)識別并區(qū)分出作者的獨(dú)特用詞和表達(dá)方式(即個人語言特征)。

評估員的評價被匯總成「信息滿意度」(IS)分?jǐn)?shù)。盡管有許多評估員參與,但I(xiàn)S評分僅適用于少數(shù)URL。

谷歌指出,許多沒有被點(diǎn)擊的文檔可能也很重要。當(dāng)系統(tǒng)無法進(jìn)行推斷時,文檔會被自動發(fā)送給評估員并生成評分。

評估員相關(guān)的術(shù)語中提到了「黃金」,這表明某些文檔可能有一個「黃金標(biāo)準(zhǔn)」,符合人類評估員的預(yù)期可能有助于文檔達(dá)到「黃金」標(biāo)準(zhǔn)。

此外,一個或多個Twiddler系統(tǒng)可能會將符合「黃金標(biāo)準(zhǔn)」的DocID推進(jìn)排名前十。

質(zhì)量評估員通常不是谷歌的全職員工,而是隸屬于外包公司。

相比之下,谷歌自己的專家在RankLab實(shí)驗(yàn)室中工作,負(fù)責(zé)進(jìn)行實(shí)驗(yàn)、開發(fā)新的Twiddler以及進(jìn)行評估和改進(jìn),看Twiddler能否提高結(jié)果質(zhì)量還是僅僅只能過濾掉垃圾郵件。

經(jīng)過驗(yàn)證并有效的Twiddler隨后被集成到Mustang系統(tǒng)中,使用了復(fù)雜、互連且計算密集型的算法。

NavBoost:用戶喜歡什么?

在Superroot中,另一個核心系統(tǒng)NavBoost在搜索結(jié)果排名方面也發(fā)揮著重要作用。

圖片

Navboost主要用于收集用戶與搜索結(jié)果交互的數(shù)據(jù),特別是他們對不同查詢結(jié)果的點(diǎn)擊量。

盡管谷歌官方否認(rèn)將用戶點(diǎn)擊數(shù)據(jù)用于排名,但聯(lián)邦貿(mào)易委員會(FTC)披露的一封內(nèi)部電子郵件指示,點(diǎn)擊數(shù)據(jù)的處理方式必須保密。

谷歌對此進(jìn)行否認(rèn)涉及兩方面的原因。

首先,站在用戶的角度來看,谷歌作為搜索平臺無時無刻監(jiān)視用戶的在線活動,這會引起媒體對于隱私問題的憤怒。

但站在谷歌的角度來看,使用點(diǎn)擊數(shù)據(jù)是為了獲得具有統(tǒng)計意義的數(shù)據(jù)指標(biāo),而不是監(jiān)控單個用戶。

FTC文件確認(rèn)了點(diǎn)擊數(shù)據(jù)將會影響排名,并頻繁提到NavBoost系統(tǒng)(在2023年4月18日的聽證會上提到54次),2012年的一次官方聽證會也證明了這一點(diǎn)。

圖片

自2012年8月起,官方明確表示點(diǎn)擊數(shù)據(jù)會影響排名

搜索結(jié)果頁面上的各種用戶行為,包括搜索、點(diǎn)擊、重復(fù)搜索和重復(fù)點(diǎn)擊,以及網(wǎng)站或網(wǎng)頁的流量都會影響排名。

對用戶隱私的擔(dān)憂只是原因之一。另一種擔(dān)憂是,通過點(diǎn)擊數(shù)據(jù)和流量進(jìn)行評估,可能會鼓勵垃圾郵件發(fā)送者和騙子使用機(jī)器人系統(tǒng)偽造流量來操縱排名。

谷歌也有反制這種情況的方法,例如通過多方面的評估將用戶點(diǎn)擊區(qū)分為不良點(diǎn)擊和良好點(diǎn)擊。

所使用的指標(biāo)包括在目標(biāo)頁面的停留時間、在什么時間段查看網(wǎng)頁、搜索的起始頁面、用戶搜索歷史中最近一次「良好點(diǎn)擊」的記錄等等。

對于每個在搜索結(jié)果頁面(SERPs)中的排名,都有一個平均預(yù)期點(diǎn)擊率(CTR)作為基準(zhǔn)線。

例如,根據(jù)Johannes Beus在今年柏林CAMPIXX大會上的分析指出,自然搜索結(jié)果的第1位平均獲得26.2%的點(diǎn)擊,第2位獲得15.5%的點(diǎn)擊。

如果一個CTR顯著低于預(yù)期的比率,NavBoost系統(tǒng)會記錄下這一差距,并相應(yīng)地調(diào)整DocID的排名。

圖片

如果「expected_CRT」與實(shí)際值偏差較大,則排名會相應(yīng)調(diào)整

用戶的點(diǎn)擊量基本上代表了用戶對結(jié)果相關(guān)性的意見,包括標(biāo)題、描述和域名。

圖片

根據(jù)SEO專家和數(shù)據(jù)分析師的報告,當(dāng)全面監(jiān)控點(diǎn)擊率時,他們注意到了以下現(xiàn)象:

如果一個文檔在搜索查詢中進(jìn)入前10名,而CTR顯著低于預(yù)期,可以觀察到排名將在幾天內(nèi)下降(取決于搜索量)。

相反,如果CTR相對于排名來說高得多,排名通常會上升。如果CTR較差,網(wǎng)站需要在短時間內(nèi)調(diào)整和優(yōu)化標(biāo)題和內(nèi)容描述,以便獲得更多的點(diǎn)擊。

計算和更新PageRank是耗時且計算密集的,這就是使用PageRank_NS指標(biāo)的原因。NS代表「最近的種子」,一組相關(guān)頁面共享一個PageRank值,該值暫時或永久地應(yīng)用于新頁面。

谷歌在一次聽證會上就如何提供最新信息樹立了一個良好典范。例如,當(dāng)用戶搜索「斯坦利杯」時,搜索結(jié)果通常會顯示一個水杯。

然而,當(dāng)斯坦利杯冰球比賽正在進(jìn)行時,NavBoost會調(diào)整結(jié)果以優(yōu)先顯示關(guān)于比賽的實(shí)時信息。

根據(jù)最新發(fā)現(xiàn),文檔的點(diǎn)擊指標(biāo)包含了13個月的數(shù)據(jù),有一個月的重疊,以便與前一年進(jìn)行比較。

出乎意料的是,谷歌實(shí)際上并沒有提供太多個性化的搜索結(jié)果。測試結(jié)果已經(jīng)表明,對用戶行為進(jìn)行建模并調(diào)整,比評估單個用戶的個人偏好更能帶來優(yōu)質(zhì)的結(jié)果。

然而,個人偏好,例如對搜索和視頻內(nèi)容的偏好,仍然包含在個性化結(jié)果中。

GWS:搜索的結(jié)尾和開端

谷歌網(wǎng)絡(luò)服務(wù)器(GWS)負(fù)責(zé)呈現(xiàn)搜索結(jié)果頁面(SERP),包括10個「藍(lán)色鏈接」,以及廣告、圖片、Google地圖視圖、「People also ask」和其他元素。

圖片

FreshnessNode、InstantGlue(在24小時內(nèi)反應(yīng),延遲約10分鐘)和InstantNavBoost等這些組件可以在頁面顯示前的最后時刻調(diào)整排名。

FreshnessNode可以實(shí)時監(jiān)測用戶搜索行為的變化,并根據(jù)這些變化調(diào)整排名,確保搜索結(jié)果與最新的搜索意圖匹配。

InstantNavBoost和InstantGlue在最終呈現(xiàn)搜索結(jié)果之前,對排名進(jìn)行最后的調(diào)整,例如根據(jù)突發(fā)新聞和熱門話題調(diào)整排名等。

因此,要想取得高排名,一個優(yōu)秀的文檔內(nèi)容還得加上正確的SEO措施。

排名可能會受到多種因素的影響,包括搜索行為的變化、其他文檔的出現(xiàn)和實(shí)時信息的更新。因此,必須認(rèn)識到,擁有高質(zhì)量的內(nèi)容和做好SEO只是動態(tài)排名格局中的一部分。

谷歌的John Mueller強(qiáng)調(diào),排名下降通常并不意味著內(nèi)容質(zhì)量不佳,用戶行為的變化或其他因素可能會改變結(jié)果的表現(xiàn)。

例如,如果用戶開始偏好更簡短的文本,NavBoost將自動相應(yīng)地調(diào)整排名。然而,Alexandria系統(tǒng)或Ascorer中的IR分?jǐn)?shù)是保持不變的。

這告訴我們,必須在更廣泛的意義上理解SEO。如果文檔內(nèi)容與用戶搜索意圖不一致,僅僅優(yōu)化標(biāo)題或內(nèi)容是無效的。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2011-11-15 08:40:17

百度

2010-03-15 13:21:10

谷歌撤離中國

2022-11-18 12:06:48

App接口搜索

2023-01-11 12:49:49

AIChatGPT

2023-04-10 08:00:00

2011-06-20 18:23:06

SEO

2009-05-18 09:45:10

Google搜索引擎WolframAlph

2024-12-20 14:34:40

2023-04-20 14:48:05

微軟AIChatGPT

2011-09-15 11:06:26

2017-08-07 08:15:31

搜索引擎倒排

2009-12-04 09:27:02

搜索引擎色情

2020-03-20 10:14:49

搜索引擎倒排索引

2022-10-08 09:13:18

搜索引擎?站

2012-09-07 13:22:21

搜索搜狗

2009-02-19 09:41:36

搜索引擎搜狐百度

2010-04-20 11:43:46

2012-04-06 09:23:09

百度蘋果

2013-10-21 17:42:39

百會搜索贏家

2009-09-22 16:23:52

搜索引擎
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號