Google搜索算法是如何越來(lái)越懂你的?
目前,Google 正在對(duì)其核心搜索算法進(jìn)行一項(xiàng)修改,該算法的改變可能會(huì)對(duì)多達(dá) 1/10 的搜索結(jié)果排名造成影響。而 Google 是如何修改其搜索算法的呢?關(guān)于 Google 修改算法的技術(shù),筆者援引相關(guān)文章進(jìn)行了不改變?cè)淼木幾g。
據(jù)悉,這一修改是基于 Google 研究人員開(kāi)發(fā)的前沿自然語(yǔ)言處理技術(shù)(NLP),它在十個(gè)月前就已經(jīng)應(yīng)用于其搜索產(chǎn)品中。Google 聲稱,它可以通過(guò)更好地理解單詞在句子中的相互關(guān)系來(lái)改善結(jié)果。此前,Google 在一次新聞發(fā)布會(huì)上討論過(guò)一個(gè)例子,他們的搜索算法能夠解析短語(yǔ)的含義——“Can you get medicine for someone pharmacy?”
Google 研究員兼搜索副總裁 Pandu Nayak 表示,舊的 Google 搜索算法是將這句話視為“詞袋”。因此,它會(huì)查看那些重要的單詞,即“medicine”和“pharmacy”,然后再簡(jiǎn)單地返回本地結(jié)果。而新的算法能夠理解 “for someone” 這個(gè)詞的語(yǔ)境,從而意識(shí)到這是一個(gè)關(guān)于你是否能向別人拿處方的問(wèn)題,然后返回到正確的結(jié)果。
據(jù)了解,調(diào)整后的算法基于 BERT(雷鋒網(wǎng)按,Bidirectional Encoder Representations from Transformers),即“變壓器的雙向編碼器表示”。重要的是,BERT 不是把句子當(dāng)做“詞袋”來(lái)對(duì)待的,而是把句子中的所有單詞作為一個(gè)整體來(lái)看待,這么做能夠讓它意識(shí)到“for someone”對(duì)句子的意義至關(guān)重要, 是不能夠被省略的。
值得一提的是,BERT 是通過(guò)自我學(xué)習(xí)去注意到這些詞的。Google 搜集了一個(gè)英語(yǔ)句子的語(yǔ)料庫(kù),隨機(jī)刪除了 15% 的單詞,然后 BERT 被設(shè)置去指出被刪的單詞是什么。對(duì)此,高級(jí)研究員和研究高級(jí)副總裁 Jeff Dean 表示,隨著時(shí)間推移,這種訓(xùn)練會(huì)使 NLP 模型更有效地理解上下文。
另外,Google 還引用了另一個(gè)例子——“parking on a hill with no curb”。其中,“no”一詞對(duì)句子的查詢至關(guān)重要;但在實(shí)現(xiàn) BRET 算法之前的 Google 算法是忽略了這一點(diǎn)的。
Google 表示,在過(guò)去的幾天里,他們已經(jīng)推出了新的算法,新算法應(yīng)該會(huì)影響到美國(guó) 10% 的英語(yǔ)搜索查詢(其它語(yǔ)言和國(guó)家暫不討論)。
雷鋒網(wǎng)了解到,為了確保能夠改進(jìn)結(jié)果,所有對(duì)搜索的更改都要經(jīng)過(guò)一系列的測(cè)試。在這些測(cè)試中,其中有一項(xiàng)是用 Google 的人工審核隊(duì)伍來(lái)評(píng)估搜索結(jié)果的質(zhì)量,以此來(lái)訓(xùn)練該公司的算法。不僅如此,Google 還進(jìn)行了 live A/ live B 測(cè)試。
要知道,不是每次查詢都會(huì)受到 BERT 的影響,它只是 Google 用來(lái)對(duì)搜索結(jié)果排序的許多不同的工具中最新的一個(gè)。至于它們是如何協(xié)同合作的,這還是一個(gè)謎。其實(shí),Google 有意讓其中的一些過(guò)程保持神秘,以防止有人利用它的系統(tǒng)發(fā)送垃圾郵件。
而另一個(gè)重要的原因是:當(dāng)電腦利用機(jī)器學(xué)習(xí)做決定時(shí),很難知道為什么它要作出這些選擇。這就涉及到機(jī)器學(xué)習(xí)的“黑匣子”問(wèn)題,如果結(jié)果在某種程度上是錯(cuò)誤的話,是很難診斷出原因的。
Google 表示,他們已經(jīng)努力確保將 BERT 添加到算法中不會(huì)增加偏差——這是機(jī)器學(xué)習(xí)的一個(gè)常見(jiàn)問(wèn)題,機(jī)器學(xué)習(xí)的訓(xùn)練模型本來(lái)就存在偏差。此外,由于 BERT 是在一個(gè)巨大的英語(yǔ)句子語(yǔ)料庫(kù)中訓(xùn)練的,并且這個(gè)語(yǔ)料庫(kù)也有固有偏見(jiàn),因此,這也是一個(gè)值得關(guān)注的問(wèn)題。
Google 還表示,他們預(yù)計(jì)自己的算法不會(huì)引導(dǎo)流量產(chǎn)生什么重大變化,至少在大型出版商看來(lái)是這樣的。事實(shí)上,只要 Google 的搜索算法出現(xiàn)變化,整個(gè)網(wǎng)路都會(huì)關(guān)注。
另外,值得一提的是,由于 Google 的搜索排名有了變化,一些公司也變得生死未卜。其實(shí),每個(gè)通過(guò)網(wǎng)絡(luò)流量賺錢的人都應(yīng)該注意這一點(diǎn)。當(dāng)提及搜索結(jié)果的質(zhì)量時(shí),Payak 表示:
- 這是最大的一個(gè)......這是我們?cè)谶^(guò)去 5 年里所經(jīng)歷的最積極的變化,可能也是自一開(kāi)始以來(lái)最大的變化之一。
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。