自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

關(guān)于Quora是如何使用機(jī)器學(xué)習(xí)的?

人工智能 機(jī)器學(xué)習(xí)
2015年,公司的工程副總裁Xavier Amatriain,關(guān)于如何在Quora上使用機(jī)器學(xué)習(xí)給了一個(gè)很好的答案。從那時(shí)起,在Quora上使用機(jī)器學(xué)習(xí)發(fā)展的越來(lái)越快,我們不僅為現(xiàn)有的機(jī)器學(xué)習(xí)應(yīng)用程序開(kāi)發(fā)了更大更好的模型,而且還擴(kuò)展了我們使用機(jī)器學(xué)習(xí)的領(lǐng)域。

[[202181]]

2015年,公司的工程副總裁Xavier Amatriain,關(guān)于如何在Quora上使用機(jī)器學(xué)習(xí)給了一個(gè)很好的答案。從那時(shí)起,在Quora上使用機(jī)器學(xué)習(xí)發(fā)展的越來(lái)越快,我們不僅為現(xiàn)有的機(jī)器學(xué)習(xí)應(yīng)用程序開(kāi)發(fā)了更大更好的模型,而且還擴(kuò)展了我們使用機(jī)器學(xué)習(xí)的領(lǐng)域。在這個(gè)答案中,我將給出一個(gè)藍(lán)圖,來(lái)描繪出在2017年Quora是如何使用機(jī)器學(xué)習(xí)的。

機(jī)器學(xué)習(xí)使用實(shí)例

我將介紹產(chǎn)品的各個(gè)不同組成部分,并討論如何在其中使用機(jī)器學(xué)習(xí)。

1 .搜索信息

在Quora上分享知識(shí)的主要形式是問(wèn)答。一開(kāi)始,用戶可能會(huì)有一個(gè)問(wèn)題需要解答,或者會(huì)有一些 “信息需求”,他們想要得到滿足。在Quora上有一個(gè)用戶問(wèn)了一個(gè)新問(wèn)題之后,會(huì)有一套機(jī)器學(xué)習(xí)系統(tǒng)來(lái)對(duì)問(wèn)題進(jìn)行理解,即從問(wèn)題中提取信息,以幫助我們更容易地完成剩余的工作。所以,我將介紹一下這個(gè)問(wèn)題理解系統(tǒng)。

我們關(guān)心更多的是答案內(nèi)容的質(zhì)量,但這一切都基于問(wèn)題的質(zhì)量。我們有一個(gè)ML系統(tǒng),它拿到一個(gè)問(wèn)題,就會(huì)對(duì)問(wèn)題進(jìn)行質(zhì)量分類,以此來(lái)幫助我們區(qū)分高質(zhì)量和低質(zhì)量的問(wèn)題。除了問(wèn)題質(zhì)量,我們還決定了幾個(gè)不同的問(wèn)題類型,這幫助我們決定應(yīng)該如何在之后的流程中處理這些問(wèn)題。

最后,我們也會(huì)給不同主題的問(wèn)題標(biāo)記一個(gè)標(biāo)簽,標(biāo)簽決定了問(wèn)題的主題。當(dāng)大多數(shù)主題建模應(yīng)用程序處理一個(gè)大文本和一個(gè)短小的主題時(shí),我們會(huì)使用一個(gè)簡(jiǎn)短的問(wèn)題文本和超過(guò)100萬(wàn)個(gè)潛在主題來(lái)標(biāo)記這個(gè)問(wèn)題,這也使它成為一個(gè)更具挑戰(zhàn)性的問(wèn)題。

 

 

 

 

在所有的問(wèn)題理解模型中,我們會(huì)使用問(wèn)題本身及其內(nèi)容的特性,例如:提出問(wèn)題的用戶是誰(shuí),提此問(wèn)題的所在地區(qū)等等。

滿足用戶信息需求的另一種方法是,讓他們搜索現(xiàn)有的問(wèn)題,來(lái)答案他們正在尋找的問(wèn)題。我們有兩種主要的搜索系統(tǒng):Ask Bar search,在Quora主頁(yè)上會(huì)有最頂端的搜索欄,提供全文搜索,這是一個(gè)很深入的搜索,你可以通過(guò)點(diǎn)擊“搜索”來(lái)進(jìn)行訪問(wèn)。這些搜索系統(tǒng)使用不同的排序算法,它們?cè)谒阉魉俣取⑾嚓P(guān)性和結(jié)果的廣度和深度上有所不同。

2.得到問(wèn)題的答案

問(wèn)題理解系統(tǒng)的輸出在一個(gè)問(wèn)題的生命周期中形成了一個(gè)重要的輸入:得到專家的答案。在這里也有機(jī)器學(xué)習(xí)系統(tǒng),幫助我們更好地解決這個(gè)問(wèn)題。

問(wèn)答是Quora的一個(gè)特點(diǎn),它允許用戶向其他用戶發(fā)送請(qǐng)求,讓他們?yōu)橐粋€(gè)特定的問(wèn)題寫(xiě)答案。我們將請(qǐng)求答案看成是一個(gè)機(jī)器學(xué)習(xí)問(wèn)題。所以,我們?cè)谶@篇博文中重點(diǎn)討論了系統(tǒng)的細(xì)節(jié):應(yīng)用于請(qǐng)求答案的機(jī)器學(xué)習(xí)問(wèn)題。

在A2A之外,我們的主要方法是通過(guò)Quora的主頁(yè)來(lái)匹配專家答案的問(wèn)題。對(duì)我們來(lái)說(shuō),排序問(wèn)題是一個(gè)非常重要的問(wèn)題。我們考慮如上所述的問(wèn)題屬性,用戶屬性,以及原始的和派生的特性作為排序模型的輸入,生成一個(gè)局部的、相關(guān)的和個(gè)性化的提要。這是幾天前我提供的截屏。

 

 

 

 

3.讀取內(nèi)容

正如你在上面看到的,它不僅可以包含你可以編寫(xiě)答案的問(wèn)題,它還包括值得閱讀的答案。對(duì)我們來(lái)說(shuō),答案的排序是另一個(gè)重要的問(wèn)題。問(wèn)題排序和答案排序使用類似的底層系統(tǒng),但這兩個(gè)有著不同的目標(biāo),因此,在其底層模型中會(huì)使用不同的特性集。另一個(gè)使用機(jī)器學(xué)習(xí)對(duì)值得閱讀的答案進(jìn)行排序的方式,是我們發(fā)送給用戶的電子郵件摘要。所有這些排序問(wèn)題都是由高級(jí)的ML系統(tǒng)提供的,這些系統(tǒng)使用多個(gè)模型和許多不同的特性來(lái)得出最終的排序。

一旦用戶發(fā)現(xiàn)了一個(gè)有趣的問(wèn)題,我們要確保他們?cè)赒uora上有很好的閱讀體驗(yàn)。問(wèn)題的答案排序是一個(gè)重要的ML應(yīng)用程序,它確保了一個(gè)給定問(wèn)題的最相關(guān)的答案會(huì)排在最靠前的位置。我們?cè)谶@里詳細(xì)討論了如何用ML系統(tǒng)進(jìn)行答案排序:機(jī)器學(xué)習(xí)方法應(yīng)用于Quora上的答案排序。在答案的基礎(chǔ)上,我們也做評(píng)論排序,以確保你能在上面看到最相關(guān)的答案。所有這些排名系統(tǒng)不僅僅是根據(jù)簡(jiǎn)單的贊同或反對(duì)的評(píng)論來(lái)排序,同時(shí)也根據(jù)這些用戶的特征,評(píng)論內(nèi)容的質(zhì)量,以及活動(dòng)參與等角度,以得出最終排名。

我們也要確保在你閱讀了一個(gè)問(wèn)題的答案后,你仍有很好的途徑來(lái)找到問(wèn)題相關(guān)的內(nèi)容,并且能讓你繼續(xù)保持良好的閱讀體驗(yàn)。一個(gè)由機(jī)器學(xué)習(xí)推動(dòng)的產(chǎn)品特性是相關(guān)問(wèn)題。我們?cè)趩?wèn)題頁(yè)面上顯示相關(guān)的問(wèn)題,這可以幫助用戶更容易地瀏覽Quora上的問(wèn)題,也幫助你在Quora上進(jìn)行導(dǎo)航,比如相關(guān)話題(在主題頁(yè)上顯示)和熱門(mén)話題(在主頁(yè)上顯示)。在主頁(yè)上,我們還展示了一些主題供用戶關(guān)注,它們都是基于我們對(duì)用戶的了解而進(jìn)行的個(gè)性化推薦。

 

 

 

 

上述ML系統(tǒng)的一個(gè)非常重要的元素是個(gè)性化。個(gè)性化包括使產(chǎn)品和基礎(chǔ)系統(tǒng)與Quora的每一個(gè)用戶相關(guān)聯(lián)。使ML系統(tǒng)個(gè)性化的一個(gè)重要組成部分是對(duì)用戶的理解機(jī)制。作為用戶理解的一部分,我們觀察并獲取用戶的各種特性,例如他們喜歡或不喜歡的主題,他們?cè)诓煌I(lǐng)域的專業(yè)知識(shí)以及他們的社交網(wǎng)絡(luò)屬性。我們也有各種各樣的“user-entity”(用戶實(shí)體)推薦系統(tǒng),比如:用戶主題推薦、用戶之間推薦等。所有這些個(gè)性化推薦不僅為 “Reading”應(yīng)用程序提供了重要的基礎(chǔ),而且還可以將問(wèn)題與專家回答以及其他使用場(chǎng)景進(jìn)行匹配。

4.保持較高的內(nèi)容質(zhì)量

在Quora上,用戶體驗(yàn)的關(guān)鍵之一就是內(nèi)容質(zhì)量。我們要確保我們的問(wèn)題、答案、話題和其他內(nèi)容的高質(zhì)量,并且要一直保持高質(zhì)量。為了做到這一點(diǎn),我們使有一套機(jī)器學(xué)習(xí)系統(tǒng)來(lái)努力維護(hù)內(nèi)容質(zhì)量。以下是部分內(nèi)容介紹:

重復(fù)問(wèn)題檢測(cè):這涉及到檢測(cè)具有相同內(nèi)容的不同問(wèn)題,并將它們合并成一個(gè)統(tǒng)一的問(wèn)題。我們已經(jīng)詳細(xì)討論了重復(fù)問(wèn)題的檢索,甚至發(fā)布了一個(gè)重復(fù)的問(wèn)題數(shù)據(jù)集,并舉行了一場(chǎng)Kaggle競(jìng)賽供你參與。

濫用內(nèi)容檢測(cè):我們?cè)赒uora上有一項(xiàng)原則,“Be Nice, Be Respectful”(友善而尊重),但在網(wǎng)絡(luò)社區(qū)中保持這樣的原則總是很有挑戰(zhàn)性的。我們將機(jī)器學(xué)習(xí)與評(píng)論者結(jié)合在一起,以幫助識(shí)別攻擊性或傷害性的內(nèi)容,這樣我們就能更好地保護(hù)用戶,并確保他們有一個(gè)很棒的Quora體驗(yàn)。

垃圾郵件檢測(cè):對(duì)于大多數(shù)受歡迎的用戶生成內(nèi)容的應(yīng)用程序來(lái)說(shuō),垃圾郵件檢測(cè)是一個(gè)重要問(wèn)題,我們也一樣關(guān)注這個(gè)問(wèn)題。許多不同的ML系統(tǒng)會(huì)進(jìn)行聯(lián)合,共同處理垃圾郵件的內(nèi)容和發(fā)布的用戶。

還有許多其他的用于維護(hù)質(zhì)量的ML系統(tǒng),但考慮到空間的利益,暫時(shí)不會(huì)使用它們。

5.廣告優(yōu)化

2016年,我們也開(kāi)始做出商業(yè)化的努力。目前,展示的廣告與問(wèn)題頁(yè)面的內(nèi)容相關(guān)。我們使用機(jī)器學(xué)習(xí)來(lái)進(jìn)行廣告CTR預(yù)測(cè),這確保我們展示的廣告與用戶相關(guān),同時(shí)這對(duì)廣告商來(lái)說(shuō)也是高性價(jià)比的合作。機(jī)器學(xué)習(xí)在商業(yè)化領(lǐng)域的擴(kuò)展才剛開(kāi)始,在接下來(lái)的幾個(gè)月和幾年里,我們將擴(kuò)大ML系統(tǒng)在這方面的使用。

 

 

 

 

當(dāng)然還有很多其他的機(jī)器學(xué)習(xí)系統(tǒng),但不會(huì)去使用它們,這是為了避免答案過(guò)于冗長(zhǎng)。

模型和庫(kù)

我們的團(tuán)隊(duì)使用最好的模型和工具來(lái)完成這項(xiàng)工作,同時(shí)也要確保我們?cè)谶@些工具中保持標(biāo)準(zhǔn)化和重用性。以下是我們使用的一些模型(沒(méi)有特別的順序):

邏輯回歸

彈性網(wǎng)絡(luò)

迭代決策樹(shù)

隨機(jī)森林

(深度)神經(jīng)網(wǎng)絡(luò)

LambdaMART

矩陣分解(SVD,BPR,加權(quán)ALS等)

矢量模型和其他NLP技術(shù)

k – means和其他聚類方法

等等

我們還支持一套廣泛的開(kāi)放資源和內(nèi)部庫(kù),用于完成諸如Tensorflow、sklearn、xgboost、lightgboost、RankLib、nltk、QMF(Quora自己的矩陣分解庫(kù))等工作。

ML平臺(tái)

自2015年以來(lái),另一個(gè)令人興奮的發(fā)展是建立了一個(gè)新的ML平臺(tái)團(tuán)隊(duì)。ML平臺(tái)團(tuán)隊(duì)的目標(biāo)是讓ML的工程師比其他公司更容易地使用機(jī)器學(xué)習(xí),包括線下(模型培訓(xùn))和線上(模型服務(wù))。在線上,ML平臺(tái)能幫助ML工程師構(gòu)建和部署高性能、搞效率、實(shí)時(shí)的機(jī)器學(xué)習(xí)系統(tǒng),這些系統(tǒng)具有很高的可靠性和可用性。在線下,ML平臺(tái)團(tuán)隊(duì)支持ML工程師構(gòu)建數(shù)據(jù)管道,以快速、標(biāo)準(zhǔn)化和可重用的方式進(jìn)行特征生成和訓(xùn)練模型。

在Quora上有一個(gè)專門(mén)的平臺(tái)團(tuán)隊(duì)支持機(jī)器學(xué)習(xí),這有助于加速M(fèi)L開(kāi)發(fā)的速度。它也使我們的系統(tǒng)能夠每天處理越來(lái)越大的數(shù)據(jù)。我們將在未來(lái)分享更多關(guān)于ML平臺(tái)團(tuán)隊(duì)及其發(fā)展的細(xì)節(jié)。 

責(zé)任編輯:龐桂玉 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2017-09-01 18:17:40

2015-08-03 10:40:59

程序員代碼質(zhì)量Quora

2020-07-24 10:52:45

人工智能

2017-06-14 19:05:51

機(jī)器學(xué)習(xí)Quora應(yīng)用場(chǎng)景

2016-02-01 09:24:24

Quora排行算法

2020-12-31 14:30:23

機(jī)器學(xué)習(xí)人工智能程序

2017-08-07 18:35:52

機(jī)器學(xué)習(xí)統(tǒng)計(jì)與計(jì)算發(fā)展啟示

2020-10-28 14:38:41

Maven

2021-04-26 13:22:55

人工智能機(jī)器學(xué)習(xí)

2023-02-03 11:40:49

機(jī)器學(xué)習(xí)分析情感

2017-07-07 14:41:13

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)JavaScript

2017-08-25 14:29:43

機(jī)器學(xué)習(xí)Java

2021-11-02 09:40:50

TensorFlow機(jī)器學(xué)習(xí)人工智能

2017-09-04 09:21:11

機(jī)器學(xué)習(xí)傻瓜指南

2017-08-31 11:09:48

機(jī)器學(xué)習(xí)比特幣

2020-11-16 11:56:57

機(jī)器學(xué)習(xí)技術(shù)工具

2024-02-19 14:23:05

機(jī)器學(xué)習(xí)聯(lián)絡(luò)中心

2021-05-24 08:00:00

機(jī)器學(xué)習(xí)數(shù)據(jù)云計(jì)算

2021-03-09 19:42:27

機(jī)器學(xué)習(xí)治理機(jī)器學(xué)習(xí)

2022-04-01 15:39:13

機(jī)器學(xué)習(xí)讓孩子們軟件交付
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)