自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Quora是如何使用機(jī)器學(xué)習(xí)的?

大數(shù)據(jù)
2015年,公司的工程副總裁Xavier Amatriain,關(guān)于如何在Quora上使用機(jī)器學(xué)習(xí)給了一個(gè)很好的答案。在這個(gè)答案中,我將給出一個(gè)藍(lán)圖,來描繪出在2017年Quora是如何使用機(jī)器學(xué)習(xí)的。

2015年,公司的工程副總裁Xavier Amatriain,關(guān)于如何在Quora上使用機(jī)器學(xué)習(xí)給了一個(gè)很好的答案。從那時(shí)起,在Quora上使用機(jī)器學(xué)習(xí)發(fā)展的越來越快,我們不僅為現(xiàn)有的機(jī)器學(xué)習(xí)應(yīng)用程序開發(fā)了更大更好的模型,而且還擴(kuò)展了我們使用機(jī)器學(xué)習(xí)的領(lǐng)域。在這個(gè)答案中,我將給出一個(gè)藍(lán)圖,來描繪出在2017年Quora是如何使用機(jī)器學(xué)習(xí)的。

[[202122]]

機(jī)器學(xué)習(xí)使用實(shí)例

我將介紹產(chǎn)品的各個(gè)不同組成部分,并討論如何在其中使用機(jī)器學(xué)習(xí)。

1. 搜索信息

在Quora上分享知識的主要形式是問答。一開始,用戶可能會(huì)有一個(gè)問題需要解答,或者會(huì)有一些 “信息需求”,他們想要得到滿足。在Quora上有一個(gè)用戶問了一個(gè)新問題之后,會(huì)有一套機(jī)器學(xué)習(xí)系統(tǒng)來對問題進(jìn)行理解,即從問題中提取信息,以幫助我們更容易地完成剩余的工作。所以,我將介紹一下這個(gè)問題理解系統(tǒng)。

我們關(guān)心更多的是答案內(nèi)容的質(zhì)量,但這一切都基于問題的質(zhì)量。我們有一個(gè)ML系統(tǒng),它拿到一個(gè)問題,就會(huì)對問題進(jìn)行質(zhì)量分類,以此來幫助我們區(qū)分高質(zhì)量和低質(zhì)量的問題。除了問題質(zhì)量,我們還決定了幾個(gè)不同的問題類型,這幫助我們決定應(yīng)該如何在之后的流程中處理這些問題。

最后,我們也會(huì)給不同主題的問題標(biāo)記一個(gè)標(biāo)簽,標(biāo)簽決定了問題的主題。當(dāng)大多數(shù)主題建模應(yīng)用程序處理一個(gè)大文本和一個(gè)短小的主題時(shí),我們會(huì)使用一個(gè)簡短的問題文本和超過100萬個(gè)潛在主題來標(biāo)記這個(gè)問題,這也使它成為一個(gè)更具挑戰(zhàn)性的問題。

搜索信息

在所有的問題理解模型中,我們會(huì)使用問題本身及其內(nèi)容的特性,例如:提出問題的用戶是誰,提此問題的所在地區(qū)等等。

滿足用戶信息需求的另一種方法是,讓他們搜索現(xiàn)有的問題,來答案他們正在尋找的問題。我們有兩種主要的搜索系統(tǒng):Ask Bar search,在Quora主頁上會(huì)有最頂端的搜索欄,提供全文搜索,這是一個(gè)很深入的搜索,你可以通過點(diǎn)擊“搜索”來進(jìn)行訪問。這些搜索系統(tǒng)使用不同的排序算法,它們在搜索速度、相關(guān)性和結(jié)果的廣度和深度上有所不同。

2. 得到問題的答案

問題理解系統(tǒng)的輸出在一個(gè)問題的生命周期中形成了一個(gè)重要的輸入:得到專家的答案。在這里也有機(jī)器學(xué)習(xí)系統(tǒng),幫助我們更好地解決這個(gè)問題。

問答是Quora的一個(gè)特點(diǎn),它允許用戶向其他用戶發(fā)送請求,讓他們?yōu)橐粋€(gè)特定的問題寫答案。我們將請求答案看成是一個(gè)機(jī)器學(xué)習(xí)問題。所以,我們在這篇博文中重點(diǎn)討論了系統(tǒng)的細(xì)節(jié):應(yīng)用于請求答案的機(jī)器學(xué)習(xí)問題。

在A2A之外,我們的主要方法是通過Quora的主頁來匹配專家答案的問題。對我們來說,排序問題是一個(gè)非常重要的問題。我們考慮如上所述的問題屬性,用戶屬性,以及原始的和派生的特性作為排序模型的輸入,生成一個(gè)局部的、相關(guān)的和個(gè)性化的提要。這是幾天前我提供的截屏。

3. 讀取內(nèi)容

正如你在上面看到的,它不僅可以包含你可以編寫答案的問題,它還包括值得閱讀的答案。對我們來說,答案的排序是另一個(gè)重要的問題。問題排序和答案排序使用類似的底層系統(tǒng),但這兩個(gè)有著不同的目標(biāo),因此,在其底層模型中會(huì)使用不同的特性集。另一個(gè)使用機(jī)器學(xué)習(xí)對值得閱讀的答案進(jìn)行排序的方式,是我們發(fā)送給用戶的電子郵件摘要。所有這些排序問題都是由高級的ML系統(tǒng)提供的,這些系統(tǒng)使用多個(gè)模型和許多不同的特性來得出最終的排序。

一旦用戶發(fā)現(xiàn)了一個(gè)有趣的問題,我們要確保他們在Quora上有很好的閱讀體驗(yàn)。問題的答案排序是一個(gè)重要的ML應(yīng)用程序,它確保了一個(gè)給定問題的最相關(guān)的答案會(huì)排在最靠前的位置。我們在這里詳細(xì)討論了如何用ML系統(tǒng)進(jìn)行答案排序:機(jī)器學(xué)習(xí)方法應(yīng)用于Quora上的答案排序。在答案的基礎(chǔ)上,我們也做評論排序,以確保你能在上面看到最相關(guān)的答案。所有這些排名系統(tǒng)不僅僅是根據(jù)簡單的贊同或反對的評論來排序,同時(shí)也根據(jù)這些用戶的特征,評論內(nèi)容的質(zhì)量,以及活動(dòng)參與等角度,以得出最終排名。

我們也要確保在你閱讀了一個(gè)問題的答案后,你仍有很好的途徑來找到問題相關(guān)的內(nèi)容,并且能讓你繼續(xù)保持良好的閱讀體驗(yàn)。一個(gè)由機(jī)器學(xué)習(xí)推動(dòng)的產(chǎn)品特性是相關(guān)問題。我們在問題頁面上顯示相關(guān)的問題,這可以幫助用戶更容易地瀏覽Quora上的問題,也幫助你在Quora上進(jìn)行導(dǎo)航,比如相關(guān)話題(在主題頁上顯示)和熱門話題(在主頁上顯示)。在主頁上,我們還展示了一些主題供用戶關(guān)注,它們都是基于我們對用戶的了解而進(jìn)行的個(gè)性化推薦。

上述ML系統(tǒng)的一個(gè)非常重要的元素是個(gè)性化。個(gè)性化包括使產(chǎn)品和基礎(chǔ)系統(tǒng)與Quora的每一個(gè)用戶相關(guān)聯(lián)。使ML系統(tǒng)個(gè)性化的一個(gè)重要組成部分是對用戶的理解機(jī)制。作為用戶理解的一部分,我們觀察并獲取用戶的各種特性,例如他們喜歡或不喜歡的主題,他們在不同領(lǐng)域的專業(yè)知識以及他們的社交網(wǎng)絡(luò)屬性。我們也有各種各樣的“user-entity”(用戶實(shí)體)推薦系統(tǒng),比如:用戶主題推薦、用戶之間推薦等。所有這些個(gè)性化推薦不僅為 “Reading”應(yīng)用程序提供了重要的基礎(chǔ),而且還可以將問題與專家回答以及其他使用場景進(jìn)行匹配。

4. 保持較高的內(nèi)容質(zhì)量

在Quora上,用戶體驗(yàn)的關(guān)鍵之一就是內(nèi)容質(zhì)量。我們要確保我們的問題、答案、話題和其他內(nèi)容的高質(zhì)量,并且要一直保持高質(zhì)量。為了做到這一點(diǎn),我們使有一套機(jī)器學(xué)習(xí)系統(tǒng)來努力維護(hù)內(nèi)容質(zhì)量。以下是部分內(nèi)容介紹:

重復(fù)問題檢測:這涉及到檢測具有相同內(nèi)容的不同問題,并將它們合并成一個(gè)統(tǒng)一的問題。我們已經(jīng)詳細(xì)討論了重復(fù)問題的檢索,甚至發(fā)布了一個(gè)重復(fù)的問題數(shù)據(jù)集,并舉行了一場Kaggle競賽供你參與。

濫用內(nèi)容檢測:我們在Quora上有一項(xiàng)原則,“Be Nice, Be Respectful”(友善而尊重),但在網(wǎng)絡(luò)社區(qū)中保持這樣的原則總是很有挑戰(zhàn)性的。我們將機(jī)器學(xué)習(xí)與評論者結(jié)合在一起,以幫助識別攻擊性或傷害性的內(nèi)容,這樣我們就能更好地保護(hù)用戶,并確保他們有一個(gè)很棒的Quora體驗(yàn)。

垃圾郵件檢測:對于大多數(shù)受歡迎的用戶生成內(nèi)容的應(yīng)用程序來說,垃圾郵件檢測是一個(gè)重要問題,我們也一樣關(guān)注這個(gè)問題。許多不同的ML系統(tǒng)會(huì)進(jìn)行聯(lián)合,共同處理垃圾郵件的內(nèi)容和發(fā)布的用戶。

還有許多其他的用于維護(hù)質(zhì)量的ML系統(tǒng),但考慮到空間的利益,暫時(shí)不會(huì)使用它們。

5. 廣告優(yōu)化

2016年,我們也開始做出商業(yè)化的努力。目前,展示的廣告與問題頁面的內(nèi)容相關(guān)。我們使用機(jī)器學(xué)習(xí)來進(jìn)行廣告CTR預(yù)測,這確保我們展示的廣告與用戶相關(guān),同時(shí)這對廣告商來說也是高性價(jià)比的合作。機(jī)器學(xué)習(xí)在商業(yè)化領(lǐng)域的擴(kuò)展才剛開始,在接下來的幾個(gè)月和幾年里,我們將擴(kuò)大ML系統(tǒng)在這方面的使用。

當(dāng)然還有很多其他的機(jī)器學(xué)習(xí)系統(tǒng),但不會(huì)去使用它們,這是為了避免答案過于冗長。

模型和庫

我們的團(tuán)隊(duì)使用最好的模型和工具來完成這項(xiàng)工作,同時(shí)也要確保我們在這些工具中保持標(biāo)準(zhǔn)化和重用性。以下是我們使用的一些模型(沒有特別的順序):

  • 邏輯回歸
  • 彈性網(wǎng)絡(luò)
  • 迭代決策樹
  • 隨機(jī)森林
  • (深度)神經(jīng)網(wǎng)絡(luò)
  • LambdaMART
  • 矩陣分解(SVD,BPR,加權(quán)ALS等)
  • 矢量模型和其他NLP技術(shù)
  • k – means和其他聚類方法
  • 等等

我們還支持一套廣泛的開放資源和內(nèi)部庫,用于完成諸如Tensorflow、sklearn、xgboost、lightgboost、RankLib、nltk、QMF(Quora自己的矩陣分解庫)等工作。

ML平臺

自2015年以來,另一個(gè)令人興奮的發(fā)展是建立了一個(gè)新的ML平臺團(tuán)隊(duì)。ML平臺團(tuán)隊(duì)的目標(biāo)是讓ML的工程師比其他公司更容易地使用機(jī)器學(xué)習(xí),包括線下(模型培訓(xùn))和線上(模型服務(wù))。在線上,ML平臺能幫助ML工程師構(gòu)建和部署高性能、搞效率、實(shí)時(shí)的機(jī)器學(xué)習(xí)系統(tǒng),這些系統(tǒng)具有很高的可靠性和可用性。在線下,ML平臺團(tuán)隊(duì)支持ML工程師構(gòu)建數(shù)據(jù)管道,以快速、標(biāo)準(zhǔn)化和可重用的方式進(jìn)行特征生成和訓(xùn)練模型。

在Quora上有一個(gè)專門的平臺團(tuán)隊(duì)支持機(jī)器學(xué)習(xí),這有助于加速M(fèi)L開發(fā)的速度。它也使我們的系統(tǒng)能夠每天處理越來越大的數(shù)據(jù)。我們將在未來分享更多關(guān)于ML平臺團(tuán)隊(duì)及其發(fā)展的細(xì)節(jié)。

責(zé)任編輯:趙寧寧 來源: 36大數(shù)據(jù)
相關(guān)推薦

2017-09-04 11:06:40

2015-08-03 10:40:59

程序員代碼質(zhì)量Quora

2017-06-14 19:05:51

機(jī)器學(xué)習(xí)Quora應(yīng)用場景

2016-02-01 09:24:24

Quora排行算法

2020-12-31 14:30:23

機(jī)器學(xué)習(xí)人工智能程序

2021-04-26 13:22:55

人工智能機(jī)器學(xué)習(xí)

2023-02-03 11:40:49

機(jī)器學(xué)習(xí)分析情感

2017-07-07 14:41:13

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)JavaScript

2017-08-25 14:29:43

機(jī)器學(xué)習(xí)Java

2021-11-02 09:40:50

TensorFlow機(jī)器學(xué)習(xí)人工智能

2024-02-19 14:23:05

機(jī)器學(xué)習(xí)聯(lián)絡(luò)中心

2021-05-24 08:00:00

機(jī)器學(xué)習(xí)數(shù)據(jù)云計(jì)算

2021-03-09 19:42:27

機(jī)器學(xué)習(xí)治理機(jī)器學(xué)習(xí)

2022-04-01 15:39:13

機(jī)器學(xué)習(xí)讓孩子們軟件交付

2019-10-23 08:00:00

Flask機(jī)器學(xué)習(xí)人工智能

2020-04-24 10:23:19

機(jī)器學(xué)習(xí)自動(dòng)化信息技術(shù)

2024-08-26 14:23:56

2017-05-05 09:56:08

神經(jīng)網(wǎng)絡(luò)模型繪畫

2023-12-21 17:05:46

機(jī)器學(xué)習(xí)MLOps人工智能

2016-02-25 09:31:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號