自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<meter id="zkmwz"><samp id="zkmwz"></samp></meter>

<legend id="zkmwz"><track id="zkmwz"><dfn id="zkmwz"></dfn></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

文本理解算法在抖音風(fēng)控上的應(yīng)用

原創(chuàng) 精選

作者：字節(jié)跳動技術(shù)團(tuán)隊(duì) 2022-07-13 16:42:35

移動開發(fā) 移動應(yīng)用

在反作弊場景中，黑產(chǎn)必須通過文本進(jìn)行信息傳遞或觸達(dá)受害者，而文本由于其生產(chǎn)成本低廉、傳遞信息能力強(qiáng)的特點(diǎn)成為了黑產(chǎn)與我們進(jìn)行對抗的主要戰(zhàn)場。

作者｜張冀朱丹翔

背景

對抗是反作弊永恒的主旋律，面對對抗我們需要做到快速響應(yīng)、見招拆招、在變化中發(fā)現(xiàn)不變的本質(zhì)。

在反作弊場景中，黑產(chǎn)必須通過文本進(jìn)行信息傳遞或觸達(dá)受害者，而文本由于其生產(chǎn)成本低廉、傳遞信息能力強(qiáng)的特點(diǎn)成為了黑產(chǎn)與我們進(jìn)行對抗的主要戰(zhàn)場。文本理解算法為應(yīng)對各類強(qiáng)對抗提供了文本檢索、文本風(fēng)險標(biāo)簽、風(fēng)險信息提取的能力，以及一個文本模型訓(xùn)練平臺。這些能力的組合使用可有效打擊文本內(nèi)容維度的作弊行為，現(xiàn)已在反作弊的各業(yè)務(wù)場景中得到應(yīng)用。

文本檢索

如上所述反作弊風(fēng)控就是一個和黑產(chǎn)持續(xù)強(qiáng)對抗的過程，而強(qiáng)對抗的一個顯著特點(diǎn)就是快速的變化，所以常規(guī)的先收集標(biāo)注數(shù)據(jù)再訓(xùn)練模型的方式很難跟得上黑產(chǎn)變化的腳步。此外，黑產(chǎn)為了更多的獲利，通常會采用廣撒網(wǎng)的策略大批量將相似文本內(nèi)容投放到平臺。因此，由文本黑庫和回掃構(gòu)成的、只需單條標(biāo)注數(shù)據(jù)的相似文本檢索能力便成了我們應(yīng)對這種快速變化的有力武器，可有效識別存量和增量的問題文本，進(jìn)行合理的處置。

字面相似 vs 語義相似

一般來講文本的相似大體可以分為字面相似和語義相似兩種：

字面相似：兩條文本只有極少字符不一樣則被認(rèn)為是字面相似的

想要看片加我微
想要看片加我微信

語義相似：通常刻畫同一件事情的兩條文本被認(rèn)為是語義相似的

勿信海外高薪，避免上當(dāng)受騙，天上不會掉餡餅。
不要被高薪所誘惑，天上不會掉餡餅，請朋友們遠(yuǎn)離詐騙

字面相似較語義相似條件更為嚴(yán)格，因此更加準(zhǔn)確更適用于黑庫，而語義相似則有更強(qiáng)的召回能力，更適用于回掃。

文本回掃 vs 黑庫

適用場景

	檢索目標(biāo)	索引特點(diǎn)	適用場景
回掃	大盤全量數(shù)據(jù)	1. 大而全； 2. 與數(shù)據(jù)源綁定，不能隨意定制索引內(nèi)容； 3. 不支持樣本隨機(jī)增刪	離線；主要用于作弊內(nèi)容歷史存量治理
黑庫	有限樣本，一般為黑灰產(chǎn)作弊內(nèi)容。（也可以把黑庫當(dāng)白庫用，存儲白樣本）	1. 小而精； 2. 用戶可自定義創(chuàng)建自己的內(nèi)容索引庫； 3. 支持樣本隨機(jī)增刪	在線；主要用于新增作弊內(nèi)容管控

技術(shù)方案

回掃：從大盤在線獲取數(shù)據(jù)建立索引，用戶離線檢索結(jié)果

黑庫：從用戶離線獲取數(shù)據(jù)建立索引，在線檢索結(jié)果

能力提供

回掃

提供語義相似檢索、關(guān)鍵詞檢索
分鐘級延遲

黑庫
提供語義相似檢索、字面相似檢索、實(shí)體級相似檢索、布爾規(guī)則檢索、多模相似檢索
秒級延遲
為防止入庫樣本發(fā)生誤傷，提供前置防誤傷及線上灰度標(biāo)簽?zāi)芰?/li>

自動任務(wù)

為了對黑產(chǎn)的變化進(jìn)行更快速的響應(yīng)及更有效地利用人工審核數(shù)據(jù)，搭建了一套結(jié)合黑庫和回掃的自動任務(wù)流，該流程讓審出數(shù)據(jù)在短時間內(nèi)便可起到上線攔截和存量處罰的作用

風(fēng)險標(biāo)簽

雖然黑產(chǎn)使用的文本在快速的變化，但只要黑產(chǎn)的目標(biāo)是明確的，那么其使用的文本在類別語義層面便具有不變性。RiskText 風(fēng)控文本標(biāo)簽體系便是針對抖音風(fēng)控場景中一些主要語義類別設(shè)計的一套文本標(biāo)簽集

標(biāo)簽體系

為什么要標(biāo)簽體系

如果我們每次都是針對某個非常具體的業(yè)務(wù)場景使用少量特定場景數(shù)據(jù)訓(xùn)練模型，例如評論色導(dǎo)、評論賭博導(dǎo)流等模型，那么會有以下問題：

標(biāo)簽未進(jìn)行合理抽象，時效性明顯，只適用于解決臨時的、特定的業(yè)務(wù)問題，黑產(chǎn)變了模型就失效了
由于數(shù)據(jù)量少，且無法長期積累，模型效果得不到保障
數(shù)據(jù)來源雜亂且質(zhì)量沒有保證，導(dǎo)致標(biāo)簽質(zhì)量沒有保障
模型與具體業(yè)務(wù) case 耦合度過高，很難進(jìn)行業(yè)務(wù)或場景復(fù)用
模型和標(biāo)簽過于雜亂，不利于維護(hù)和能力輸出

因此一套既具備可維護(hù)、可復(fù)用、魯棒性強(qiáng)等特點(diǎn)，又能很好解決業(yè)務(wù)風(fēng)控問題的文本分類標(biāo)簽體系就是我們需要的。

技術(shù)方案

模型架構(gòu)：多 channel 輸入對同音、形近變體更加魯棒

訓(xùn)練方法：樣本增廣 + 一致性訓(xùn)練

樣本降噪：解決數(shù)據(jù)中的錯誤標(biāo)簽

自動迭代

主動學(xué)習(xí)提高審出
監(jiān)控看板保證質(zhì)量

風(fēng)險信息提取

黑產(chǎn)作弊文本經(jīng)常會包含一些關(guān)鍵信息，作弊手法會變但關(guān)鍵信息不易變（或者變化成本較高），如果能夠正確識別出文本中的關(guān)鍵信息，就能有效提升防御體系魯棒性。目前已有建設(shè) 3 種風(fēng)險信息提取能力：風(fēng)險聯(lián)系方式、風(fēng)險變體、風(fēng)險文本片段。其他場景下，比如電商業(yè)務(wù)中風(fēng)險地址提取，也能夠參考構(gòu)建類似能力。

風(fēng)險聯(lián)系方式

抖音是流量聚集地，黑產(chǎn)為了謀利往往會將流量引到端外，進(jìn)而實(shí)施違法行為，因此識別黑產(chǎn)留下的聯(lián)系方式是一項(xiàng)重要能力。

能力全景圖

從使用階段劃分，包含判別->提取->風(fēng)險分->風(fēng)險標(biāo)簽。

判別（有沒有聯(lián)系方式）：包含高準(zhǔn)、高召兩部分模型集，根據(jù)使用場景、治理階段不同選取相應(yīng)模型集。
提?。?lián)系方式在哪）：支持將提取出的變體聯(lián)系方式歸一化，并且有例行挖掘任務(wù)，不斷補(bǔ)充新型變體數(shù)字字母。
風(fēng)險分（有沒有風(fēng)險）：基于聯(lián)系方式風(fēng)險特征，訓(xùn)練得到風(fēng)險分模型。
風(fēng)險標(biāo)簽（風(fēng)險是啥）：也區(qū)分高準(zhǔn)和高召。高準(zhǔn)通過人工標(biāo)注，高召通過用戶-聯(lián)系方式二部圖標(biāo)簽擴(kuò)散方式得到。

風(fēng)險變體

黑產(chǎn)為了對抗文本識別能力，會對文本關(guān)鍵部分變體。由于大部分文本模型不會經(jīng)常更新，導(dǎo)致模型效果會隨著時間逐漸衰減。為了解決這個問題，將文本變體能力與下游文本能力解耦開，當(dāng)變體識別能力提升時，所有下游任務(wù)均可受益。

PS：如果黑產(chǎn)文本變體太快，會不會跟不上，這樣能力建設(shè)有啥意義？

前期的簡單變體，我們的能力都會覆蓋，越到后期，黑產(chǎn)創(chuàng)造新變體的成本會越高，更考驗(yàn)的是能力是否在不斷迭代更新。

技術(shù)方案

變體挖掘->變體判別->變體映射表流程可自動化運(yùn)行，不斷挖掘得到新變體。

風(fēng)險文本片段

黑產(chǎn)除了對關(guān)鍵信息變體，還會對非關(guān)鍵文本做話術(shù)變換。黑產(chǎn)為了表達(dá)意圖，關(guān)鍵信息不會很發(fā)散，來來回回可能就那幾個關(guān)鍵詞，但是會變換話術(shù)以此對抗識別模型，我們只需要從黑產(chǎn)發(fā)的大量文本中，找出表達(dá)意圖的關(guān)鍵信息，即可提升系統(tǒng)對話術(shù)變換的魯棒性。

技術(shù)方案

整體技術(shù)方案總結(jié)來說就兩步：

獲取文本重要黑特征（對應(yīng)圖中黑詞精篩表）。
挖掘特征之間的關(guān)系，挖掘結(jié)果導(dǎo)出為規(guī)則，挖掘算法使用的 FP-Growth。

責(zé)任編輯：未麗燕來源：字節(jié)跳動技術(shù)團(tuán)隊(duì)

黑產(chǎn)反作弊風(fēng)險

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營