自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

快手提出億級(jí)別多模態(tài)短視頻百科體系——快知(Kuaipedia)

人工智能 知識(shí)圖譜
為了更好地理解和組織泛知識(shí)視頻,快手MMU聯(lián)合哈爾濱工業(yè)大學(xué)等提出業(yè)界首個(gè)多模態(tài)短視頻百科——快知(Kuaipedia)
引言

當(dāng)前,越來越多的短視頻用戶不僅希望利用碎片化的時(shí)間來休閑娛樂,也開始希望能夠在短視頻平臺(tái)中獲取更多知識(shí)。2021年,快手泛知識(shí)內(nèi)容播放量同比增長(zhǎng)58.11%,平臺(tái)全年有超過3300萬場(chǎng)泛知識(shí)直播 [1]。為了更好地理解和組織泛知識(shí)視頻,快手MMU聯(lián)合哈爾濱工業(yè)大學(xué)等提出業(yè)界首個(gè)多模態(tài)短視頻百科——“快知(Kuaipedia)”:通過多模態(tài)和知識(shí)圖譜技術(shù)從海量短視頻中挖掘大規(guī)模高質(zhì)量的知識(shí)視頻,并將其結(jié)構(gòu)化,形成體系化的短視頻百科知識(shí)庫,為用戶提供更好的知識(shí)獲取體驗(yàn),同時(shí)激發(fā)創(chuàng)作者創(chuàng)造優(yōu)質(zhì)知識(shí)內(nèi)容,構(gòu)建良性的知識(shí)分享生態(tài)。

論文鏈接:??https://arxiv.org/abs/2211.00732??

項(xiàng)目主頁:??https://github.com/Kuaipedia/Kuaipedia??

團(tuán)隊(duì)從快手海量短視頻中挖掘出億級(jí)別知識(shí)類視頻,并對(duì)其進(jìn)行了結(jié)構(gòu)化,構(gòu)建了千萬級(jí)詞條和知識(shí)點(diǎn)視頻百科體系?!翱熘↘uaipedia)”的提出有助于學(xué)界推動(dòng)AI通過多模態(tài)信息理解世界知識(shí),且在產(chǎn)業(yè)界落地有較大想象空間。

介紹

百科全書(Encyclopedia),可以追溯到希臘和羅馬,也是17-18世紀(jì)法國(guó)啟蒙運(yùn)動(dòng)的一個(gè)杰出的成果。知識(shí)百科通常是指一個(gè)是概要介紹人類全部知識(shí)或某一特定領(lǐng)域或?qū)W科的工具書或綱要,在互聯(lián)網(wǎng)急速發(fā)展的當(dāng)下,網(wǎng)絡(luò)百科成為知識(shí)新的載體,如維基百科、百度百科等。但這些百科通常以圖文、表格為載體,比較難以表達(dá)一些需要生動(dòng)演示的知識(shí),比如教程(How-to)類知識(shí)。圖一展示了使用圖文講述 “柴犬”-“怎么畫” 這一知識(shí)的困境。而通過短視頻,我們能夠很好地對(duì)這些知識(shí)進(jìn)行一個(gè)闡釋和學(xué)習(xí)。

具體視頻見??https://www.gifshow.com/fw/photo/3xhcmzgr9fq492m??。

圖一:圖文在how-to類知識(shí)上知識(shí)傳遞的困境,圖文來自短視頻的幀截圖

隨著內(nèi)容行業(yè)和媒體形態(tài)的不斷迭代,短視頻已經(jīng)越來越成為知識(shí)傳播者的主要媒介,尤其是在一些技能和特長(zhǎng)類的知識(shí)傳播,天然就有它的一些優(yōu)勢(shì)。而在當(dāng)下,盡管有公開的網(wǎng)絡(luò)百科中有視頻的內(nèi)容,但通常是偏簡(jiǎn)介形式(如秒懂百科),沒有將短視頻最大程度的進(jìn)行利用,因此短視頻在知識(shí)百科中的表達(dá)能力被嚴(yán)重低估。比如當(dāng)人們講到“柴犬”,人們除了“簡(jiǎn)介” 以外,還關(guān)注“怎么挑”、“怎么梳毛”、“怎么糾正護(hù)食”等。因此我們認(rèn)為將知識(shí)類的短視頻結(jié)構(gòu)化,構(gòu)成結(jié)構(gòu)化的短視頻百科是一條理解世界知識(shí)、幫助人類以更高效率傳播知識(shí)的有效途徑。

參考國(guó)家標(biāo)準(zhǔn)科普知識(shí),技能(How)類歸結(jié)為教程知識(shí),在快手海量的視頻中挖掘出高質(zhì)的知識(shí)視頻。此外,我們將短視頻中抽取的知識(shí)主體以詞條形式呈現(xiàn)(如柴犬),并抽取視頻中講解的該詞條具體的知識(shí)點(diǎn)(如柴犬-挑選、柴犬-護(hù)食糾正等),最終構(gòu)成了一個(gè)短視頻的百科知識(shí)體系,如圖二所示。

圖二:快知——多模態(tài)短視頻百科概覽

“快知(Kuaipedia)”的提出有以下幾個(gè)貢獻(xiàn):

“快知”的定義:我們開創(chuàng)性地定義了一個(gè)全新的多模態(tài)知識(shí)百科庫,以詞條、知識(shí)點(diǎn)、知識(shí)類短視頻以及它們間的關(guān)系共同構(gòu)成。這是業(yè)界首個(gè)結(jié)構(gòu)化的多模態(tài)短視頻百科。

構(gòu)建大規(guī)模短視頻百科的方法:我們提出使用知識(shí)視頻識(shí)別、詞條知識(shí)點(diǎn)挖掘、多模態(tài)知識(shí)鏈接的組合來構(gòu)建大規(guī)模的短視頻百科。并開創(chuàng)性提出“多模態(tài)知識(shí)鏈接”任務(wù),作為傳統(tǒng)實(shí)體鏈接的一個(gè)外延和擴(kuò)展。

富有潛力和想象空間的應(yīng)用:在學(xué)術(shù)上,“快知”以嶄新的知識(shí)點(diǎn)短視頻化組織形式,能夠突破目前機(jī)器僅靠圖文知識(shí)圖譜(KG)理解世界知識(shí)的上限,在KG的一些下游任務(wù)如實(shí)體鏈接、實(shí)體分類,或者NLP、CV等內(nèi)容理解下游任務(wù)上,有非常大的潛力。在產(chǎn)業(yè)界,“快知”這樣的形式能夠助力短視頻平臺(tái)進(jìn)行高效地運(yùn)營(yíng)、組織內(nèi)容,提升用戶對(duì)知識(shí)的理解與消費(fèi)效率。

?

技術(shù)概覽

為了實(shí)現(xiàn)上述的短視頻百科結(jié)構(gòu)化,核心技術(shù)包括以下三個(gè)主要步驟,如圖三所示。

知識(shí)視頻識(shí)別:通過多模態(tài)視頻預(yù)訓(xùn)練模型,理解并識(shí)別海量視頻中知識(shí)類視頻;

詞條和知識(shí)點(diǎn)挖掘:通過多源知識(shí)庫融合“自頂向下”構(gòu)建詞條體系,再通過對(duì)用戶搜索query挖掘“自底向上”構(gòu)建詞條與知識(shí)點(diǎn)關(guān)系,形成詞條知識(shí)點(diǎn)樹

多模態(tài)知識(shí)鏈接:創(chuàng)新性地?cái)U(kuò)展傳統(tǒng)“實(shí)體鏈接”任務(wù),提出通過多模態(tài)內(nèi)容理解技術(shù)將視頻鏈接到詞條(如柴犬)的某一個(gè)知識(shí)點(diǎn)(如護(hù)食糾正)上的“多模態(tài)知識(shí)鏈接”任務(wù)。

圖三:快知構(gòu)建技術(shù)鏈路

通過大量詳實(shí)的人工評(píng)測(cè),快知所挖掘的知識(shí)點(diǎn)與視頻已具備較高的準(zhǔn)確率和質(zhì)量。更詳細(xì)的算法和實(shí)驗(yàn)數(shù)據(jù)具體參見論文或者我們的Github主頁(見文章開頭)。

?

應(yīng)用

首先,“快知(Kuaipedia)”這樣的多模態(tài)短視頻百科體系,在學(xué)術(shù)界對(duì)于推動(dòng)AI理解世界知識(shí)的技術(shù)發(fā)展有極大的潛力。一方面,“快知”突破圖文和表格的局限,通過更豐富的知識(shí)點(diǎn)和短視頻來描述某一個(gè)實(shí)體或者概念,這種方式能夠推動(dòng)多模態(tài)知識(shí)圖譜技術(shù)的發(fā)展。另一方面,這些知識(shí)點(diǎn)和短視頻有助于AI更好地理解世界知識(shí),尤其是一些圖文難表述的 How-to 類知識(shí),這種多模態(tài)知識(shí)能夠增強(qiáng)AI對(duì)世界的理解,對(duì)KG、NLP、CV等領(lǐng)域的下游應(yīng)用都很有幫助。我們?cè)贑CKS實(shí)體鏈指的任務(wù)上,證明“快知”多模態(tài)知識(shí)的簡(jiǎn)單引入就能有效提升BERT在實(shí)體鏈接和在實(shí)體分類上的性能。

此外,“快知”在產(chǎn)業(yè)落地極具想象力,在短視頻生態(tài)向“泛知識(shí)”拓展的過程中,現(xiàn)有的形式約束了其傳播方式,“快知”通過結(jié)構(gòu)化的內(nèi)容,能提升平臺(tái)的運(yùn)營(yíng)和分發(fā)效率,更好地滿足用戶的求知訴求。我們將該項(xiàng)技術(shù)首先在健康垂類進(jìn)行了落地嘗試,快手健康團(tuán)隊(duì)此前以病種為組織維度,純?nèi)斯ね诰蛄艘慌鷥?yōu)質(zhì)PUGC內(nèi)容,但是存在疾病知識(shí)體系不完善、權(quán)威性知識(shí)視頻量級(jí)小等痛點(diǎn),難以高效率構(gòu)建完整、大規(guī)模、結(jié)構(gòu)化的疾病視頻體系。利用“快知”的技術(shù)后,自動(dòng)化地挖掘出了一批高質(zhì)量、有快手特色的知識(shí)點(diǎn)和知識(shí)視頻,豐富了疾病類內(nèi)容,比純?nèi)斯?gòu)建提效幾十倍。目前這批內(nèi)容已經(jīng)在快手App精選頁上線:點(diǎn)擊精選視頻流中某個(gè)疾病類視頻的「底部通欄」,喚起「快手健康」半屏頁,用戶可以消費(fèi)該視頻所屬詞條下的相關(guān)知識(shí)點(diǎn)和相關(guān)知識(shí)視頻,如圖四所示。

圖四:快知在健康場(chǎng)景落地

除健康外,“快知”還覆蓋了教育、美食、三農(nóng)、親子、法律、科技、金融等眾多領(lǐng)域的知識(shí)內(nèi)容,有著較大的應(yīng)用潛力。

?

結(jié)語

面對(duì)泛知識(shí)類內(nèi)容在短視頻行業(yè)的發(fā)展前景,我們提出了“快知(Kuaipedia)”多模態(tài)短視頻百科體系,從存量的海量短視頻內(nèi)容入手,通過多模態(tài)知識(shí)圖譜構(gòu)建技術(shù)挖掘出億級(jí)別高質(zhì)量的知識(shí)視頻,并將知識(shí)內(nèi)容結(jié)構(gòu)化,構(gòu)建業(yè)界首個(gè)大規(guī)模體系化的短視頻百科知識(shí)庫,其在學(xué)術(shù)界和產(chǎn)業(yè)界有較大的潛力和想象空間。

?

作者介紹

第一作者:潘浩杰

快手MMU知識(shí)圖譜中心成員,快知項(xiàng)目負(fù)責(zé)人,本碩畢業(yè)于浙大和港科大,曾在阿里云PAI負(fù)責(zé)大規(guī)模NLP算法與框架,在ACL、EMNLP、KDD、AIJ等頂會(huì)頂刊中發(fā)表10余篇論文,多項(xiàng)國(guó)內(nèi)和美國(guó)專利,詳見知乎。2021年加入快手。?

通訊作者:付瑞吉

快手MMU知識(shí)圖譜中心負(fù)責(zé)人,本碩博畢業(yè)于哈工大,中科大博士后。曾擔(dān)任科大訊飛AI研究院副院長(zhǎng),獲吳文俊人工智能科技進(jìn)步獎(jiǎng)一等獎(jiǎng)。在ACL、EMNLP、Coling、IJCAI、TASLP等國(guó)際會(huì)議和期刊上發(fā)表學(xué)術(shù)論文多篇,申請(qǐng)(獲得)國(guó)家發(fā)明專利四十余項(xiàng)。2021年加入快手。

合作老師:劉銘

教授/博士生生導(dǎo)師,哈爾濱工業(yè)大學(xué)計(jì)算學(xué)部。先后主持國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目課題、國(guó)家自然科學(xué)基金、中國(guó)博士后科學(xué)基金特別資助、中國(guó)博士后科學(xué)基金面上資助一等資助、黑龍江省面上基金等多項(xiàng)基金項(xiàng)目。獲黑龍江省科學(xué)技術(shù)一等獎(jiǎng),哈爾濱市科技成果,第六屆全國(guó)青年人工智能創(chuàng)新創(chuàng)業(yè)大會(huì)一等獎(jiǎng)。 近年來以第一作者或通訊作者發(fā)表CCFA/B類論文20余篇,參編教材一部,英文譯著一部。擔(dān)任NLPCC2020、CCKS2020、COLING2022知識(shí)圖譜領(lǐng)域主席,CCKS2019出版主席、CCKS2021評(píng)測(cè)主席、CCKS2022講習(xí)班主席。

參考文獻(xiàn)

[1] 快手,2022快手泛知識(shí)內(nèi)容生態(tài)報(bào)告.

[2] 國(guó)家標(biāo)準(zhǔn)委:知識(shí)管理框架,GB/T 23703.

責(zé)任編輯:王雪燕
相關(guān)推薦

2024-04-08 09:00:00

人工智能

2023-08-29 12:49:37

視頻應(yīng)用

2024-01-29 11:56:23

數(shù)據(jù)AI

2017-10-26 14:29:50

互動(dòng)百科

2015-04-17 15:23:10

互動(dòng)百科

2024-02-05 08:41:08

因果推斷快手短視頻應(yīng)用

2017-01-19 17:41:30

百科

2018-06-29 17:05:51

互動(dòng)百科

2024-01-04 10:19:48

2022-12-30 13:05:05

云計(jì)算

2022-03-16 09:33:13

模型算法智能

2023-02-13 11:43:26

CHATGPT人工智能

2015-06-23 16:18:26

性能優(yōu)化

2021-06-09 15:52:36

快手短視頻

2017-06-20 10:51:15

芒果

2017-02-09 17:05:03

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2015-06-23 11:23:26

行業(yè)百科頻道

2017-09-05 14:59:29

2019-01-17 23:03:20

邏輯AI技術(shù)快手
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)