有了ChatGPT,還需要操作系統(tǒng)嗎?
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
大模型引領(lǐng)的AI 2.0,遠(yuǎn)比想象來(lái)得更加猛烈。
尤其是被認(rèn)為最先被顛覆的搜索引擎領(lǐng)域,產(chǎn)學(xué)研界都蠢蠢欲動(dòng),對(duì)可預(yù)見的趨勢(shì)展開激辯。
沒有了用戶點(diǎn)擊,內(nèi)容提供商/廣告該怎么辦?未來(lái)將靠什么來(lái)賺錢?
對(duì)話即入口的交互方式,操作系統(tǒng)是不是就無(wú)需存在了?
傳統(tǒng)的智能推薦和搜索,又該往何處去?
……
帶著這些問題,CCF CTO Club最新一期CCF C3來(lái)到了小紅書,數(shù)位在推薦、搜索領(lǐng)域深耕多年的技術(shù)專家,聚焦于當(dāng)下信息分發(fā)、推薦搜索等熱議話題,進(jìn)行了分享和探討。
最終共吸引16000+人在線觀看,直播數(shù)據(jù)創(chuàng)歷史新高。接下來(lái)就帶你來(lái)一文看盡~
大模型帶來(lái)真正的個(gè)性化體驗(yàn)
ChatGPT會(huì)取代搜索引擎嗎?這個(gè)最先叩響的產(chǎn)業(yè)問題,也在會(huì)上進(jìn)行了深入的探討。
他們都對(duì)ChatGPT乃至大模型采取積極擁抱、但同樣謹(jǐn)慎審視的姿態(tài)。這其中最常提及的一個(gè)關(guān)鍵詞,就是個(gè)性化。
天津大學(xué)教授郝建業(yè)表示,傳統(tǒng)的推薦系統(tǒng)基于有限的用戶數(shù)據(jù),通過過擬合的方式進(jìn)行相似內(nèi)容的分發(fā),但其實(shí)無(wú)法真正了解用戶的心智變化。而有了大模型加持,能更好地理解用戶,帶來(lái)真正的智能化、個(gè)性化和人性化的體驗(yàn)。
具體提及到的一個(gè)重要價(jià)值,小紅書社區(qū)技術(shù)負(fù)責(zé)人夏侯談到了對(duì)于搜索中長(zhǎng)尾問題的應(yīng)用。
傳統(tǒng)的通用搜索中長(zhǎng)尾信息不足,這種情況下ChatGPT可以自動(dòng)生產(chǎn)內(nèi)容補(bǔ)充,以滿足更多個(gè)性化需求。正如New Bing中制定菜譜、旅行計(jì)劃等。
事實(shí)上,這恰好與小紅書的搜索方式不謀而合。更多通用搜索不能解決的長(zhǎng)尾問題,在小紅書上都能找到答案?;诖耍矘?gòu)成了小紅書不同于其他搜索的本質(zhì)區(qū)別。
小紅書技術(shù)副總裁風(fēng)笛在現(xiàn)場(chǎng)分享了他們背后推薦系統(tǒng)的技術(shù)創(chuàng)新與實(shí)踐,可謂是滿滿干貨。
據(jù)透露,目前小紅書app內(nèi)搜索用戶進(jìn)入率行業(yè)第二。產(chǎn)品形式主要是最上邊的搜索框以及下邊的信息流。內(nèi)容形態(tài)包括圖文、視頻、直播、商品等多元的內(nèi)容。對(duì)應(yīng)的機(jī)遇與挑戰(zhàn)主要來(lái)自四個(gè)方面:
多模異構(gòu)內(nèi)容推薦、去中心化分發(fā)、興趣多樣性和人群破圈、成本控制。
首先圍繞場(chǎng)景特點(diǎn),包括多模異構(gòu)內(nèi)容以及雙列的產(chǎn)品形態(tài)。風(fēng)笛坦言,雙列的方式并非是一個(gè)高效的產(chǎn)品形態(tài),是因?yàn)榻o到用戶可選擇的權(quán)利才堅(jiān)持到現(xiàn)在。
但推薦或搜索本質(zhì)上是高效的信息分發(fā)和信息匹配。小紅書又是如何解的呢?
實(shí)際設(shè)計(jì)上主要包括三個(gè)方面:從多元異構(gòu)價(jià)值對(duì)齊公式到模型融合的轉(zhuǎn)變;流量分配測(cè),從PID到在線流量匹配;重排側(cè),則主要是Whole Page重排。
具體到多模態(tài)內(nèi)容理解這一方面,傳統(tǒng)人工定義的層次化標(biāo)簽,無(wú)法完整刻畫圖文和視頻內(nèi)容。
風(fēng)笛透露,他們技術(shù)團(tuán)隊(duì)基于10億量級(jí)的圖文、視頻筆記進(jìn)行多模態(tài)預(yù)訓(xùn)練,隨后運(yùn)用到推薦系統(tǒng)中,獲得內(nèi)容的向量化表征。未來(lái)將打通內(nèi)容表征和行為表征,兩域聯(lián)合建模。
另一個(gè)公認(rèn)的技術(shù)挑戰(zhàn)來(lái)自新內(nèi)容冷啟——新內(nèi)容行為稀疏,行為表征學(xué)習(xí)不充分。他們一直在實(shí)時(shí)推薦上實(shí)現(xiàn)了分鐘級(jí)別的更新。
與此同時(shí),在多目標(biāo)融合這塊,替換掉傳統(tǒng)人工排序公式,通過AutoML領(lǐng)域的ES算法來(lái)尋找到最優(yōu)的個(gè)性化融合參數(shù)。
在興趣多樣性方面,風(fēng)笛表示會(huì)設(shè)置各種指數(shù)遺忘策略,對(duì)用戶的實(shí)時(shí)興趣做降權(quán),來(lái)平衡用戶的長(zhǎng)短期興趣。
除此之外,還分享了用戶增長(zhǎng)以及成本控制、算力優(yōu)化等方面的技術(shù)實(shí)踐,以及留下兩個(gè)問題探討:
如何做高效的興趣檢索?以及如何做留存建模?
搜推系統(tǒng)將往何處去?
事實(shí)上,整個(gè)工業(yè)界也都面臨著這兩個(gè)難題,而且隨著ChatGPT時(shí)代的到來(lái),挑戰(zhàn)也更加艱巨。
人機(jī)對(duì)話將更加頻繁,在實(shí)際業(yè)務(wù)場(chǎng)景中,如何在億級(jí)商品中抽取用戶感興趣的候選商品?搜推系統(tǒng)的召回階段就非常關(guān)鍵,直接決定了后續(xù)精排階段的成功與否。
形象地來(lái)說,召回決定了精排階段的巧婦會(huì)不會(huì)面臨無(wú)米之炊。
武漢大學(xué)李晨亮教授回溯了近幾年搜推系統(tǒng)召回階段的主要進(jìn)展和主流方法,并探討了未來(lái)的前沿趨勢(shì)。
他談到,當(dāng)前召回的主要目標(biāo),就是在保證低時(shí)延的情況下,更大地利用好用戶的場(chǎng)景信息和他的歷史行為數(shù)據(jù)。隨后重點(diǎn)談到了自深度學(xué)習(xí)興起,召回逐步經(jīng)歷了表示學(xué)習(xí)、交互式學(xué)習(xí)兩種方法。
以表示學(xué)習(xí)為例,主要有四個(gè)研究方向:雙塔模型/深度網(wǎng)絡(luò)模型、多興趣建模、長(zhǎng)尾數(shù)據(jù)處理、外部數(shù)據(jù)豐富場(chǎng)景語(yǔ)義,以此提煉商品和用戶的表征,識(shí)別用戶需求。
而在這兩年興起的交互式學(xué)習(xí)方面,李晨亮教授分享了他們目前的做法,簡(jiǎn)言之就是在商品側(cè)和產(chǎn)品側(cè)做交互式學(xué)習(xí)來(lái)分別提升他們的表征,進(jìn)而來(lái)優(yōu)化計(jì)算、降低開銷。
未來(lái),低時(shí)延依舊是一個(gè)無(wú)法逾越的障礙,召回也將來(lái)到大模型Cover一切場(chǎng)景或任務(wù),也就是多場(chǎng)景、多任務(wù)學(xué)習(xí)的一種趨勢(shì)。
用戶大模型可破之?
在主題報(bào)告分享結(jié)束后,來(lái)自中國(guó)人民大學(xué)教授徐君、天津大學(xué)教授郝建業(yè)、中科院副研究員敖翔、匯量科技首席人工智能官朱小強(qiáng)、小紅書社區(qū)技術(shù)負(fù)責(zé)人夏侯全面展望了智能推薦和搜索的未來(lái)。
首先論及的,就是大模型、AIGC的爆發(fā)帶來(lái)的機(jī)遇和挑戰(zhàn)。
搜索研究方向的徐君教授結(jié)合New Bing的例子談到大模型改變傳統(tǒng)互聯(lián)網(wǎng)的搜索習(xí)慣和廣告盈利模式。
以往是以點(diǎn)擊網(wǎng)頁(yè)排序的方式進(jìn)入到內(nèi)容提供商的網(wǎng)頁(yè)。網(wǎng)站可以依靠廣告來(lái)維持他們的運(yùn)營(yíng)。未來(lái)用戶不愿點(diǎn)擊,搜索引擎不能為網(wǎng)站引流,他們將靠什么活下去?
敖翔則表示偏樂觀的態(tài)度,他提出要積極擁抱新工具,一方面不要完全相信模型給出的結(jié)果,需要根據(jù)不同場(chǎng)景進(jìn)行評(píng)估,另一方面要多思考如何利用大模型,實(shí)現(xiàn)更多的價(jià)值。
來(lái)自工業(yè)界的朱小強(qiáng)持短期保守、長(zhǎng)期激進(jìn)的態(tài)度。短期內(nèi),大語(yǔ)言模型為企業(yè)提供私有數(shù)據(jù)之外的常識(shí);而從長(zhǎng)期來(lái)看,當(dāng)人們獲取信息方式發(fā)生變化,信息分發(fā)技術(shù)會(huì)迎來(lái)新的沖擊,原有的推薦形態(tài)和模型可能需要重新構(gòu)建,這是一把懸在我們頭上的劍。
夏侯提出未來(lái)3至5年面臨的挑戰(zhàn):傳統(tǒng)的搜索和推薦都是基于用戶點(diǎn)擊觸發(fā)的行為模式。過去單純以用戶點(diǎn)擊而驅(qū)動(dòng)的算法分發(fā)模式,正走向用戶行為+內(nèi)容理解雙輪并驅(qū)的分發(fā)模式,能否真正實(shí)現(xiàn)搜推一體化,更好地提升用戶行為效率呢?
既然趨勢(shì)已定,智能推薦和搜索引擎又該往何處去呢?
敖翔與郝建業(yè)教授都談到了用戶大模型的趨勢(shì)。
敖翔表示不管是做什么應(yīng)用,歸根結(jié)底都是在做用戶畫像。
能不能做一些使用者的基礎(chǔ)大模型,理解用戶行為,把用戶很多數(shù)據(jù)拿出來(lái)做分析,然后去做更精準(zhǔn)的畫像。這是下一階段應(yīng)該考慮的。
郝建業(yè)教授則是談及RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))對(duì)推薦系統(tǒng)的啟發(fā)。
他談到,以往因?yàn)閿?shù)據(jù)的片面和有限,導(dǎo)致用戶獎(jiǎng)勵(lì)函數(shù)也就是興趣建模非常不準(zhǔn)。
現(xiàn)在一方面,可從跨場(chǎng)景用戶的聯(lián)合建模這個(gè)角度來(lái)思考;另一方面,基于用戶長(zhǎng)期興趣建模。將不同場(chǎng)景數(shù)據(jù)真正融合起來(lái),去訓(xùn)練一個(gè)推薦領(lǐng)域的用戶獎(jiǎng)勵(lì)函數(shù)大模型,但這就要求企業(yè)各部門數(shù)據(jù)的打通以及數(shù)據(jù)的高質(zhì)量。
最后,針對(duì)這段時(shí)間高密度的技術(shù)爆發(fā),每位專家都對(duì)未來(lái)的智能推薦進(jìn)行了展望。
夏侯表示如果ChatGPT代表的是一種未來(lái)的操作系統(tǒng),那么推薦有可能變成一種底層操作系統(tǒng)的基本能力,就像今天的文檔打開或存儲(chǔ)一樣,將會(huì)反映在生活的方方面面,而非現(xiàn)在某個(gè)APP的幾個(gè)頁(yè)面。
朱小強(qiáng)和郝建業(yè)都談到了交互方式的改變。
朱小強(qiáng)則談到了交互方式的重構(gòu),一切服務(wù)都會(huì)以新的入口的方式呈現(xiàn)。正如當(dāng)年搜索引擎誕生,圍繞在旁的是“是能力還是入口”這一思考。
此外,他還談到現(xiàn)在都在說ChatGPT代表著操作系統(tǒng),如果更激進(jìn)一點(diǎn)的看法可能遠(yuǎn)遠(yuǎn)不止這樣,我們?yōu)槭裁催€需要操作系統(tǒng)呢?
敖翔也認(rèn)同“入口”這一觀點(diǎn),他感嘆既然觀點(diǎn)就這么趨同了,那就得自我革命了——看準(zhǔn)了直接往里殺,別猶豫。
郝建業(yè)則表示,以往大家習(xí)慣于用鼠標(biāo)和鍵盤,現(xiàn)在變成觸屏,未來(lái)這些東西可能都不復(fù)存在。
徐君教授則朝著更多領(lǐng)域方向展開想象。以往人工智能都是從其他行業(yè)“薅羊毛”借鑒靈感,現(xiàn)在是否有可能朝著反向輸出,比如幫助了解大腦,真正變成一件科學(xué)的事情。