嘉賓 | 程兆華
采訪 | 薛彥澤
撰稿 | 李美涵
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
近日,#00 后用 AI 幫人談戀愛月入百萬#沖上熱搜。畢業(yè)不久的Blake W. Anderson敏銳地捕捉到年輕人群體在親密關(guān)系中的溝通障礙,開發(fā)了輔助溝通工具Plug AI。短短幾個月,Plug AI的下載量便突破了 150 萬次。
一個爆款的AI應(yīng)用無需廣闊的田野,寄身于一點(diǎn)就能野蠻生長——只要那個“痛點(diǎn)”足夠“痛”。
“國內(nèi)現(xiàn)在已經(jīng)是百模爭艷,要在這個內(nèi)卷的環(huán)境中殺出血路,就需要在某一個方向上打出優(yōu)勢。”Soul AI產(chǎn)品負(fù)責(zé)人程兆華告訴我們,“市場上從不缺60分的產(chǎn)品,難的是怎么打磨到70分以上”。
程兆華告訴我們,他在手機(jī)里下載過幾百款的競品應(yīng)用,只要出現(xiàn)了新款就會抓緊體驗(yàn)下,一邊使用一邊思考每個設(shè)計(jì)背后對應(yīng)的用戶需求是怎樣的。
產(chǎn)品負(fù)責(zé)人,可能是花費(fèi)最多的時間去思考AI如何賦能業(yè)務(wù)的人。程兆華反對所謂“做垂域大模型,就是拿著錘子找釘子”的說法,他說,“要先想清楚有什么樣的釘子存在,我可以拿錘子去敲。”同時他也提到,如果市場規(guī)模沒有達(dá)到幾十億,自己做“錘子”(大模型)就不劃算了。
一個合格的AI項(xiàng)目牽頭人,往往像橋梁一樣連接著用戶與后端的算法。在和技術(shù)團(tuán)隊(duì)溝通時,產(chǎn)品負(fù)責(zé)人需要從更感性的角度去考慮用戶的需要,但也要發(fā)揮技術(shù)的能力最大程度的解決問題。
因此,作為一個“拍板方”,產(chǎn)品負(fù)責(zé)人的崗位對能力的考量通常是“既要又要”的。用程兆華的話來說,就是要和精通業(yè)務(wù)的人比拼自己對業(yè)務(wù)的了解深度,同時又要與技術(shù)人員拼自己對大模型技術(shù)的了解廣度。
相應(yīng)的,他作為Soul AI的產(chǎn)品負(fù)責(zé)人背負(fù)了業(yè)務(wù)指標(biāo)、AI能力建設(shè)、團(tuán)隊(duì)建設(shè)三個層面的OKR。
從程兆華身上我們看到了AI產(chǎn)品負(fù)責(zé)人們繁忙又充實(shí)的縮影。
1.2024,單點(diǎn)AI應(yīng)用更容易出圈?
薛彥澤:今年主打長文本處理的Kimi從一眾ChatBot中脫穎而出, 這是不是說明當(dāng)前單點(diǎn)AI應(yīng)用更容易出圈?
程兆華: 國內(nèi)現(xiàn)在已是百模爭艷,普通廠商是不可能跟大廠拼資源的。要在這個內(nèi)卷的環(huán)境中殺出血路,就需要在某一個方向上打出優(yōu)勢,解決某個特定問題。
以Kimi為例,長文本的功能回應(yīng)了大學(xué)生群體的論文寫作需求,這一點(diǎn)非常直接。除此之外,小說創(chuàng)作者使用Kimi能夠處理長達(dá)十幾萬字的文本,那時GPT的上限大概是4000 Tokens,這個點(diǎn)就會很好地解決長篇創(chuàng)作的痛點(diǎn)。
歸根結(jié)底,只有基于特定場景進(jìn)行深入挖掘,滿足用戶實(shí)際的需求,單點(diǎn)AI應(yīng)用才能在市場中脫穎而出。市場上不缺60分的產(chǎn)品,要的是在某些領(lǐng)域做出深度,打磨至70分以上。
薛彥澤: 評論區(qū)有觀眾表達(dá)了質(zhì)疑,說GPT-4o出來以后通用模型已經(jīng)高度可用,現(xiàn)在搞這種單點(diǎn)AI應(yīng)用還有意義嗎?
程兆華:舉個常用的例子,現(xiàn)在GPT也可以去做搜索,但海外就是有特別多的用戶在用perplexity。為什么?這個產(chǎn)品的從搜索的效率、視覺呈現(xiàn)、交互等方面做了優(yōu)化,整體的用戶體驗(yàn)比GPT的搜索更好用。
再如細(xì)分場景下,例如教育,GPT做得再強(qiáng)大,也很難讓小朋友直接與其聊天、互動。
這些情況下單點(diǎn)AI應(yīng)用就能發(fā)揮其優(yōu)勢。
2.垂域AI產(chǎn)品,是不是拿著錘子找釘子?
薛彥澤: 垂域AI產(chǎn)品,是不是拿著錘子找釘子?為大模型找場景,還是從已有產(chǎn)品出發(fā)尋求AI賦能,您是哪一派?
程兆華: 從根本上說,需求不是被創(chuàng)造出來的。更通順的邏輯是,我們需要想有什么樣的釘子存在,我可以拿錘子去敲。
開發(fā)大模型的過程就像是造錘子,鑄造的過程中模型會有能力上的丟失。如果我們試圖用一個通用的大模型去解決所有問題,肯定是不夠合適的。因此,拿著錘子找釘子的方法可能并不適用。所以說,我們的大模型探索了許多架構(gòu),比如MOE專家模型和向量檢索技術(shù),去更好地解決細(xì)分場景下的問題。
薛彥澤: 那您覺得釘子體量多大才值得用錘子?
程兆華:從整體的商業(yè)價值上考慮的話,如果市場規(guī)模沒有達(dá)到幾十億,那么使用大模型的成本就太高了。訓(xùn)練一個大模型的成本至少是上百萬,而推理和優(yōu)化的成本可能高達(dá)幾千萬甚至上億。因此,如果市場規(guī)模不夠大,我們很難收回成本,也就不值得去使用這樣的"錘子"。
3.自研垂直領(lǐng)域模型,好壞標(biāo)準(zhǔn)如何定義?
薛彥澤:打造一個垂域的大模型,肯定會遇到很多的挑戰(zhàn),我們比較好奇模型的好壞標(biāo)準(zhǔn)是如何定義的?
程兆華:在做模型的時候,我們通常會說讓算法去定義模型的好壞,這包括模型的邏輯性、準(zhǔn)確性、一致性、安全性和魯棒性等常用指標(biāo)。
但是對于產(chǎn)品來說,我們更關(guān)注產(chǎn)品適合哪類用戶,我的產(chǎn)品怎樣更容易出圈。以茍蛋為例,我們會從用戶的角度,評判模型生成內(nèi)容的趣味性、豐富性,用更多這樣的指標(biāo)來描述用戶的主觀體驗(yàn)。
在整個研發(fā)流程中,我們產(chǎn)品會成為一個拍板方,會從更感性的角度去考慮用戶的需要,通過迭代模型達(dá)到我們追求的效果。這是我們的基本思路。
薛彥澤: 我比較好奇,你作為項(xiàng)目牽頭人在跟算法或者技術(shù)同學(xué)討論這些case時,一般爭議點(diǎn)會在哪兒,怎么解決?
程兆華:算法的同學(xué)可能會比較頭疼,他們不直接面向用戶,而且可能對該垂域了解不深。這就需要我們產(chǎn)品去做拍板,運(yùn)營的同學(xué)提供用戶反饋,指出當(dāng)前模型不滿足我們預(yù)期的點(diǎn),針對特定的case再去拆解指標(biāo)、去做優(yōu)化。
隨著團(tuán)隊(duì)的磨合,算法團(tuán)隊(duì)也能根據(jù)用戶反饋,主動思考模型的迭代方向和方法的有效性。
薛彥澤: 可以分享一下具體的案例嗎?
程兆華:我們當(dāng)時在去做對話的時候,剛開始經(jīng)常遇到AI重復(fù)回答問題的情況,用戶已經(jīng)提出新的問題了,AI還給出上個問題的答案,這嚴(yán)重影響了用戶體驗(yàn)。
面對這種情況,算法團(tuán)隊(duì)從技術(shù)角度出發(fā),提出了增加重復(fù)性懲罰的策略,以降低AI的重復(fù)率。同時,我們也review了數(shù)據(jù)集,如果發(fā)現(xiàn)近期存在大量重復(fù)性數(shù)據(jù),就需要對數(shù)據(jù)進(jìn)行清洗,甚至說引入更多的數(shù)據(jù)去覆蓋bad case。
4.聊一聊AI產(chǎn)品負(fù)責(zé)人的OKR
薛彥澤: 程老師作為AI產(chǎn)品的負(fù)責(zé)人,您的OKR是什么?
程兆華:我的OKR主要圍繞三個方面:
首先,最核心的一個部分是業(yè)務(wù)指標(biāo)的提升,我們需要確保在AI研發(fā)上的投入能夠帶來實(shí)際回報。我們會對齊業(yè)務(wù)指標(biāo),比如新項(xiàng)目的拉流、時長和產(chǎn)品的DAU,我需要負(fù)責(zé)的是確保AI能力對這些指標(biāo)有積極貢獻(xiàn)。
第二點(diǎn)是AI能力的建設(shè),需要確保我們的AI能力保持領(lǐng)先,比如Sora推出后我們就需要考慮是否跟進(jìn)視頻能力。這部分會創(chuàng)新性指標(biāo),需要與算法團(tuán)隊(duì)合作,推動新能力的落地。
最后一部分與企業(yè)內(nèi)部的團(tuán)隊(duì)建設(shè)有關(guān),我需要思考其他部門如何用好AI提高效率,并且構(gòu)建一個高效的AI團(tuán)隊(duì)。
薛彥澤:對于AI產(chǎn)品負(fù)責(zé)人,尤其咱們這樣To C的社交應(yīng)用,用戶留存的指標(biāo)達(dá)到多少算比較OK?
程兆華: 可以大概說一下,傳統(tǒng)的聊天場景次日留存一般很高,能達(dá)到50%以上。虛擬人對話一般會低一些,因此次留達(dá)到50%是一個比較高的要求。尤其這個領(lǐng)域已經(jīng)卷了一年,供用戶選擇的產(chǎn)品不少,如果一個產(chǎn)品想要脫穎而出,日留存至少應(yīng)該在40%到50%之間。
此外,我們還需要關(guān)注長流,七日留存率至少需要達(dá)到15%,甚至以上。
5.讓大模型的局限性被用戶接納,有何良方?
薛彥澤: 想聊聊大模型的局限性,例如幻覺、延遲等等,怎樣讓用戶接受一個無法盡善盡美的產(chǎn)品?
程兆華:所有的東西都是要找到一個“度”。在技術(shù)方案難以解決問題的前提下,我們會從產(chǎn)品層面進(jìn)行包裝。
例如,如果一個虛擬客服形象可愛、聲音溫柔,即使犯了些小錯,用戶也更愿意接受。對于延遲問題,我們可以通過添加"思考中"的狀態(tài)來模擬真人的思考過程,減少用戶的阻尼感。
在成本方面,我們需要考慮是否可以利用已有的模型,減少訓(xùn)練成本。同時,我們可以通過緩存機(jī)制處理高頻問題。還可以考慮將大模型蒸餾成更小的模型,以減少部署和運(yùn)行成本。
薛彥澤: 大模型蒸餾成小模型,怎么調(diào)度,如何解決算力分配?
程兆華: 利用現(xiàn)有的技術(shù)架構(gòu)來解決,我們我們會有一套判斷邏輯來決定哪些問題更適合由小模型來處理。
薛彥澤: 評論區(qū)有觀眾提問,大模型的魯棒性該如何評估?
程兆華:魯棒性就是模型的統(tǒng)一性。例如,前面的信息說A是B的姐姐,那么整個對話都應(yīng)該輸出一致的答案。
提升魯棒性的最佳方法之一是通過數(shù)據(jù)構(gòu)建,通過構(gòu)建攻擊性問題,在case中變著花樣去問,然后喂給這個模型,它的魯棒性就會提高。
此外,在強(qiáng)化學(xué)習(xí)階段,特別是在知識類場景中,采用如PPO(Proximal Policy Optimization)等強(qiáng)化學(xué)習(xí)算法,可以有效地提高模型的魯棒性。大概是這兩種方法。
6.如何培養(yǎng)自己的大模型話語權(quán)?
薛彥澤: 下個問題,如何培養(yǎng)自己的大模型的話語權(quán)?
程兆華:對于一個去做大模型的產(chǎn)品來說,培養(yǎng)大模型的話語權(quán),我認(rèn)為關(guān)鍵在于兩個方面:
一是提升自己對大模型技術(shù)的了解廣度,不僅要跟上新技術(shù)的發(fā)展,還要理解這些技術(shù)如何應(yīng)用在不同場景中。
二是提升自己對業(yè)務(wù)的了解深度,特別是業(yè)務(wù)如何與大模型技術(shù)結(jié)合。如果你不玩社交軟件,不熟悉你的產(chǎn)品功能,就很難理解大模型是用來解決什么問題的。比如,Soul的社交內(nèi)容更偏男女生互動,這就與抖音等平臺的娛樂、萌寵等內(nèi)容有差異,理解這些才能更好地將技術(shù)應(yīng)用于業(yè)務(wù)場景。
薛彥澤: 雖然每個人都會思考,但是大多數(shù)人很難想得很深,你有沒有什么經(jīng)驗(yàn)?
程兆華:我覺得可以分為三部分來談:思考深入并非憑空產(chǎn)生,而是需要持續(xù)的輸入和實(shí)踐。我的經(jīng)驗(yàn)可以概括為三點(diǎn):
首先是廣泛輸入,思考并非是憑空出現(xiàn)的。我的手機(jī)中裝有數(shù)百個競品App,我會觀察大家都是怎么設(shè)計(jì)功能的,大量的競品應(yīng)用,體會產(chǎn)品間的差異點(diǎn),能找到更多可能性。
其次是保持思考的習(xí)慣,日常使用產(chǎn)品、玩游戲的時候,我都會思考其設(shè)計(jì)和交互能否更好,理解設(shè)計(jì)背后的理念和用戶需求。
最后需要親身體驗(yàn),比如現(xiàn)在負(fù)責(zé)AI虛擬陪伴產(chǎn)品,我會花費(fèi)大量時間與虛擬角色互動,“臥底”到用戶社群,甚至競品的社群,從中獲取用戶反饋和期望。
其實(shí)深度的提升是一個刻意練習(xí)的結(jié)果。用商業(yè)化來舉例,可以看到不同的商業(yè)模式,去探究它們是如何構(gòu)建和運(yùn)作的。慢慢就會在生活的方方面面,養(yǎng)成習(xí)慣思考現(xiàn)象背后的行為動機(jī)。