騰訊元寶全面測(cè)評(píng)!國(guó)產(chǎn)AI“看劇”時(shí)代開(kāi)啟!讀懂《慶余年》范閑,揭秘奧特曼宮斗!打通騰訊生態(tài)“全村的希望”!
原創(chuàng) 精選編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
騰訊在大模型上的動(dòng)作姍姍來(lái)遲。
對(duì)于“后發(fā)”的抉擇,騰訊想得很清楚。
在“騰訊元寶”上線(xiàn)的發(fā)布會(huì)上,騰訊云副總裁、騰訊混元大模型負(fù)責(zé)人劉煜宏說(shuō),“雖然行業(yè)內(nèi)看起來(lái)火熱,但是中國(guó)移動(dòng)互聯(lián)網(wǎng)用戶(hù)規(guī)模12.32億,國(guó)內(nèi)AI頭部產(chǎn)品日活躍用戶(hù)規(guī)模僅數(shù)百萬(wàn)。這意味著AI產(chǎn)品的滲透率極低,不到1%?!?/p>
圖片
在這種情景之下,盡管大家的FOMO(害怕錯(cuò)過(guò))情緒很重,但先發(fā)不見(jiàn)得必然獲取到優(yōu)勢(shì)。豆包對(duì)于文心一言的反超就是一個(gè)例證。去年8月份推出的豆包,無(wú)論是下載量還是月活躍用戶(hù)數(shù)均超過(guò)了上半年就入局的文心一言。
因此,騰訊選擇了沉住氣,將更準(zhǔn)確地洞察用戶(hù)需求、內(nèi)部打磨產(chǎn)品作為自己的答案。
那么,后發(fā)的元寶能否帶來(lái)一些驚喜呢?
我們?yōu)樵獙毜哪P湍芰M(jìn)行了全方位的測(cè)評(píng)。同時(shí),背靠騰訊豐富的內(nèi)容生態(tài)是元寶的獨(dú)特優(yōu)勢(shì)和潛力,因此也對(duì)現(xiàn)在的內(nèi)容鏈接能力進(jìn)行了評(píng)測(cè),來(lái)看看元寶對(duì)微信、騰訊視頻、微信讀書(shū)等資源的利用情況。
圖片
在體驗(yàn)元寶之后,元寶給我留下最深印象的優(yōu)點(diǎn)就是——國(guó)內(nèi)AI終于開(kāi)始讀圖了!雖然豆包、Kimi也允許上傳圖片,但是他們本質(zhì)做的是OCR,只識(shí)字不識(shí)圖。
圖片
但元寶可以看懂,并且可以對(duì)畫(huà)面內(nèi)容進(jìn)行一些理解。
圖片
雖然Ta目前看不懂自己的梗圖,并且誤解自己是個(gè)理財(cái)APP。但總體來(lái)說(shuō)是個(gè)巨大的進(jìn)步。
圖片
至于缺點(diǎn),元寶沒(méi)有采取目前GPT、Kimi等比較主流的方法,會(huì)給每一個(gè)對(duì)話(huà)概括一個(gè)名字。方便用戶(hù)隨時(shí)回顧之前的對(duì)話(huà)內(nèi)容。
元寶在開(kāi)始新對(duì)話(huà)后,必須通過(guò)不斷地上拉才可以回顧之前的對(duì)話(huà)。在刪除聊天記錄時(shí)則會(huì)清楚全部的記錄(這個(gè)靈感是來(lái)自微信嗎),而且也尚未提供搜索,給人感覺(jué)不夠便利。
圖片
此外,元寶很有想法。不是那種被質(zhì)問(wèn)就馬上道歉說(shuō)是自己出幻覺(jué)的那種AI。
詳細(xì)的測(cè)評(píng)將從以下五個(gè)維度展開(kāi)。
圖片
一、自然語(yǔ)言處理能力
1.語(yǔ)言理解第一個(gè)題目由GPT-4o提供:
圖片
元寶的作答非常詳盡,因此只選取了建議部分:
圖片
從上述回答來(lái)看,元寶的理解比較深入,全面分析了給出的金融問(wèn)題,并符合邏輯地提供了有價(jià)值且易于理解的投資建議。
作為AI測(cè)試界的???,我們選擇了兩個(gè)“弱智吧”笑話(huà),對(duì)元寶進(jìn)行了測(cè)試。
第一個(gè)是生魚(yú)片是不是死魚(yú)片?以下是元寶的總結(jié):
圖片
另一個(gè)是經(jīng)典的爸媽結(jié)婚問(wèn)題:
圖片
2.語(yǔ)言生成選擇了一道高考作文題目交給元寶作答。
元寶的作文乍一看很唬人,細(xì)品一下會(huì)發(fā)現(xiàn)Ta一直在跑題,主要是模型起的標(biāo)題把自己帶偏了。
不過(guò)有意思的是,元寶無(wú)需提示就意識(shí)到了自己的作答身份,全篇以學(xué)生口吻完成。
二、信息檢索和知識(shí)問(wèn)答
首先檢索了OpenAI的新聞,完成度不錯(cuò)。OpenAI與普華永道的合作也是最新發(fā)生的事情。
圖片
但當(dāng)我用馬斯克為關(guān)鍵詞進(jìn)行搜索時(shí),元寶剛開(kāi)始的回答還很靠譜。
圖片
但隨著Ta思維的發(fā)散,Ta的答案走遠(yuǎn)了……
圖片
當(dāng)我追問(wèn)時(shí),元寶居然神奇的硬圓上了。(這就是元寶的性格,不會(huì)像其他模型那樣愛(ài)認(rèn)錯(cuò),下文還會(huì)提到)
圖片
三、任務(wù)執(zhí)行和實(shí)用工具
在任務(wù)執(zhí)行中,我們考察的是元寶的路線(xiàn)規(guī)劃能力。
圖片
在實(shí)用工具能力上,選擇了一道難度較大的行測(cè)題目,對(duì)元寶進(jìn)行了拷問(wèn)。
圖片
元寶經(jīng)過(guò)一通分析之后,也很好地找出了正確答案。
圖片
四、多模態(tài)交互能力
1.圖像理解
元寶的讀圖能力是我覺(jué)得最有趣的地方。
特別是Ta理解了照片拍攝的意圖,讓我感覺(jué)比較驚喜。
圖片
我甚至給元寶看了最近正在考慮組的房子戶(hù)型圖。元寶沒(méi)有像一般大模型那樣被質(zhì)疑后就爆發(fā)討好性人格,而是堅(jiān)持自我!(不過(guò)他應(yīng)該是把廚房當(dāng)成臥室了)。
圖片
2.圖像生成
元寶能根據(jù)古詩(shī)的含義進(jìn)行圖像生成。如果非常依賴(lài)上下文的詩(shī)表現(xiàn)可能不佳,例如“知否,知否,應(yīng)是綠肥紅瘦”,元寶可能會(huì)po上兩顆一紅一綠的樹(shù)上去。
圖片
生成的日常圖片逼真而有食欲。
圖片
五、騰訊內(nèi)容生態(tài)鏈接能力
首先讓元寶給我推薦值得關(guān)注的美食公眾號(hào)
圖片
方向是對(duì)的,但是質(zhì)量沒(méi)有那么好,里面有一些斷更一年多的公眾號(hào)也被收錄了。
同時(shí),在檢索最近發(fā)生的事情時(shí),元寶可以使用微信公眾號(hào)的優(yōu)質(zhì)資源整合作答。但是在交互時(shí),需要注意prompt的寫(xiě)法,我一開(kāi)始的問(wèn)法是“為什么要爆料”,此時(shí)元寶不會(huì)開(kāi)啟搜索,而是選擇進(jìn)行動(dòng)機(jī)的推測(cè)。
圖片
圖片
另外,在檢索熱播劇時(shí),元寶還會(huì)拉到騰訊視頻的答案,點(diǎn)擊可以在網(wǎng)頁(yè)端看視頻。不過(guò),在進(jìn)一步的測(cè)試中發(fā)現(xiàn),目前的元寶還不具備閱讀和理解視頻的能力。
圖片
其實(shí),依托騰訊龐大的生態(tài)。元寶完全有機(jī)會(huì)成為一個(gè)很好的個(gè)人助手。
期待元寶能打破APP之間那道無(wú)形的墻。這其中的想象力以及能釋放給用戶(hù)的便利可能遠(yuǎn)超你我的想象。
圖片
想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問(wèn):