通義千問(wèn)超越GPT4了?
這幾天阿里發(fā)布了最新的通義千問(wèn)大模型:通義千問(wèn)2.5,據(jù)說(shuō)其性能超越了GPT4的某個(gè)版本。大家可能都知道GPT4是地球上最強(qiáng)的大語(yǔ)言模型,各方面的表現(xiàn)都十分優(yōu)秀。
通義千問(wèn)的評(píng)測(cè)數(shù)據(jù)
不過(guò)超越GPT4這件事說(shuō)起來(lái)可能還是有點(diǎn)勉強(qiáng),很多媒體的證據(jù)只是在 OpenCompass 榜單上的一個(gè)主觀(guān)綜合評(píng)測(cè)得分,Qwen-Max-0403 的得分追平 GPT-4-Turbo-1106。主觀(guān)綜合的評(píng)測(cè)采用了真實(shí)人類(lèi)的評(píng)測(cè)結(jié)果,Qwen-Max-0403 是通義千問(wèn)的千億參數(shù)大模型,是閉源的,是4月3號(hào)的版本,最新的Qwen-Max是4月28號(hào)的版本,是通義千問(wèn)2.5底層的API模型。一般來(lái)說(shuō)新版本會(huì)比舊版本強(qiáng),所以得出通義千問(wèn)2.5超越GPT4的結(jié)論。
圖片
然后我又看了一下開(kāi)源模型的榜單,比較能打的是 Qwen1.5-110B-Chat,在HuggingFace的千億預(yù)訓(xùn)練模型的對(duì)比中排名第一,可以說(shuō)在開(kāi)源大模型中,通義千問(wèn)確實(shí)很能打。不過(guò) Qwen1.5-110B 發(fā)布的比較早,發(fā)布時(shí)間是兩個(gè)月之前,也不是當(dāng)前的通義千問(wèn)2.5。
圖片
鑒于通義千問(wèn)2.5發(fā)布的時(shí)間還短,所以公開(kāi)的評(píng)測(cè)數(shù)據(jù)還是比較少。不過(guò)阿里最近也發(fā)布了通義千問(wèn)2.5的部分開(kāi)源模型,并提供了一些評(píng)測(cè)指標(biāo)對(duì)比。Qwen2-72B相比Qwen1.5的千億模型的性能有了大幅提升,包括中英文能力、編程能力等,超越前陣子的Llama-3-70B更是不在話(huà)下,請(qǐng)看下圖中的部分?jǐn)?shù)據(jù):
圖片
完整的對(duì)比在這里:https://huggingface.co/Qwen/Qwen2-72B
單說(shuō)開(kāi)源大模型這塊,通義的評(píng)測(cè)指標(biāo)是遙遙領(lǐng)先的。
通義千問(wèn)真的有這么強(qiáng)了嗎?
不過(guò)光看評(píng)測(cè)指標(biāo)是不行的,很多大模型會(huì)針對(duì)評(píng)測(cè)數(shù)據(jù)集做專(zhuān)門(mén)的優(yōu)化,實(shí)踐才是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)。
正好這兩天我遇到了一個(gè)技術(shù)問(wèn)題:有個(gè)Docker容器實(shí)例的文件被我搞壞了,導(dǎo)致實(shí)例無(wú)法啟動(dòng),我想把這個(gè)搞壞的文件替換為原版本,但是我對(duì)這塊不熟,不知道該怎么辦?于是我想到了萬(wàn)能的大模型。
本著信任的態(tài)度,我先使用通義千問(wèn)嘗試解決這個(gè)問(wèn)題,以下是我的問(wèn)答:
圖片
先不說(shuō)這個(gè)方法是否可行,單說(shuō)這些操作就挺復(fù)雜的,創(chuàng)建鏡像、啟動(dòng)新容器、創(chuàng)建新鏡像、刪除舊容器,反正我也沒(méi)操作成功。
當(dāng)然我也沒(méi)在問(wèn)題中提到我的容器啟動(dòng)不起來(lái)了。但是如果容器能啟動(dòng)起來(lái),大模型也沒(méi)要讓我繞這么大的彎子,我直接啟動(dòng)后修改其中的文件不就行了嗎?還要?jiǎng)?chuàng)建鏡像后再啟動(dòng)一個(gè)新實(shí)例進(jìn)行修改?通義千問(wèn)無(wú)疑沒(méi)理解到位,或者把簡(jiǎn)單的問(wèn)題搞復(fù)雜了?,F(xiàn)在通義千問(wèn)回答問(wèn)題時(shí)會(huì)列出幾個(gè)參考網(wǎng)頁(yè),不知道是不是以為參考的文章質(zhì)量不夠?qū)е碌?,很多人都詬病?jiǎn)體中文的語(yǔ)料太差,難道我不經(jīng)意間就成了受害者?
無(wú)奈,看來(lái)還是錯(cuò)付了信任。再次求助GPT4,同樣的問(wèn)題,看看GPT4的回答:
圖片
根本就不需要那么麻煩,已經(jīng)停止的容器,也能訪(fǎng)問(wèn)它的文件系統(tǒng)。
實(shí)操后解決問(wèn)題,簡(jiǎn)單又快速。
當(dāng)然這只是一個(gè)個(gè)例,通義千問(wèn)寫(xiě)代碼、解決技術(shù)問(wèn)題的能力還是很強(qiáng)的,我也經(jīng)常使用,只是它有時(shí)候會(huì)出錯(cuò)。個(gè)人感覺(jué),出錯(cuò)的概率大于GPT4,我使用的過(guò)程中,GPT4基本沒(méi)有出現(xiàn)過(guò)大的問(wèn)題。大家搞技術(shù),有條件的還是應(yīng)該用GPT4,穩(wěn)定的節(jié)省時(shí)間。
使用Qwen2開(kāi)源模型
阿里最近開(kāi)源了一大批Qwen2模型,我們可以在huggingface下載這些模型,也可以在huggingface上體驗(yàn)這些模型:https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f。
直接使用Demo
huggingface上有一些模型體驗(yàn)Demo,其中Qwen2-72B 的體驗(yàn)地址是:https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct。
Qwen2-72B的性能還是挺不錯(cuò)的,這里分享幾個(gè)弱智吧的問(wèn)題給大家看看。
1、小明的爸爸媽媽為什么不邀請(qǐng)小明參加他們的婚禮?
圖片
2、生魚(yú)片是死魚(yú)片嗎?
圖片
3、小明的妻子生了一對(duì)雙胞胎。以下哪個(gè)推論是正確的?
圖片
Qwen2-72B回答這幾個(gè)問(wèn)題的邏輯有理有據(jù),看不出來(lái)什么問(wèn)題,回答效果確實(shí)不輸GPT4。
使用云環(huán)境鏡像
我在AutoDL上分享了一個(gè) Text Generation WebUI 的鏡像,大家可以一鍵啟動(dòng),使用最新的 Qwen2-7B 和 GLM-4-9B模型。
Text Generation WebUI 文字生成界的SD WebUI,一個(gè)用于大型語(yǔ)言模型的 Gradio Web 用戶(hù)界面。支持 transformers、GPTQ、AWQ、EXL2、llama.cpp(GGUF)、Llama 等多種模型格式。
鏡像內(nèi)置了一鍵啟動(dòng)器,可以一鍵運(yùn)行 Qwen2-7B、Qwen1.5-7B-Chat、Qwen1.5-32B-Chat、GLM-4-9B、ChatGLM3-6B、Yi-34B-Chat、 Yi-6B-Chat、Llama-3-8B-Instruct 等大語(yǔ)言模型,啟動(dòng)后可以使用OpenAI風(fēng)格的API、在瀏覽器進(jìn)行聊天對(duì)話(huà),還可以對(duì)大語(yǔ)言模型進(jìn)行微調(diào)訓(xùn)練。
鏡像地址:https://www.codewithgpu.com/i/oobabooga/text-generation-webui/yinghuoai-text-generation-webui
打開(kāi)頁(yè)面后,點(diǎn)擊右下角的“AutoDL創(chuàng)建實(shí)例”,即可開(kāi)啟一個(gè)GPU服務(wù)器實(shí)例,注意顯卡選擇3090或者4090,顯存需要在24G及以上才能玩的溜。
或者你也可以直接創(chuàng)建容器示例,在鏡像這里選擇“社區(qū)鏡像”,輸入 yinghuoai-text-generation-webui ,即可找到這個(gè)鏡像。
圖片
實(shí)例啟動(dòng)后,在服務(wù)器實(shí)例列表中點(diǎn)擊“JupyterLab”,進(jìn)入一個(gè)Web頁(yè)面。
圖片
在 JupyterLab 頁(yè)面中打開(kāi)“啟動(dòng)器”,這個(gè)鏡像內(nèi)置了很多模型,默認(rèn)啟動(dòng)的是 Qwen2-7B-Instruct,這些模型在24G顯存下都能跑起來(lái)。如果要運(yùn)行更大參數(shù)的模型,需要更多的顯存,成本比較高,有興趣的可以嘗試下。
圖片
啟動(dòng)成功后,我們可以看到一個(gè)Gradio的鏈接,點(diǎn)擊就會(huì)在瀏覽器打開(kāi) Text Generation WebUI。
圖片
另外 Text Generation WebUI 還支持通過(guò)API訪(fǎng)問(wèn)大模型,API定義兼容OpenAI協(xié)議,有興趣的請(qǐng)參考jupyterlab中的API使用說(shuō)明。
體驗(yàn)Qwen2-7B
進(jìn)入Text Generation WebUI后,需要先設(shè)置一下角色,在參數(shù)(Parameters)頁(yè)簽中,選擇“AI助理”。這個(gè)AI助理是我創(chuàng)建的,方便進(jìn)行中文對(duì)話(huà)。
圖片
在聊天(Chat)頁(yè)簽的右側(cè),有一個(gè)“Mode”,定義了大模型處理提示詞的模式,需要選擇“chat-instruct”。
圖片
然后我們就可以和它聊天了。
我這里用弱智吧的問(wèn)題分別對(duì) Qwen2-7B 和 GLM-4-9B 做了測(cè)試,結(jié)果不太理想。
Qwen2-7B的測(cè)試截圖:
圖片
GLM-4-9B的測(cè)試截圖:
圖片
看來(lái)幾十億參數(shù)的大模型還是不夠用,模型理解能力太差,企業(yè)要用還得是百億參數(shù)的模型,理解到位才能執(zhí)行正確的操作,否則就成了大家吐槽的對(duì)象。
不過(guò)大模型一直在進(jìn)步,參數(shù)越來(lái)越小,性能越來(lái)越強(qiáng),說(shuō)不定哪天70億參數(shù)規(guī)模也能有優(yōu)秀的理解能力。
大語(yǔ)言模型微調(diào)
微調(diào)可以讓大語(yǔ)言模型更符合業(yè)務(wù)的需要,包括技能和語(yǔ)言風(fēng)格等。
以上就是本文的主要內(nèi)容,做個(gè)簡(jiǎn)單的總結(jié)。
- 通義千問(wèn)發(fā)布的2.5確實(shí)有一戰(zhàn)之力,只是目前發(fā)布時(shí)間不久,社區(qū)的評(píng)測(cè)數(shù)據(jù)尚未展現(xiàn)其真實(shí)的戰(zhàn)力。
- 根據(jù)個(gè)人的使用感受,其性能表現(xiàn)似乎還不夠穩(wěn)定,和當(dāng)前的GPT4還有些差距。
- 對(duì)于企業(yè)部署開(kāi)源大模型,建議選擇百億以上的模型,從性能上看新發(fā)布的Qwen2-72B是個(gè)不錯(cuò)的選擇。
- 如果你想讓大語(yǔ)言模型更符合業(yè)務(wù)的需要,可以對(duì)它進(jìn)行微調(diào),注意準(zhǔn)備好足夠的訓(xùn)練數(shù)據(jù)。