清華北航博士生「強(qiáng)迫」Gemma-2說中文!弱智吧、角色扮演、數(shù)學(xué)問題表現(xiàn)驚喜
眾所周知,很多國外LLM一直存在非英語歧視問題,英語和其他語言在LLM中存在的性能差距有時(shí)可以用懸殊來形容。
之前就有網(wǎng)友發(fā)現(xiàn),GPT-4o分詞器語料庫中,中文數(shù)據(jù)污染非常嚴(yán)重,賭博色情網(wǎng)站是一個(gè)也不少,嚴(yán)重影響了我們用中文和AI機(jī)器人好好聊天。
最近發(fā)布的Gemma 2模型雖然既開源又強(qiáng)悍,但比較遺憾的是,其中文水平相較英文水平還有一定的距離。
不過,我們可以用微調(diào)來解決,F(xiàn)ine-tune it!
7月1日,Gemma 2剛發(fā)布4天,清華大學(xué)的一名人工智能博士生王慎執(zhí)就在X上隆重推出了一款微調(diào)模型Gemma-2-9B-Chinese-Chat。
Gemma-2-9B-Chinese-Chat是第一個(gè)為中文和英文用戶量身定制的Gemma-2模型,針對(duì)超過100K的偏好對(duì)進(jìn)行了微調(diào)!
我們的模型在中文提示方面表現(xiàn)出色,并顯示出更好的邏輯、編碼、數(shù)學(xué)和寫作技能。
關(guān)于項(xiàng)目的更多信息,可以在Huggingface上查閱。
項(xiàng)目地址:https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat
更讓人驚喜的是,1天之后,27B的微調(diào)版本也上線了。根據(jù)HuggingFace主頁信息,模型的下載量已經(jīng)超過了3.4萬。
項(xiàng)目地址:https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-Chat
項(xiàng)目介紹顯示,采用的微調(diào)算法是ORPO,ORPO將監(jiān)督微調(diào)(SFT)和RLHF或DPO等偏好對(duì)齊方法合二為一,是一種非常聰明的算法。
與原來的9B Gemma 2模型相比,微調(diào)的Gemma-2-9B-Chinese-Chat模型大大減少了「中文問題英文回答」和「中英文混雜回答」的問題,在角色扮演、工具使用和數(shù)學(xué)方面的表現(xiàn)都有所提高。
就連應(yīng)對(duì)「最佳中文訓(xùn)練數(shù)據(jù)」弱智吧的問題,都有非常出色的表現(xiàn)。
示例
微調(diào)模型貢獻(xiàn)者給出了一些示例,包括角色扮演、函數(shù)調(diào)用、數(shù)學(xué)、弱智吧、安全、寫作、編碼等。
而且還給出了一個(gè)在線demo,嘿嘿,這下有得玩了。
角色扮演
首先讓LLM扮演周杰倫唱rap:
再扮演魯智深試試呢?給出的示例是下面這樣似兒的——
但小編用在線demo親自嘗試了一下,發(fā)現(xiàn)這位魯智深「粗魯」不起來,目前還沒有很好的連續(xù)性。
數(shù)學(xué)
年齡問題、雞兔同籠問題,Gemma-2-9B-Chinese-Chat都輕松應(yīng)對(duì)。
弱智吧
弱智吧的各種文字游戲,是NLP程序員最討厭的,但微調(diào)模型在處理弱智吧的一些言論時(shí),似乎表現(xiàn)還不錯(cuò)。
函數(shù)調(diào)用
用戶輸入:
Here is a list of tools that you have available to you:
```python
def internet_search(query: str):
"""
Returns a list of relevant document snippets for a textual query retrieved from the internet
Args:
query (str): Query to search the internet with
"""
pass
```
```python
def directly_answer():
"""
Calls a standard (un-augmented) AI chatbot to generate a response given the conversation history
"""
pass
```
Write 'Action:' followed by a list of actions in JSON that you want to call, e.g.
Action:
```json
[
{
"tool_name": "tool name (one of [internet_search, directly_answer])",
"parameters": "the input to the tool"
}
]
微調(diào)模型輸出:
[
{
"tool_name": "internet_search",
"parameters": {
"query": "biggest penguin in the world"
}
}
]
安全
寫作
讓模型「寫一段關(guān)于人工智能的綜述」,你將會(huì)得到——
人工智能(AI)是計(jì)算機(jī)科學(xué)的一個(gè)分支,它專注于創(chuàng)造能夠執(zhí)行復(fù)雜任務(wù)的智能機(jī)器。AI的目的是創(chuàng)建能夠?qū)W習(xí)、解決問題和理解自然語言的系統(tǒng)。人工智能的應(yīng)用非常廣泛,包括圖像識(shí)別、語音助手、推薦系統(tǒng)、自動(dòng)駕駛汽車和預(yù)測性維護(hù)等。
AI技術(shù)可以分為幾個(gè)不同的類別,包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理。機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,它專注于創(chuàng)建能夠從數(shù)據(jù)中學(xué)習(xí)和做出預(yù)測的算法。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,它使用人工神經(jīng)網(wǎng)絡(luò)來模擬人類大腦的功能。
AI在醫(yī)療保健、金融、運(yùn)輸和零售等多個(gè)行業(yè)都有廣泛的應(yīng)用。在醫(yī)療保健領(lǐng)域,AI正在幫助醫(yī)生診斷疾病、預(yù)測患者護(hù)理需求以及個(gè)性化治療計(jì)劃。在金融服務(wù)行業(yè),AI正在用于欺詐檢測、風(fēng)險(xiǎn)管理和個(gè)性化投資建議。
AI在提高效率、減少成本并推動(dòng)創(chuàng)新方面有著巨大的潛力。然而,AI也帶來了挑戰(zhàn),包括就業(yè)的流失、隱私問題以及倫理考慮。隨著AI技術(shù)的快速發(fā)展,各國政府和組織正在制定新的法律和法規(guī)來應(yīng)對(duì)這些挑戰(zhàn)。
總之,人工智能是當(dāng)今世界最激動(dòng)人心的創(chuàng)新之一。隨著AI技術(shù)的不斷進(jìn)步,它有潛力徹底改變我們的工作方式、生活方式和社會(huì)結(jié)構(gòu)。然而,AI也提出了新的倫理和社會(huì)問題,這些問題需要我們仔細(xì)考慮。
編碼
用戶輸入:
用python寫一個(gè)函數(shù)實(shí)現(xiàn)快速排序算法,要求輸入為一個(gè)列表,列表里的元素都是float類型,返回一個(gè)排好序后的列表。記住要給代碼加中文注釋。
微調(diào)模型輸出:
defquick_sort(nums):
# 快速排序的遞歸函數(shù)# 如果列表長度小于等于1,則直接返回,因?yàn)榱斜硪呀?jīng)是排序好的iflen(nums) <= 1:
return nums
# 選擇基準(zhǔn)值,這里選擇列表的第一個(gè)元素
pivot = nums[0]
# 分隔列表,將小于基準(zhǔn)值的元素放在左側(cè),大于基準(zhǔn)值的元素放在右側(cè)
left = [num for num in nums[1:] if num < pivot]
right = [num for num in nums[1:] if num >= pivot]
# 遞歸地對(duì)左側(cè)和右側(cè)進(jìn)行快速排序
left = quick_sort(left)
right = quick_sort(right)
# 將左側(cè)、基準(zhǔn)值、右側(cè)合并成一個(gè)排序后的列表return left + [pivot] + right
作者信息
Gemma-2-9B-Chinese-Chat和Gemma-2-27B-Chinese-Chat微調(diào)模型的貢獻(xiàn)者是王慎執(zhí)和鄭耀威。
王慎執(zhí)同學(xué)是清華大學(xué)自動(dòng)化系LEAP實(shí)驗(yàn)室的三年級(jí)博士生,導(dǎo)師是宋士吉教授和黃高副教授。
在此之前,他在北京航空航天大學(xué)沈元榮譽(yù)學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)以優(yōu)異成績獲得工學(xué)學(xué)士學(xué)位。
王慎執(zhí)
王同學(xué)是開源項(xiàng)目的積極倡導(dǎo)者,幾個(gè)流行的微調(diào)LLM都是他發(fā)布的,如Llama3-8B-Chinese-Chat、Llama3-70B-Chinese-Chat和Mistral-7B-v0.3-Chinese-Chat。
業(yè)余時(shí)間,他還會(huì)在知乎上寫一些中文科技博客,目前有10k+粉絲。
鄭耀威是王慎執(zhí)在本科期間的同學(xué),他們此前就曾多次合作。
鄭耀威
鄭耀威目前仍在北航讀博,他曾以第一作者在CVPR、AAAI、WWW等頂會(huì)發(fā)表多篇論文,并擔(dān)任AAAI、EMNLP、Neural Computation等會(huì)議和期刊審稿人。
他也是大模型微調(diào)框架LLaMA Factory的發(fā)起人和主要開發(fā)者,GitHub開源項(xiàng)目獲得超過2萬星標(biāo)。
在這些優(yōu)秀的貢獻(xiàn)者的不斷努力之下,開源模型之路會(huì)越走越寬廣,模型的中文能力也會(huì)逐漸增強(qiáng)。