自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華北航博士生「強(qiáng)迫」Gemma-2說中文!弱智吧、角色扮演、數(shù)學(xué)問題表現(xiàn)驚喜

人工智能 新聞
谷歌的Gemma 2剛剛發(fā)布,清華和北航的兩名博士生就已經(jīng)成功推出了指令微調(diào)版本,顯著增強(qiáng)了Gemma 2 9B/27B模型的中文通用對(duì)話、角色扮演、數(shù)學(xué)、工具使用等能力。

眾所周知,很多國外LLM一直存在非英語歧視問題,英語和其他語言在LLM中存在的性能差距有時(shí)可以用懸殊來形容。

之前就有網(wǎng)友發(fā)現(xiàn),GPT-4o分詞器語料庫中,中文數(shù)據(jù)污染非常嚴(yán)重,賭博色情網(wǎng)站是一個(gè)也不少,嚴(yán)重影響了我們用中文和AI機(jī)器人好好聊天。

最近發(fā)布的Gemma 2模型雖然既開源又強(qiáng)悍,但比較遺憾的是,其中文水平相較英文水平還有一定的距離。

不過,我們可以用微調(diào)來解決,F(xiàn)ine-tune it!

7月1日,Gemma 2剛發(fā)布4天,清華大學(xué)的一名人工智能博士生王慎執(zhí)就在X上隆重推出了一款微調(diào)模型Gemma-2-9B-Chinese-Chat。

圖片

Gemma-2-9B-Chinese-Chat是第一個(gè)為中文和英文用戶量身定制的Gemma-2模型,針對(duì)超過100K的偏好對(duì)進(jìn)行了微調(diào)!

我們的模型在中文提示方面表現(xiàn)出色,并顯示出更好的邏輯、編碼、數(shù)學(xué)和寫作技能。

關(guān)于項(xiàng)目的更多信息,可以在Huggingface上查閱。

圖片

項(xiàng)目地址:https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat

更讓人驚喜的是,1天之后,27B的微調(diào)版本也上線了。根據(jù)HuggingFace主頁信息,模型的下載量已經(jīng)超過了3.4萬。

圖片

項(xiàng)目地址:https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-Chat

項(xiàng)目介紹顯示,采用的微調(diào)算法是ORPO,ORPO將監(jiān)督微調(diào)(SFT)和RLHF或DPO等偏好對(duì)齊方法合二為一,是一種非常聰明的算法。

與原來的9B Gemma 2模型相比,微調(diào)的Gemma-2-9B-Chinese-Chat模型大大減少了「中文問題英文回答」和「中英文混雜回答」的問題,在角色扮演、工具使用和數(shù)學(xué)方面的表現(xiàn)都有所提高。

就連應(yīng)對(duì)「最佳中文訓(xùn)練數(shù)據(jù)」弱智吧的問題,都有非常出色的表現(xiàn)。

示例

微調(diào)模型貢獻(xiàn)者給出了一些示例,包括角色扮演、函數(shù)調(diào)用、數(shù)學(xué)、弱智吧、安全、寫作、編碼等。

而且還給出了一個(gè)在線demo,嘿嘿,這下有得玩了。

角色扮演

首先讓LLM扮演周杰倫唱rap:

圖片

圖片

再扮演魯智深試試呢?給出的示例是下面這樣似兒的——

圖片

但小編用在線demo親自嘗試了一下,發(fā)現(xiàn)這位魯智深「粗魯」不起來,目前還沒有很好的連續(xù)性。

圖片

數(shù)學(xué)

年齡問題、雞兔同籠問題,Gemma-2-9B-Chinese-Chat都輕松應(yīng)對(duì)。

圖片

弱智吧

弱智吧的各種文字游戲,是NLP程序員最討厭的,但微調(diào)模型在處理弱智吧的一些言論時(shí),似乎表現(xiàn)還不錯(cuò)。

圖片

圖片

圖片

函數(shù)調(diào)用

用戶輸入:

Here is a list of tools that you have available to you:


```python
def internet_search(query: str):
    """
    Returns a list of relevant document snippets for a textual query retrieved from the internet


    Args:
        query (str): Query to search the internet with
    """
    pass
```


```python
def directly_answer():
    """
    Calls a standard (un-augmented) AI chatbot to generate a response given the conversation history
    """
    pass
```


Write 'Action:' followed by a list of actions in JSON that you want to call, e.g.
Action:
```json
[
    {
        "tool_name": "tool name (one of [internet_search, directly_answer])",
        "parameters": "the input to the tool"
    }
]

微調(diào)模型輸出:

[
    {
        "tool_name": "internet_search",
        "parameters": {
            "query": "biggest penguin in the world"
        }
    }
]

安全

圖片

寫作

讓模型「寫一段關(guān)于人工智能的綜述」,你將會(huì)得到——

人工智能(AI)是計(jì)算機(jī)科學(xué)的一個(gè)分支,它專注于創(chuàng)造能夠執(zhí)行復(fù)雜任務(wù)的智能機(jī)器。AI的目的是創(chuàng)建能夠?qū)W習(xí)、解決問題和理解自然語言的系統(tǒng)。人工智能的應(yīng)用非常廣泛,包括圖像識(shí)別、語音助手、推薦系統(tǒng)、自動(dòng)駕駛汽車和預(yù)測性維護(hù)等。

AI技術(shù)可以分為幾個(gè)不同的類別,包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理。機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,它專注于創(chuàng)建能夠從數(shù)據(jù)中學(xué)習(xí)和做出預(yù)測的算法。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集,它使用人工神經(jīng)網(wǎng)絡(luò)來模擬人類大腦的功能。

AI在醫(yī)療保健、金融、運(yùn)輸和零售等多個(gè)行業(yè)都有廣泛的應(yīng)用。在醫(yī)療保健領(lǐng)域,AI正在幫助醫(yī)生診斷疾病、預(yù)測患者護(hù)理需求以及個(gè)性化治療計(jì)劃。在金融服務(wù)行業(yè),AI正在用于欺詐檢測、風(fēng)險(xiǎn)管理和個(gè)性化投資建議。

AI在提高效率、減少成本并推動(dòng)創(chuàng)新方面有著巨大的潛力。然而,AI也帶來了挑戰(zhàn),包括就業(yè)的流失、隱私問題以及倫理考慮。隨著AI技術(shù)的快速發(fā)展,各國政府和組織正在制定新的法律和法規(guī)來應(yīng)對(duì)這些挑戰(zhàn)。

總之,人工智能是當(dāng)今世界最激動(dòng)人心的創(chuàng)新之一。隨著AI技術(shù)的不斷進(jìn)步,它有潛力徹底改變我們的工作方式、生活方式和社會(huì)結(jié)構(gòu)。然而,AI也提出了新的倫理和社會(huì)問題,這些問題需要我們仔細(xì)考慮。

編碼

用戶輸入:

用python寫一個(gè)函數(shù)實(shí)現(xiàn)快速排序算法,要求輸入為一個(gè)列表,列表里的元素都是float類型,返回一個(gè)排好序后的列表。記住要給代碼加中文注釋。

微調(diào)模型輸出:

defquick_sort(nums):
    # 快速排序的遞歸函數(shù)# 如果列表長度小于等于1,則直接返回,因?yàn)榱斜硪呀?jīng)是排序好的iflen(nums) <= 1:
        return nums
     
    # 選擇基準(zhǔn)值,這里選擇列表的第一個(gè)元素
    pivot = nums[0]
     
    # 分隔列表,將小于基準(zhǔn)值的元素放在左側(cè),大于基準(zhǔn)值的元素放在右側(cè)
    left = [num for num in nums[1:] if num < pivot]
    right = [num for num in nums[1:] if num >= pivot]
     
    # 遞歸地對(duì)左側(cè)和右側(cè)進(jìn)行快速排序
    left = quick_sort(left)
    right = quick_sort(right)
     
    # 將左側(cè)、基準(zhǔn)值、右側(cè)合并成一個(gè)排序后的列表return left + [pivot] + right

作者信息

Gemma-2-9B-Chinese-Chat和Gemma-2-27B-Chinese-Chat微調(diào)模型的貢獻(xiàn)者是王慎執(zhí)和鄭耀威。

王慎執(zhí)同學(xué)是清華大學(xué)自動(dòng)化系LEAP實(shí)驗(yàn)室的三年級(jí)博士生,導(dǎo)師是宋士吉教授和黃高副教授。

在此之前,他在北京航空航天大學(xué)沈元榮譽(yù)學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)以優(yōu)異成績獲得工學(xué)學(xué)士學(xué)位。

圖片

王慎執(zhí)

王同學(xué)是開源項(xiàng)目的積極倡導(dǎo)者,幾個(gè)流行的微調(diào)LLM都是他發(fā)布的,如Llama3-8B-Chinese-Chat、Llama3-70B-Chinese-Chat和Mistral-7B-v0.3-Chinese-Chat。

業(yè)余時(shí)間,他還會(huì)在知乎上寫一些中文科技博客,目前有10k+粉絲。

鄭耀威是王慎執(zhí)在本科期間的同學(xué),他們此前就曾多次合作。

圖片

鄭耀威

鄭耀威目前仍在北航讀博,他曾以第一作者在CVPR、AAAI、WWW等頂會(huì)發(fā)表多篇論文,并擔(dān)任AAAI、EMNLP、Neural Computation等會(huì)議和期刊審稿人。

他也是大模型微調(diào)框架LLaMA Factory的發(fā)起人和主要開發(fā)者,GitHub開源項(xiàng)目獲得超過2萬星標(biāo)。

在這些優(yōu)秀的貢獻(xiàn)者的不斷努力之下,開源模型之路會(huì)越走越寬廣,模型的中文能力也會(huì)逐漸增強(qiáng)。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-11-05 12:42:35

2011-06-28 10:11:41

Top Girl應(yīng)用

2025-01-16 09:20:00

AI論文模型

2023-04-18 08:01:30

AI寫作時(shí)間

2024-01-02 12:59:06

AI技術(shù)

2022-04-08 07:54:40

人工智能核算結(jié)果Python

2025-03-31 09:35:00

GPT-4oAI模型

2023-11-20 07:29:32

大模型人工智能

2024-04-25 09:41:24

項(xiàng)目模型

2025-02-17 10:30:00

AI數(shù)據(jù)研究

2023-10-12 16:34:20

Firefox計(jì)時(shí)器應(yīng)用

2022-05-26 15:03:54

芯片技術(shù)

2021-11-08 10:01:04

AI 數(shù)據(jù)語言模型

2024-03-11 16:33:26

機(jī)器狗訓(xùn)練

2025-01-15 14:58:06

2024-06-21 13:01:52

2021-04-09 14:59:15

技術(shù)研發(fā)指標(biāo)

2020-03-03 14:42:40

AI 數(shù)據(jù)人工智能

2019-07-03 09:01:29

博士生頂會(huì)計(jì)算機(jī)

2014-06-23 10:26:23

Wi-Fi
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)