國產(chǎn)大模型崛起!智譜發(fā)布GLM-4-32B-0414系列模型,以32B模型參數(shù)比肩GPT-4o和DeepSeek V3/R1
2025年4月14日,中國AI領(lǐng)軍企業(yè)智譜AI正式推出GLM-4-32B-0414系列大模型,以32B參數(shù)量實(shí)現(xiàn)全方位能力躍升。該系列創(chuàng)新性融合對(duì)話、推理、沉思等多元智能模塊,在基準(zhǔn)測(cè)試中展現(xiàn)出與GPT-4o、DeepSeek-V3/R1等國際頂尖模型比肩的綜合性能。尤為關(guān)鍵的是,智譜此次以MIT開源協(xié)議向全球開放模型權(quán)重,結(jié)合其突出的本地化部署優(yōu)勢(shì),真正實(shí)現(xiàn)了"高性能"與"普惠性"的雙重突破。作為"大模型六小虎"中IPO進(jìn)程最快的企業(yè),智譜此番動(dòng)作既彰顯了國產(chǎn)大模型的技術(shù)實(shí)力,更為行業(yè)樹立了商業(yè)化與開源化協(xié)同發(fā)展的新范式。
效果展示
動(dòng)畫繪制
網(wǎng)頁設(shè)計(jì)
提示詞:設(shè)計(jì)一個(gè)支持自定義函數(shù)繪制的繪圖板,可以添加和刪除自定義函數(shù),并為函數(shù)指定顏色。
給我設(shè)計(jì)一個(gè)移動(dòng)端機(jī)器學(xué)習(xí)平臺(tái)的 UI,其中要包括訓(xùn)練任務(wù),存儲(chǔ)管理,和個(gè)人統(tǒng)計(jì)信息界面。個(gè)人信息統(tǒng)計(jì)界面要用圖表展示用戶過去一段時(shí)間的各類資源使用情況。使用 Tailwind CSS 來美化頁面,把這 3 個(gè)手機(jī)界面平鋪展示到一個(gè) HTML 頁面中。
SVG生成
用 SVG 展示一個(gè) LLM 的訓(xùn)練流程
相關(guān)鏈接
- 論文:https://arxiv.org/pdf/2406.12793
- 官網(wǎng):https://www.zhipu.ai/
- 試用:https://modelscope.cn/studios/ZhipuAI/GLM-Z1-9B-0414/summary
- 文檔:https://github.com/THUDM/GLM-4/blob/main/README_zh.md
- 模型:https://huggingface.co/collections/THUDM/glm-4-0414-67f3cbcb34dd9d252707cb2e
模型介紹
智譜AI正式推出新一代開源大模型 GLM-4-32B-0414 系列,以 320億參數(shù)規(guī)模實(shí)現(xiàn)多維度能力突破,綜合表現(xiàn)媲美 GPT-4o 和 DeepSeek-V3/R1等頂尖模型。該系列基于15T 高質(zhì)量數(shù)據(jù)預(yù)訓(xùn)練,特別強(qiáng)化了推理類合成數(shù)據(jù),為后續(xù)強(qiáng)化學(xué)習(xí)優(yōu)化奠定堅(jiān)實(shí)基礎(chǔ)。
在后訓(xùn)練階段,GLM-4-32B-0414 不僅優(yōu)化了對(duì)話場(chǎng)景的人類偏好對(duì)齊,更通過拒絕采樣(Rejection Sampling) 和 強(qiáng)化學(xué)習(xí)(RL) 技術(shù),顯著提升了**指令遵循、工程代碼、函數(shù)調(diào)用等關(guān)鍵能力,使其在智能體任務(wù)中表現(xiàn)更加穩(wěn)定可靠。
實(shí)際測(cè)試表明,GLM-4-32B-0414 在代碼生成、Artifacts 構(gòu)建、函數(shù)調(diào)用、搜索增強(qiáng)問答等場(chǎng)景下表現(xiàn)優(yōu)異,部分 Benchmark 甚至接近更大規(guī)模的 GPT-4o和 DeepSeek-V3-0324(671B)。同時(shí),該模型延續(xù)了 GLM 家族本地化部署友好的特性,結(jié)合MIT 開源協(xié)議,為開發(fā)者與企業(yè)提供了更靈活、高效的大模型應(yīng)用方案。
作為國產(chǎn)大模型的代表之一,GLM-4-32B-0414 的發(fā)布不僅展現(xiàn)了智譜AI的技術(shù)實(shí)力,也為全球開源社區(qū)貢獻(xiàn)了一款兼具**高性能與實(shí)用性**的先進(jìn)模型。
GLM-Z1-32B-0414 是具有深度思考能力的推理模型,這是在 GLM-4-32B-0414 的基礎(chǔ)上,通過冷啟動(dòng)和擴(kuò)展強(qiáng)化學(xué)習(xí),以及在數(shù)學(xué)、代碼和邏輯等任務(wù)上對(duì)模型的進(jìn)一步訓(xùn)練得到的。相對(duì)于基礎(chǔ)模型,GLM-Z1-32B-0414 顯著提升了數(shù)理能力和解決復(fù)雜任務(wù)的能力。在訓(xùn)練的過程中,我們還引入了基于對(duì)戰(zhàn)排序反饋的通用強(qiáng)化學(xué)習(xí),進(jìn)一步增強(qiáng)了模型的通用能力。
GLM-Z1-Rumination-32B-0414 是具有沉思能力的深度推理模型(對(duì)標(biāo) Open AI 的 Deep Research)。不同于一般的深度思考模型,沉思模型通過更長(zhǎng)時(shí)間的深度思考來解決更開放和復(fù)雜的問題(例如:撰寫兩個(gè)城市AI發(fā)展對(duì)比情況,以及未來的發(fā)展規(guī)劃),沉思模型在深度思考過程中結(jié)合搜索工具處理復(fù)雜任務(wù),并經(jīng)過利用多種規(guī)則型獎(jiǎng)勵(lì)來指導(dǎo)和擴(kuò)展端到端強(qiáng)化學(xué)習(xí)訓(xùn)練得到。Z1-Rumination 在研究型寫作和復(fù)雜檢索任務(wù)上的能力得到了顯著提升。
最后,GLM-Z1-9B-0414 是一個(gè)驚喜。沿用上述一系列技術(shù),訓(xùn)練了一個(gè)保持開源傳統(tǒng)的 9B 小尺寸模型。盡管規(guī)模更小,GLM-Z1-9B-0414 在數(shù)學(xué)推理和通用任務(wù)中依然展現(xiàn)出極為優(yōu)秀的能力,其整體表現(xiàn)已處于同尺寸開源模型中的領(lǐng)先水平。特別是在資源受限的場(chǎng)景下,該模型在效率與效果之間實(shí)現(xiàn)了出色的平衡,為追求輕量化部署的用戶提供了強(qiáng)有力的選擇。
模型列表
GLM-4-9B-0414 由于其較小的模型容量,我們未對(duì)其智能體能力進(jìn)行類似 GLM-4-32B-0414 的強(qiáng)化,主要針對(duì)翻譯等需要大批量調(diào)用的場(chǎng)景進(jìn)行優(yōu)化。
評(píng)測(cè)結(jié)果
GLM-4-0414 系列
對(duì)于 SimpleQA 和 HotpotQA,我們分別從測(cè)試集中采樣了近500條測(cè)試樣例,提供所有模型最基礎(chǔ)的 search 和 click 工具,另外確保其余 Setting 保持一致后,3次評(píng)測(cè)取平均值。
- Moatless v0.0.3 使用如下參數(shù) response_format="react", thoughts_in_actinotallow=False, max_interatinotallow=30,未對(duì)失敗軌跡進(jìn)行重試,其余為默認(rèn)配置
- Agentless v1.5.0 其中的 Embedding 模型使用了 BGE,基于FAISS進(jìn)行相似性檢索,為加快patch驗(yàn)證的速度同時(shí)盡可能保證效果,將運(yùn)行單個(gè)實(shí)例的超時(shí)時(shí)間從默認(rèn)的300s修改為180s
- OpenHands v0.29.1 未采用 YaRN 上下文擴(kuò)展,而是限制了最大 60 個(gè) iterations,并對(duì) history 進(jìn)行 summarization 以防止超出 32K 上下文限制,summarization 配置為 llm_cnotallow="condenser", keep_first=1, max_size=32,同樣未對(duì)失敗軌跡進(jìn)行重試。
GLM-Z1-0414 系列
本文轉(zhuǎn)載自???AIGC Studio???,作者:AIGC Studio
