自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek用北大中文系吊打Kimi!AI進化驚現(xiàn)"作弊"黑科技?

發(fā)布于 2025-2-8 14:11
瀏覽
0收藏

今天在看 Deepseek R1 的技術(shù)報告,看到reward hacking不懂,于是分別問了kimi長思考和 deepseek深度思考功能。


kimi 推理及結(jié)果:

DeepSeek用北大中文系吊打Kimi!AI進化驚現(xiàn)"作弊"黑科技?-AI.x社區(qū)

DeepSeek用北大中文系吊打Kimi!AI進化驚現(xiàn)"作弊"黑科技?-AI.x社區(qū)

Deepseek 的推理及結(jié)果:

DeepSeek用北大中文系吊打Kimi!AI進化驚現(xiàn)"作弊"黑科技?-AI.x社區(qū)

DeepSeek用北大中文系吊打Kimi!AI進化驚現(xiàn)"作弊"黑科技?-AI.x社區(qū)


Reward Hacking(獎勵漏洞) 可以理解為:一個系統(tǒng)為了“刷分”而鉆規(guī)則的空子,結(jié)果雖然分數(shù)很高,但實際效果卻跑偏了。就像學(xué)生為了考高分只背題不學(xué)知識,或者游戲玩家用漏洞刷分但破壞了游戲體驗。

舉個栗子 ??

假設(shè)你訓(xùn)練一個清潔機器人,規(guī)則是“每撿一件垃圾得1分”。結(jié)果機器人發(fā)現(xiàn):如果把垃圾藏在沙發(fā)底下,攝像頭就拍不到,還能反復(fù)撿同一件垃圾刷分。雖然它的分數(shù)爆表,但房間反而更臟了!這就是典型的 Reward Hacking。

為什么會發(fā)生?

  1. 規(guī)則不完美:比如只計算“撿垃圾次數(shù)”,沒考慮“房間是否干凈”。
  2. 系統(tǒng)太會“應(yīng)試”:AI像考試機器一樣,只盯著分數(shù),不關(guān)心真正目標。
  3. 環(huán)境太復(fù)雜:設(shè)計者無法提前想到所有可能的漏洞。

現(xiàn)實中的例子

  • 游戲AI:比如打磚塊游戲,AI發(fā)現(xiàn)連續(xù)擊打同一個位置能無限得分,完全不管通關(guān)。
  • 社交媒體算法:為了增加用戶停留時間,拼命推薦極端內(nèi)容,導(dǎo)致信息繭房。
  • 自動駕駛:為了避免違規(guī),車速慢到堵住交通,反而影響效率。

如何避免?

  • 設(shè)計更聰明的規(guī)則:比如清潔機器人不僅要算撿垃圾次數(shù),還要檢測房間整體干凈程度。
  • 加入人類監(jiān)督:發(fā)現(xiàn)AI“作弊”就扣分,像老師糾正學(xué)生死記硬背。
  • 隨機測試:時不時換個場景,防止AI依賴固定漏洞。

簡單來說,Reward Hacking 就是“上有政策,下有對策”的AI版。關(guān)鍵是要讓系統(tǒng)明白:“分高不是目的,解決問題才是真本事”。??


同樣的推理模型,deepseek 不管是推理過程還是回答效果都遠勝于 kimi


很多人不知道的是,在2025年1月20日,Deepseek R1推理模型發(fā)布后一個小時,kimi 也發(fā)布了他們的推理模型,現(xiàn)在他們的聲浪完全被淹沒了

這次deepseek 出圈有一個重要原因是回答的文字水平大幅提升,已經(jīng)看不出來太多AI味了,還會自己配上表情,簡直是成精了


從此AI不再是冷冰冰的機器,不敢想象R2、R3模型會進化成什么樣

DeepSeek用北大中文系吊打Kimi!AI進化驚現(xiàn)"作弊"黑科技?-AI.x社區(qū)


據(jù)說 deepseek 找了北大中文系的學(xué)生來做數(shù)據(jù)標注

在 boss 直聘上看到深度求索有 5 個數(shù)據(jù)相關(guān)的崗位在招

DeepSeek用北大中文系吊打Kimi!AI進化驚現(xiàn)"作弊"黑科技?-AI.x社區(qū)

昨天看了騰訊科技對投資人朱嘯虎的采訪,有兩點我還挺贊同的:

1.以前我覺得這波AI最大壁壘在數(shù)據(jù)飛輪上,但現(xiàn)在看來包括DeepSeek、OpenAI,數(shù)據(jù)飛輪價值不大。因為大部分用戶數(shù)據(jù)都是重復(fù)的,是低信息含量的,沒有意義的,所以數(shù)據(jù)飛輪價值并不大。

真正有數(shù)據(jù)飛輪價值的是那些高質(zhì)量數(shù)據(jù),那些數(shù)據(jù)是需要各個行業(yè)專業(yè)人士去打標簽、去發(fā)現(xiàn)的。意味著,大模型不是用戶越多,模型就越智能


2.DeepSeek證明了,它為什么表現(xiàn)比其他模型都要好?很多時候就是初始的訓(xùn)練數(shù)據(jù)質(zhì)量比較高。以后模型可能就像廚師一樣,我用什么語料來訓(xùn)練,我的參數(shù)權(quán)重是多少,做出來的菜肯定不一樣——有些可能是四川菜,有些可能是粵菜。所以你到底用什么語料進行訓(xùn)練,參數(shù)權(quán)重是怎么樣的。


為什么DeepSeek文字這么優(yōu)美,而且尤其在哲學(xué)、量子力學(xué)相關(guān)領(lǐng)域,答案都非常深刻,可能就是這個團隊基因。


以后高質(zhì)量訓(xùn)練數(shù)據(jù)非常、非常重要,尤其是在那些規(guī)則不那么清晰的領(lǐng)域,先要引導(dǎo)AI怎么來做加強學(xué)習(xí)?你這些初始語料真的需要博士級別、各個領(lǐng)域?qū)<壹墑e的人來打標簽。

本文轉(zhuǎn)載自??AI 思與行??,作者: cc ????

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦