撰稿 | 言征
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
提及編程語言排行榜,很多人都能想到Tiobe、RedMonk、Stack Overflow等,基本上它們更新的頻率也相對(duì)固定。但最近,這家號(hào)稱編程語言榜單天花板的RedMonk似乎“放鴿子”了。
RedMonk一般一年發(fā)布兩次榜單,上次更新的榜單是在5月,按慣例第二次發(fā)布應(yīng)該是在今年的11月,但今年卻遲遲沒有動(dòng)作。
今日,官網(wǎng)終于公開了沒有發(fā)布語言排行榜的原因:他們之前從Stack Overflow和Github上獲取到的樣本數(shù)量大大減少,已經(jīng)顯著影響到榜單排名的評(píng)估!背后的罪魁禍?zhǔn)?,竟是AI編程助手!
一、RedMonk排名離不開社區(qū)樣本
根據(jù)官方介紹,RedMonk通過追蹤編程語言在GitHub和Stack Overflow上的代碼使用情況與討論數(shù)量,統(tǒng)計(jì)進(jìn)行分析后進(jìn)行排序,進(jìn)而深入了解潛在的語言采用趨勢(shì)。
圖片
具體講,RedMonk 榜單的數(shù)據(jù)收集方式包含兩部分:使用GitHub Archive作為數(shù)據(jù)源對(duì)GitHub數(shù)據(jù)進(jìn)行分析;Stack Overflow部分則直接使用其提供的實(shí)用工具 data explorer。
具體排序算法官方也給出較詳細(xì)的介紹,這里不再贅述。
圖片
二、ChatGPT推遲了編程榜單的進(jìn)行
今年大家都見證了一個(gè)增長(zhǎng)奇跡:ChatGPT推出后,兩個(gè)月就做到了一個(gè)億的用戶。
1.Stack Overflow首當(dāng)其沖
隨后,Stack Overflow流量下降的速度開始陡生,以致于其CEO宣布對(duì)數(shù)據(jù)獲取方開始收費(fèi)的決定。
Stack Overflow 的網(wǎng)站訪問量顯著下滑到原來的一半,不僅如此,還有分析師指出“用戶花在 Stack Overflow 上的時(shí)間比去年同期下降了 40%,比此前網(wǎng)站峰值期下降了約 2 億小時(shí)”。
圖片
此外,Stack Overflow在網(wǎng)站上的問題和答案也減少了五成,投票也減少了。原因也很明顯,開發(fā)人員已經(jīng)可以即時(shí)向人工智能助手提問,并在上下文中給出答案,而無需再去Stack Overflow中查詢答案。
那么由Stack Overflow提供的公共數(shù)據(jù)集的實(shí)用性的價(jià)值就會(huì)大打折扣。
圖片
上圖是Stack Overflow 上使用排名前20種編程語言標(biāo)簽的問題數(shù)量,可以看出比前一時(shí)期減少了近20%。這還只是是RedMonk在ChatGPT爆火之后第一次完整地運(yùn)行這些數(shù)字,粗略查詢下整年的變化,就會(huì)發(fā)現(xiàn)結(jié)果更加明顯。
2.Github同樣也沒有擺脫數(shù)據(jù)下降的影響
RedMonk對(duì)于Stack Overflow數(shù)據(jù)的下降是有預(yù)料到的,但令其萬萬沒沒想到的是,Github也被AI代碼助手打擊到了,數(shù)據(jù)上也出現(xiàn)了非常嚴(yán)重的異常。
Redmonk使用的數(shù)據(jù)集是BigQuery上的公共數(shù)據(jù)集,為此,Redmonk會(huì)向谷歌和GitHub團(tuán)隊(duì)詢問了數(shù)據(jù)是如何提取的,以及是否在內(nèi)部數(shù)據(jù)中看到了類似的變化。
“得到的結(jié)果非常意外,我們從GitHub Archive中看到的數(shù)據(jù)顯示,與2022年下半年P(guān)R相比,2023年上半年的拉取請(qǐng)求下降了約25%。”
ChatGPT寫代碼能力太強(qiáng)了,后果很嚴(yán)重。各種Copilot的出現(xiàn),已經(jīng)嚴(yán)重影響到了編程問答社區(qū)的提問數(shù)量。樣本量的減少,意味著RedMonk賴以進(jìn)行的排名變化統(tǒng)計(jì)似乎面臨著不小的挑戰(zhàn),因?yàn)檫@些樣本數(shù)據(jù)似乎已經(jīng)不足以完全、真實(shí)地反映語言的受歡迎程度了。
三、下一步,編程排行榜怎么辦
因此,RedMonk無奈地表示,基于人工智能的代碼助手的出現(xiàn)和興起已經(jīng)影響了RedMonk語言排名的數(shù)據(jù)。
隨著問題和知識(shí)共享從公共的社區(qū)論壇轉(zhuǎn)移到私人的AI聊天工具,他們從公開數(shù)據(jù)中確定有意義趨勢(shì)的能力也將無限期地改變。
接下來,RedMonk會(huì)繼續(xù)跟蹤這些趨勢(shì),并確定樣本量的變化將如何影響他們進(jìn)行排名,同時(shí)預(yù)告2024年1月發(fā)布新榜單。
寫在最后:新的數(shù)據(jù)霸主正在誕生
大模型時(shí)代的到來,已經(jīng)在慢慢改變?nèi)藗冊(cè)瓉淼幕ヂ?lián)網(wǎng)習(xí)慣。以前大家遇到問題,可能想到的是訪問門戶、訪問社區(qū),而生成式AI爆發(fā)后,取而代之的是各種“ChatGPT”的私人聊天界面。
而由此帶來的,就是人機(jī)交互數(shù)據(jù)的源頭發(fā)生了遷移。知識(shí)問答社區(qū)的形態(tài)又會(huì)發(fā)生怎樣的改變?會(huì)不會(huì)朝著“弱問答、輕社交”的方向演進(jìn)?又或者是其他哪些方向?
再比如依賴這些數(shù)據(jù)的下游企業(yè),又該如何適應(yīng)新的數(shù)據(jù)生產(chǎn)霸主?
這些都是一個(gè)個(gè)亟待回答的問題。且讓我們看看幾周后,RedMonk是如何思考和解決這個(gè)問題的。
參考鏈接:https://redmonk.com/rstephens/2023/12/14/language-rankings-update/