Claude 4要來了?Anthropic發(fā)布38頁經(jīng)濟指數(shù)報告,43%人類工作正被AI取代!
Claude 3.5 Opus無了,Anthropic本周可能會提前放出Claude 4。
網(wǎng)友爆料稱,除了Claude 4,還有推理模型也將首亮相,評分全面超越o3。
Anthropic已經(jīng)沉寂太久了,去年曾被傳出內(nèi)部模型研發(fā)受阻。
不久前,或許因為DeepSeek的沖擊,OpenAI、谷歌密集上新了新模型全家桶。
這次Anthropic要直接來一波大的:評分超越「滿血」o3,那可是目前公認的比DeepSeek-R1強的對手!
同一天,他們還發(fā)布了「Anthropic經(jīng)濟指數(shù)」報告,全文38頁全面分析了數(shù)百萬匿名Claude對話,從中揭示了AI在各個職業(yè)的應用現(xiàn)狀。
Anthropic認為在未來幾年,AI對人們的工作將產(chǎn)生重大影響,最新報告旨在長期追蹤AI對勞動力市場和經(jīng)濟的影響。
論文鏈接:https://assets.anthropic.com/m/2e23255f1e84ca97/original/Economic_Tasks_AI_Paper.pdf
AI將自動化43%工作
在這篇報告中,Anthropic從任務類型、使用深度、職業(yè)技能、收入水平等角度,討論了AI對不同職業(yè)不同群體的影響。
主要結論如下:
- AI的使用主要集中在軟件開發(fā)和寫作任務上,這兩者占總使用量的近50%。
- AI的使用范圍更廣泛,約有36%的職業(yè)在至少四分之一的相關任務中使用AI;在中等至高收入的工作中使用最為普遍。
- 在各類任務中,57%的使用表明AI在增強人類能力,而43%的使用表明在取代人類勞動,即工作自動化。
更值得一提的是,Cluade編碼和數(shù)學占所有使用量1/3(37.2%)。
為什么發(fā)布「經(jīng)濟指數(shù)」?
基于Claude.ai平臺上數(shù)百萬條匿名對話數(shù)據(jù),該指數(shù)的首份報告提供了前所未有的分析和洞察,揭示在現(xiàn)代經(jīng)濟的各類任務中,如何實際應用AI。
迄今為止,這是關于AI融入現(xiàn)實經(jīng)濟活動的最清晰圖景。
為了推動更廣泛的研究,Anthropic決定開源本次分析所使用的數(shù)據(jù)集,供研究人員在此基礎上進一步探索和擴展。
項目地址:https://huggingface.co/datasets/Anthropic/EconomicIndex
面對勞動力市場即將到來的轉(zhuǎn)型及其對就業(yè)和生產(chǎn)力的影響,制定有效的政策措施需要多方視角,統(tǒng)籌兼顧。
因此,Anthropic誠摯邀請經(jīng)濟學家、政策專家及其他研究人員提供寶貴意見。
數(shù)據(jù)分析方法:將對話和職業(yè)關聯(lián)
新論文基于對技術影響勞動力市場的長期研究,從工業(yè)革命時期的珍妮紡紗機到當今的汽車制造機器人。
關注AI(AI)的持續(xù)影響。新研究不調(diào)查人們的AI使用情況,也不嘗試預測未來;相反,直接獲取了AI實際使用的數(shù)據(jù)。
分析職業(yè)任務
新研究始于經(jīng)濟學文獻中的重要洞見:有時候,關注職業(yè)任務而非職業(yè)本身,也有意義。
工作通常共享某些任務和技能:例如,視覺模式識別是設計師、攝影師、安檢員和放射科醫(yī)生共同完成的任務。
某些任務比其他任務更適合被新技術自動化或增強。
因此,預計AI會在不同職業(yè)中有選擇地被采用,分析任務(而不僅僅是整體工作)將提供一個更全面的圖景,展示AI如何融入經(jīng)濟。
使用Clio匹配AI使用與任務
這項研究得以實現(xiàn),依靠的是Clio系統(tǒng)。在保護用戶隱私的同時,它可以分析與Claude的對話。
新研究分析了約一百萬次與Claude的對話(包括Free和Pro版本的對話),并按職業(yè)任務對對話進行分類。
美國勞工部維護著一個包含約20,000項具體工作任務的數(shù)據(jù)庫,稱為職業(yè)信息網(wǎng)絡(O*NET)。
在線職業(yè)分類:https://www.onetonline.org/
根據(jù)美國勞工部的分類選擇任務,Clio將每次對話與最能代表對話中AI角色的O*NET任務進行匹配。
Clio系統(tǒng)將與Claude的對話(嚴格保密,位于下圖頂部左側(cè))轉(zhuǎn)化為職業(yè)任務(下圖頂部中間),并進一步映射到O*NET提供的職業(yè)/職業(yè)類別(頂部右側(cè))。
隨后,這些數(shù)據(jù)可以輸入到多種分析中(下圖底部一行)。
最后,按照O*NET的分類方案,將任務分組到它們最能代表的職業(yè)中,并將職業(yè)分組到一小組總體類別中:教育和圖書館、商業(yè)和金融等。
算法流程總結
具體結果
對不同職業(yè)影響
采用AI最多的任務和職業(yè)是「計算機與數(shù)學」類別,主要涵蓋了軟件工程角色。
37.2%的Claude查詢屬于這一類別,涉及的任務包括軟件修改、代碼調(diào)試和網(wǎng)絡故障排除。
第二大類別是「藝術、設計、體育、娛樂和媒體」(10.3%的查詢),主要反映了使用Claude進行各種寫作和編輯任務。
不出所料,涉及大量體力勞動的職業(yè),如「農(nóng)業(yè)、漁業(yè)和林業(yè)」類別(0.1%的查詢),在數(shù)據(jù)中表現(xiàn)最少。
新研究還將數(shù)據(jù)中的比例與各職業(yè)在整體勞動力市場中的出現(xiàn)率進行了比較,詳細結果如下圖所示。
職業(yè)內(nèi)部AI使用程度
分析發(fā)現(xiàn),在工作中AI的重度用戶集中在極少數(shù)職業(yè):僅約4%的職業(yè)在至少75%的任務中使用AI。
AI的中等使用率更為普遍:大約36%的職業(yè),在至少25%的任務中一定程度地使用AI。
AI在經(jīng)濟中的應用分布:基于Claude.ai的真實使用數(shù)據(jù)。數(shù)據(jù)中的百分比表示與Claude的對話中涉及特定任務、職業(yè)及類別的比例。
AI在經(jīng)濟中的應用分布:基于Claude.ai的真實使用數(shù)據(jù)。數(shù)據(jù)中的百分比表示與Claude的對話中涉及特定任務、職業(yè)及類別的比例
正如預測的那樣,數(shù)據(jù)中沒有證據(jù)表明職業(yè)被完全自動化:相反,AI在經(jīng)濟中的許多任務中得到了廣泛應用,對某些任務群體的影響比其他任務群體更大。
AI使用與薪資
O*NET數(shù)據(jù)庫提供了各個職業(yè)在美國的中位薪資。
研究者將這一信息加入分析,從而比較不同職業(yè)的中位薪資與其任務中AI使用水平之間的關系。
有趣的是,低薪職業(yè)和高薪職業(yè)的AI使用率都較低(這些職業(yè)通常涉及大量手工操作,例如洗發(fā)師和產(chǎn)科醫(yī)生)。
而AI使用最廣泛的職業(yè)主要集中在中等至較高薪資范圍內(nèi),例如計算機程序員和文案撰寫人。
年薪(x軸)與涉及該職業(yè)的對話百分比(y軸)的關系。一些具有代表性的職業(yè)被突出顯示
自動化vs.增強
研究者還更詳細地分析了任務的執(zhí)行方式。
他們關注了哪些任務屬于「自動化」(即AI直接執(zhí)行任務,如格式化文檔),以及哪些任務屬于「增強」(即AI與用戶協(xié)作完成任務)。
總體來看,AI在任務執(zhí)行上更傾向于增強模式,57%的任務屬于增強,43%的任務屬于自動化。
也就是說,在超過一半的情況下,AI并未取代人類完成任務,而是與人類協(xié)作,參與諸如驗證(例如核對用戶的工作)、學習(例如幫助用戶獲取新知識和技能)以及任務迭代(例如幫助用戶進行頭腦風暴或執(zhí)行重復的生成性任務)等工作。
Claude對話中涉及增強與自動化的比例,以及每個類別內(nèi)任務子類型的分解
38頁報告中,還覆蓋了其他一些有趣的數(shù)據(jù)。
下圖4中展示了不同職業(yè)中,人工智能使用深度的分析。約36%的職業(yè)至少在25%的任務中使用AI,僅約4%的職業(yè)在75%或更多的任務中使用AI。
這表明了,在大多數(shù)職業(yè)中,人工智能的整合仍然是選擇性的,而非全面性的。
圖5展示的是,與Claude對話用戶職業(yè)技能的分布。
批判性思維、寫作、編程等技能在對話中出現(xiàn)頻率較高,而設備維護、安裝等手工技能則較為罕見。
圖8所展示的是,Claude Sonnet 3.5(新版)和Claude Opus模型之間任務使用模式的比較分析,展示了人們偏好差異。
前者在編碼和技術任務方面表現(xiàn)出更多的使用量,而后者則更多用于創(chuàng)意寫作和教育內(nèi)容開發(fā)。
任務層級使用狀況
如上所述,研究人員用Clio創(chuàng)建了一個任務層級體系,將對話匹配到最適合的O*NET任務。
在頂層(圖11),可以看到:
- IT、技術及相關任務占主導地位(對話量占比近50%)
- 第二層是創(chuàng)意和文化工作,與藝術、文化和宗教文物創(chuàng)作和保護相關的任務(約占20%)
- 商業(yè)管理、金融和客戶服務運營構成第三大類別(約占5%)
- 其余類別各自占比均不超過15%
- 醫(yī)療服務和環(huán)境系統(tǒng)的代表性較低,各自占比不到5%
在中層級(圖12),數(shù)據(jù)揭示了更細化的任務模式:
- 軟件開發(fā)和網(wǎng)站維護是最普遍的活動(約占14%)
- 計算機系統(tǒng)編程和調(diào)試緊隨其后(約占11%)
- 系統(tǒng)管理、硬件/軟件故障排除和文檔發(fā)布流程(各占4-6%)
- 市場營銷/推廣策略、網(wǎng)絡優(yōu)化、學術輔導和公關管理雖然出現(xiàn),但頻率較低(各約占2-3%)
- 數(shù)據(jù)科學和機器學習應用(約占2%)
在基礎層級(圖13),可以看到高度具體的技術操作:
- 軟件修改和錯誤修正活動占主導地位,其中以適應新硬件或改進性能為重點的任務出現(xiàn)最頻繁
- 初始調(diào)試程序、系統(tǒng)管理和硬件/軟件故障排除是下一組最常見的活動
- 文檔編輯和程序分析任務出現(xiàn)頻率較低,但仍構成對話的重要部分
注意!
新研究提供AI如何改變勞動力市場的獨特視角。
然而,與所有研究一樣,它也存在重要的局限性。以下是一些主要的注意事項:
- 任務用途不明確:無法確定使用Claude完成任務的人是否是為了工作。例如,向Claude尋求寫作或編輯建議的人可能是為了工作,也可能是為了業(yè)余寫作的小說。
- 響應使用方式不明確:不知道用戶如何使用Claude的響應。例如,他們是否復制粘貼代碼片段?他們是否核實響應還是不加批判地接受?
- 數(shù)據(jù)來源有限:僅分析了Claude.ai免費和專業(yè)版的數(shù)據(jù),而非API、團隊或企業(yè)用戶的數(shù)據(jù)。
- 任務分類誤差:由于任務種類繁多,Clio可能會錯誤分類一些對話。
- 創(chuàng)意用途未涵蓋:Claude無法生成圖像(除通過代碼間接生成外),因此創(chuàng)意用途在數(shù)據(jù)中未被引用。
- 編碼用例可能過度代表:由于Claude被宣傳為用于編碼的頂尖模型,編碼用例可能在數(shù)據(jù)中被過度代表。因此,我們不認為數(shù)據(jù)集中的用例代表了人工智能的普遍使用情況。
結論與未來
人工智能的使用正在迅速擴展,模型的能力也在不斷提升。勞動力市場的面貌可能在短時間內(nèi)發(fā)生顯著變化。
因此,Anthropic將不斷重復上述分析,以幫助跟蹤可能發(fā)生的社會和經(jīng)濟變化,并定期發(fā)布結果和相關數(shù)據(jù)集。
這種縱向分析可以為提供關于AI和就業(yè)市場的新見解。
例如,可以監(jiān)測職業(yè)內(nèi)部AI使用深度的變化。如果人工智能僅用于特定任務,且只有少數(shù)職業(yè)在大多數(shù)任務中使用人工智能,那么未來可能是大多數(shù)現(xiàn)有職業(yè)演變而非消失。
還可以監(jiān)測自動化與增強的比例,了解自動化在哪些領域變得更為普遍。
注意新研究只是對AI模型Claude的對話數(shù)據(jù)分析,并沒有提供政策建議。
如何做好為AI對勞動力市場的影響的準備,不能僅從研究中直接得出,而是需要結合證據(jù)、價值觀和廣泛的經(jīng)驗。