會被取代嗎?GPT4 Code Interpreter全自動
哈嘍,大家好。
今天給大家分享下 GPT-4 code interpreter 自動做數(shù)據(jù)分析、科研繪圖、做機器學習算法。
圖片
本文用的是人工智能入門的一個經(jīng)典案例——Kaggle房價預(yù)測,來看看完全交給code interpreter能做到什么程度。
數(shù)據(jù)集直接從Kaggle網(wǎng)站下載就可以了。
圖片
下載下來是個壓縮文件,我們可以一股腦丟給code interpreter,讓他來解壓,并且解讀里面的文件。
圖片
他能正確解讀每個文件的作用,尤其像data_description.txt這種文件里面有幾十個字段,又都是英文,如果一個個看很浪費時間,但用code interpreter就非常方便,它可以說明每個字段的含義,并且能正確解析出每個字段有多少取值,以及每個取值的含義。
圖片
閱讀效率太高了!
然后告訴code interpreter這是一個房價預(yù)測的任務(wù),讓他給出步驟。
圖片
跟我們平時跑算法的思路一致,每一步都非常清晰。
接下來,先讓code interpreter自動做數(shù)據(jù)探索(EDA)。
圖片
這一步讓他自動完成就可以,我們很快就能對數(shù)據(jù)有全面的掌握,比如:特征的分布,哪些特征與label相關(guān)性高等等。
基于上面分析結(jié)論,就可以讓他來建模了。
圖片
圖片
他會選一個模型(這里用的是隨機森林)進行擬合,并且會給出均方根誤差和真實值 vs 預(yù)測值的散點圖。讓我們對模型效果有個大致了解。
最后,可以讓他用訓練好的模型在測試集上預(yù)測,并按照Kaggle要求的格式產(chǎn)出。
圖片
code interpreter可以按照我們的指令,很好的完成工作。我們可以下載他預(yù)測的結(jié)果,上傳到Kaggle進行評估。
誤差是 0.15,排名 2000多名,還是非常不錯的。
圖片
記得,我5年前第一次提交的結(jié)果是 0.17,比code interpreter弱爆了。
圖片
當然,這還不完,有免費的勞動力,當然要壓榨一下,反正他又不會累。
我把這個結(jié)果和排名告訴了code interpreter,讓他繼續(xù)優(yōu)化算法,提升下排名。
圖片
他還是不出意外地給了一堆1、2、3、4、5...建議,說得非常好,反正我也沒看。
我也只能象征性的讓他按照自己說的,去做一遍。
圖片
這里執(zhí)行的時候,會有一些問題,主要是參數(shù)grid search時候,參數(shù)組合太多,code interpreter資源不足導(dǎo)致計算超時。
他自己會做一些嘗試,如:減少參數(shù)范圍等。不斷出問題,不斷重試之后,終于跑成功了,模型效果并沒有更好。
圖片
雖然優(yōu)化沒成功,但他仍然還是會給一些建議。
圖片
這里我隨口一說讓他換個模型試試。
這次優(yōu)化成功了,提交上去誤差 0.13。
圖片
排名1k多名,比上一次提高了整整1k名。
整個過程,我始終以小白的身份再跟他交流,沒有給到他任何專業(yè)的知識。如果深入到項目中,結(jié)合code interpreter的反饋和自己的專業(yè)知識,指導(dǎo)他迭代,我相信會跑出更好地結(jié)果。
還有就是,善用GPT確實提效太多了。