自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)科學(xué)家易犯的十大編碼錯(cuò)誤,你中招了嗎?

開發(fā) 開發(fā)工具 前端
我是一名高級數(shù)據(jù)科學(xué)家,在 Stackoverflow 的 python 編碼中排前 1%,而且還與眾多(初級)數(shù)據(jù)科學(xué)家一起工作。下文列出了我常見到的 10 個(gè)錯(cuò)誤。

數(shù)據(jù)科學(xué)家比軟件工程師擅長統(tǒng)計(jì),又比統(tǒng)計(jì)學(xué)家擅長軟件工程。聽起來牛逼轟轟,事實(shí)卻是,許多數(shù)據(jù)科學(xué)家有統(tǒng)計(jì)學(xué)背景,卻沒有什么軟件工程方面的經(jīng)驗(yàn),因此在編碼時(shí)容易犯一些簡單的錯(cuò)誤。作為一名高級數(shù)據(jù)科學(xué)家,本文作者總結(jié)了他在工作中常見數(shù)據(jù)科學(xué)家犯的十大錯(cuò)誤。

數(shù)據(jù)科學(xué)

我是一名高級數(shù)據(jù)科學(xué)家,在 Stackoverflow 的 python 編碼中排前 1%,而且還與眾多(初級)數(shù)據(jù)科學(xué)家一起工作。下文列出了我常見到的 10 個(gè)錯(cuò)誤。

1. 沒有共享代碼中引用的數(shù)據(jù)

數(shù)據(jù)科學(xué)需要代碼和數(shù)據(jù)。所以為了讓其他人能夠復(fù)現(xiàn)自己做出來的結(jié)果,你需要提供代碼中涉及的數(shù)據(jù)。這看起來很簡單,但許多人會(huì)忘記共享代碼中需要的數(shù)據(jù)。

  1. import pandas as pd 
  2. df1 = pd.read_csv('file-i-dont-have.csv') # fails 
  3. do_stuff(df) 

解決方案:用 d6tpipe 共享代碼中的數(shù)據(jù)文件,或者將數(shù)據(jù)文件上傳到 S3/網(wǎng)頁/Google 云等,還可以將數(shù)據(jù)文件保存到數(shù)據(jù)庫中,以便收件人檢索文件(但不要將數(shù)據(jù)添加到 git 中,這一點(diǎn)后面的內(nèi)容會(huì)講到)。

2. 硬編碼其他人無法訪問的路徑

和錯(cuò)誤 1 類似,如果硬編碼其他人無法訪問的路徑,他們就沒法運(yùn)行你的代碼,而且在很多地方都必須要手動(dòng)修改路徑。Booo!

  1. import pandas as pd 
  2. df = pd.read_csv('/path/i-dont/have/data.csv') # fails 
  3. do_stuff(df) 
  4. # or  
  5. impor os 
  6. os.chdir('c:\\Users\\yourname\\desktop\\python') # fails 

解決方案:使用相對路徑、全局路徑配置變量或 d6tpipe,這樣其他人就可以輕易訪問你的數(shù)據(jù)了。

3. 將數(shù)據(jù)和代碼混在一起

既然數(shù)據(jù)科學(xué)代碼需要數(shù)據(jù),為什么不將代碼和數(shù)據(jù)存儲(chǔ)在同一個(gè)目錄中呢?但你運(yùn)行代碼時(shí),這個(gè)目錄中還會(huì)存儲(chǔ)圖像、報(bào)告以及其他垃圾文件。亂成一團(tuán)!

  1. ├── data.csv 
  2. ├── ingest.py 
  3. ├── other-data.csv 
  4. ├── output.png 
  5. ├── report.html 
  6. └── run.py 

解決方案:對目錄進(jìn)行分類,比如數(shù)據(jù)、報(bào)告、代碼等。參閱 Cookiecutter Data Science 或 d6tflow 項(xiàng)目模板,并用問題 1 中提到的工具存儲(chǔ)以及共享數(shù)據(jù)。

  • Cookiecutter Data Science:https://drivendata.github.io/cookiecutter-data-science/#directory-structure
  • d6tflow 項(xiàng)目模板:https://github.com/d6t/d6tflow-template

4. 用 Git 提交數(shù)據(jù)

大多數(shù)人現(xiàn)在都會(huì)版本控制他們的代碼(如果你沒有這么做那就是另一個(gè)問題了!)。在共享數(shù)據(jù)時(shí),可能很容易將數(shù)據(jù)文件添加到版本控制中。對一些小文件來說這沒什么問題。但 git 無法優(yōu)化數(shù)據(jù),尤其是對大型文件而言。

  1. git add data.csv 

解決方案:使用問題 1 中提到的工具來存儲(chǔ)和共享數(shù)據(jù)。如果你真的需要對數(shù)據(jù)進(jìn)行版本控制,請參閱 d6tpipe、DVC 和 Git Large File Storage。

  • DVC:https://dvc.org/
  • Git Large File Storage:https://git-lfs.github.com/

5. 寫函數(shù)而不是 DAG

數(shù)據(jù)已經(jīng)討論得夠多了,接下來我們談?wù)剬?shí)際的代碼。你在學(xué)編程時(shí),首先學(xué)的就是函數(shù),數(shù)據(jù)科學(xué)代碼主要由一系列線性運(yùn)行的函數(shù)組成。這會(huì)引發(fā)一些問題,詳情請參閱「4 Reasons Why Your Machine Learning Code is Probably Bad?!?/p>

地址:

https://towardsdatascience.com/4-reasons-why-your-machine-learning-code-is-probably-bad-c291752e4953

  1. def process_data(data, parameter): 
  2.     data = do_stuff(data) 
  3.     data.to_pickle('data.pkl') 
  4. data = pd.read_csv('data.csv') 
  5. process_data(data) 
  6. df_train = pd.read_pickle(df_train) 
  7. model = sklearn.svm.SVC() 
  8. model.fit(df_train.iloc[:,:-1], df_train['y']) 

解決方案:與其用線性鏈接函數(shù),不如寫一組有依賴關(guān)系的任務(wù)??梢杂?d6tflow 或者 airflow。

6. 寫 for 循環(huán)

和函數(shù)一樣,for 循環(huán)也是你在學(xué)代碼時(shí)***學(xué)的。這種語句易于理解,但運(yùn)行很慢且過于冗長,這種情況通常表示你不知道用什么替代向量化。

  1. x = range(10) 
  2. avg = sum(x)/len(x); std = math.sqrt(sum((i-avg)**2 for i in x)/len(x)); 
  3. zscore = [(i-avg)/std for x] 
  4. # should be: scipy.stats.zscore(x) 
  5. # or 
  6. groupavg = [] 
  7. for i in df['g'].unique(): 
  8.     dfdfg = df[df[g']==i] 
  9.     groupavg.append(dfg['g'].mean()) 
  10. # should be: df.groupby('g').mean() 

解決方案:NumPy、SciPy 和 pandas 都有向量化函數(shù),它們可以處理大部分你覺得需要用 for 循環(huán)解決的問題。

7. 沒有寫單元測試

隨著數(shù)據(jù)、參數(shù)或者用戶輸入的改變,你的代碼可能會(huì)中斷,而你有時(shí)候可能沒注意到這一點(diǎn)。這就會(huì)導(dǎo)致錯(cuò)誤的輸出,如果有人根據(jù)你的輸出做決策的話,那么錯(cuò)誤的數(shù)據(jù)就會(huì)導(dǎo)致錯(cuò)誤的決策!

解決方案:用 assert 語句檢查數(shù)據(jù)質(zhì)量。Pandas 也有相同的測試,d6tstack 可以檢查數(shù)據(jù)的獲取,d6tjoin 可以檢查數(shù)據(jù)的連接。檢查數(shù)據(jù)的示例代碼如下:

  • d6tstack:https://github.com/d6t/d6tstack
  • d6tjoin:https://github.com/d6t/d6tjoin/blob/master/examples-prejoin.ipynb
  1. assert df['id'].unique().shape[0] == len(ids) # have data for all ids? 
  2. assert df.isna().sum()<0.9 # catch missing values 
  3. assert df.groupby(['g','date']).size().max() ==1 # no duplicate values/date? 
  4. assert d6tjoin.utils.PreJoin([df1,df2],['id','date']).is_all_matched() # all ids matched? 

8. 沒有注釋代碼

我明白你急著做分析。于是你把代碼拼湊起來得到結(jié)果,把結(jié)果交給你的客戶或者老板。一周之后他們找到你,問你「你能改掉 xyz 嗎?」或「你能更新一下結(jié)果嗎?」。然后你和自己的代碼大眼瞪小眼,既不記得你為什么要這么做,也不記得你做過什么。現(xiàn)在想象一下其他人運(yùn)行這段代碼時(shí)的心情。

  1. def some_complicated_function(data): 
  2.     datadata = data[data['column']!='wrong'] 
  3.     datadata = data.groupby('date').apply(lambda x: complicated_stuff(x)) 
  4.     datadata = data[data['value']<0.9
  5.     return data 

解決方案:即便你已經(jīng)完成了分析,也要花時(shí)間注釋一下你做過什么。你會(huì)感謝自己的,當(dāng)然其他人會(huì)更加感謝你!這樣你看起來會(huì)更專業(yè)!

9. 把數(shù)據(jù)存成 csv 或 pickle

說回?cái)?shù)據(jù),畢竟我們討論的是數(shù)據(jù)科學(xué)。就像函數(shù)和 for 循環(huán)一樣,CSV 和 pickle 文件也很常用,但它們其實(shí)并沒有那么好。CSV 不包含模式(schema),所以每個(gè)人都必須重新解析數(shù)字和日期。Pickle 可以解決這一點(diǎn),但只能用在 Python 中,而且不能壓縮。這兩種格式都不適合存儲(chǔ)大型數(shù)據(jù)集。

  1. def process_data(data, parameter): 
  2.     data = do_stuff(data) 
  3.     data.to_pickle('data.pkl') 
  4. data = pd.read_csv('data.csv') 
  5. process_data(data) 
  6. df_train = pd.read_pickle(df_train) 

解決方案:用 parquet 或者其他帶有數(shù)據(jù)模式的二進(jìn)制數(shù)據(jù)格式,***還能壓縮數(shù)據(jù)。d6tflow 可以自動(dòng)將數(shù)據(jù)輸出存儲(chǔ)為 parquet,這樣你就不用解決這個(gè)問題了。

parquet:https://github.com/dask/fastparquet

10. 使用 Jupyter notebook

這個(gè)結(jié)論還有一些爭議——Jupyter notebook 就像 CSV 一樣常用。很多人都會(huì)用到它們。但這并不能讓它們變得更好。Jupyter notebook 助長了上面提到的許多不好的軟件工程習(xí)慣,特別是:

  • 你會(huì)把所有文件存在一個(gè)目錄中;
  • 你寫的代碼是自上而下運(yùn)行的,而不是 DAG;
  • 你不會(huì)模塊化你的代碼;
  • 代碼難以調(diào)試;
  • 代碼和輸出會(huì)混合在一個(gè)文件中;
  • 不能很好地進(jìn)行版本控制。

Jupyter notebook 很容易上手,但規(guī)模太小。

解決方案:用 pycharm 和/或 spyder。

原文鏈接:

https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Ftop-10-coding-mistakes-made-by-data-scientists-bb5bc82faaee

【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號“機(jī)器之心( id: almosthuman2014)”】 

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2018-05-28 14:55:56

職業(yè)錯(cuò)誤程序員

2019-04-09 09:00:01

數(shù)據(jù)科學(xué)代碼編寫

2018-08-10 08:35:49

2020-08-03 10:37:01

Python編程語言工具

2021-01-07 08:12:08

自學(xué)編程學(xué)習(xí)

2009-01-05 18:53:53

服務(wù)器管理

2009-08-26 09:44:18

2018-07-05 16:40:07

區(qū)塊鏈數(shù)字貨幣比特幣

2020-02-24 00:08:11

疫情數(shù)據(jù)科學(xué)家數(shù)據(jù)科學(xué)

2021-08-16 14:00:27

手機(jī)科技功能

2024-04-26 00:15:51

2020-04-09 15:32:20

數(shù)據(jù)科學(xué)AutoML代智能

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2010-09-02 13:28:55

CSS

2019-07-25 08:08:33

SQLJavaMySQL

2019-01-08 16:25:42

數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2018-10-25 10:36:50

物聯(lián)網(wǎng)誤區(qū)IOT

2024-07-10 08:10:10

2018-10-22 17:52:28

GitHub代碼開發(fā)者

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號