自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文讀懂遺傳算法工作原理(附Python實(shí)現(xiàn))

開發(fā) 開發(fā)工具 算法
本文是作者 Shubham Jain 現(xiàn)身說法,用通俗易懂的語言對(duì)遺傳算法作了一個(gè)全面而扼要的概述,并列舉了其在多個(gè)領(lǐng)域的實(shí)際應(yīng)用,其中重點(diǎn)介紹了遺傳算法的數(shù)據(jù)科學(xué)應(yīng)用。

近日,Analyticsvidhya 上發(fā)表了一篇題為《Introduction to Genetic Algorithm & their application in data science》的文章,作者 Shubham Jain 現(xiàn)身說法,用通俗易懂的語言對(duì)遺傳算法作了一個(gè)全面而扼要的概述,并列舉了其在多個(gè)領(lǐng)域的實(shí)際應(yīng)用,其中重點(diǎn)介紹了遺傳算法的數(shù)據(jù)科學(xué)應(yīng)用。

簡介

幾天前,我著手解決一個(gè)實(shí)際問題——大型超市銷售問題。在使用了幾個(gè)簡單模型做了一些特征工程之后,我在排行榜上名列第 219 名。

遺傳算法

雖然結(jié)果不錯(cuò),但是我還是想做得更好。于是,我開始研究可以提高分?jǐn)?shù)的優(yōu)化方法。結(jié)果我果然找到了一個(gè),它叫遺傳算法。在把它應(yīng)用到超市銷售問題之后,最終我的分?jǐn)?shù)在排行榜上一下躍居前列。

遺傳算法

沒錯(cuò),僅靠遺傳算法我就從 219 名直接跳到 15 名,厲害吧!相信閱讀完本篇文章后,你也可以很自如地應(yīng)用遺傳算法,而且會(huì)發(fā)現(xiàn),當(dāng)把它用到你自己正在處理的問題時(shí),效果也會(huì)有很大提升。

1. 遺傳算法理論的由來

我們先從查爾斯·達(dá)爾文的一句名言開始:

能夠生存下來的往往不是***大的物種,也不是最聰明的物種,而是最能適應(yīng)環(huán)境的物種。

你也許在想:這句話和遺傳算法有什么關(guān)系?其實(shí)遺傳算法的整個(gè)概念就基于這句話。

讓我們用一個(gè)基本例子來解釋 :

我們先假設(shè)一個(gè)情景,現(xiàn)在你是一國之王,為了讓你的國家免于災(zāi)禍,你實(shí)施了一套法案:

  • 你選出所有的好人,要求其通過生育來擴(kuò)大國民數(shù)量。
  • 這個(gè)過程持續(xù)進(jìn)行了幾代。
  • 你將發(fā)現(xiàn),你已經(jīng)有了一整群的好人。

這個(gè)例子雖然不太可能,但是我用它是想幫助你理解概念。也就是說,我們改變了輸入值(比如:人口),就可以獲得更好的輸出值(比如:更好的國家)?,F(xiàn)在,我假定你已經(jīng)對(duì)這個(gè)概念有了大致理解,認(rèn)為遺傳算法的含義應(yīng)該和生物學(xué)有關(guān)系。那么我們就快速地看一些小概念,這樣便可以將其聯(lián)系起來理解。

2. 生物學(xué)的啟發(fā)

相信你還記得這句話:「細(xì)胞是所有生物的基石?!褂纱丝芍?,在一個(gè)生物的任何一個(gè)細(xì)胞中,都有著相同的一套染色體。所謂染色體,就是指由 DNA 組成的聚合體。

生物學(xué)的啟發(fā)

傳統(tǒng)上看,這些染色體可以被由數(shù)字 0 和 1 組成的字符串表達(dá)出來。

生物學(xué)的啟發(fā)

一條染色體由基因組成,這些基因其實(shí)就是組成 DNA 的基本結(jié)構(gòu),DNA 上的每個(gè)基因都編碼了一個(gè)獨(dú)特的性狀,比如,頭發(fā)或者眼睛的顏色。希望你在繼續(xù)閱讀之前先回憶一下這里提到的生物學(xué)概念。結(jié)束了這部分,現(xiàn)在我們來看看所謂遺傳算法實(shí)際上指的是什么?

3. 遺傳算法定義

首先我們回到前面討論的那個(gè)例子,并總結(jié)一下我們做過的事情。

  • 首先,我們設(shè)定好了國民的初始人群大小。
  • 然后,我們定義了一個(gè)函數(shù),用它來區(qū)分好人和壞人。
  • 再次,我們選擇出好人,并讓他們繁殖自己的后代。
  • ***,這些后代們從原來的國民中替代了部分壞人,并不斷重復(fù)這一過程。

遺傳算法實(shí)際上就是這樣工作的,也就是說,它基本上盡力地在某種程度上模擬進(jìn)化的過程。

因此,為了形式化定義一個(gè)遺傳算法,我們可以將它看作一個(gè)優(yōu)化方法,它可以嘗試找出某些輸入,憑借這些輸入我們便可以得到***的輸出值或者是結(jié)果。遺傳算法的工作方式也源自于生物學(xué),具體流程見下圖:

遺傳算法具體流程

那么現(xiàn)在我們來逐步理解一下整個(gè)流程。

4. 遺傳算法具體步驟

為了讓講解更為簡便,我們先來理解一下著名的組合優(yōu)化問題「背包問題」。如果你還不太懂,這里有一個(gè)我的解釋版本。

比如,你準(zhǔn)備要去野游 1 個(gè)月,但是你只能背一個(gè)限重 30 公斤的背包。現(xiàn)在你有不同的必需物品,它們每一個(gè)都有自己的「生存點(diǎn)數(shù)」(具體在下表中已給出)。因此,你的目標(biāo)是在有限的背包重量下,***化你的「生存點(diǎn)數(shù)」。

遺傳算法具體步驟

4.1 初始化

這里我們用遺傳算法來解決這個(gè)背包問題。***步是定義我們的總體??傮w中包含了個(gè)體,每個(gè)個(gè)體都有一套自己的染色體。

我們知道,染色體可表達(dá)為二進(jìn)制數(shù)串,在這個(gè)問題中,1 代表接下來位置的基因存在,0 意味著丟失。(譯者注:作者這里借用染色體、基因來解決前面的背包問題,所以特定位置上的基因代表了上方背包問題表格中的物品,比如***個(gè)位置上是 Sleeping Bag,那么此時(shí)反映在染色體的『基因』位置就是該染色體的***個(gè)『基因』。)

現(xiàn)在,我們將圖中的 4 條染色體看作我們的總體初始值。

4.2 適應(yīng)度函數(shù)

接下來,讓我們來計(jì)算一下前兩條染色體的適應(yīng)度分?jǐn)?shù)。對(duì)于 A1 染色體 [100110] 而言,有:

類似地,對(duì)于 A2 染色體 [001110] 來說,有:

對(duì)于這個(gè)問題,我們認(rèn)為,當(dāng)染色體包含更多生存分?jǐn)?shù)時(shí),也就意味著它的適應(yīng)性更強(qiáng)。

因此,由圖可知,染色體 1 適應(yīng)性強(qiáng)于染色體 2。

4.3 選擇

現(xiàn)在,我們可以開始從總體中選擇適合的染色體,來讓它們互相『交配』,產(chǎn)生自己的下一代了。這個(gè)是進(jìn)行選擇操作的大致想法,但是這樣將會(huì)導(dǎo)致染色體在幾代之后相互差異減小,失去了多樣性。因此,我們一般會(huì)進(jìn)行「輪盤賭選擇法」(Roulette Wheel Selection method)。

[[200537]]

想象有一個(gè)輪盤,現(xiàn)在我們將它分割成 m 個(gè)部分,這里的 m 代表我們總體中染色體的個(gè)數(shù)。每條染色體在輪盤上占有的區(qū)域面積將根據(jù)適應(yīng)度分?jǐn)?shù)成比例表達(dá)出來。

基于上圖中的值,我們建立如下「輪盤」。

現(xiàn)在,這個(gè)輪盤開始旋轉(zhuǎn),我們將被圖中固定的指針(fixed point)指到的那片區(qū)域選為***個(gè)親本。然后,對(duì)于第二個(gè)親本,我們進(jìn)行同樣的操作。有時(shí)候我們也會(huì)在途中標(biāo)注兩個(gè)固定指針,如下圖:

通過這種方法,我們可以在一輪中就獲得兩個(gè)親本。我們將這種方法成為「隨機(jī)普遍選擇法」(Stochastic Universal Selection method)。

4.4 交叉

在上一個(gè)步驟中,我們已經(jīng)選擇出了可以產(chǎn)生后代的親本染色體。那么用生物學(xué)的話說,所謂「交叉」,其實(shí)就是指的繁殖?,F(xiàn)在我們來對(duì)染色體 1 和 4(在上一個(gè)步驟中選出來的)進(jìn)行「交叉」,見下圖:

這是交叉最基本的形式,我們稱其為「單點(diǎn)交叉」。這里我們隨機(jī)選擇一個(gè)交叉點(diǎn),然后,將交叉點(diǎn)前后的染色體部分進(jìn)行染色體間的交叉對(duì)調(diào),于是就產(chǎn)生了新的后代。

如果你設(shè)置兩個(gè)交叉點(diǎn),那么這種方法被成為「多點(diǎn)交叉」,見下圖:

4.5 變異

如果現(xiàn)在我們從生物學(xué)的角度來看這個(gè)問題,那么請問:由上述過程產(chǎn)生的后代是否有和其父母一樣的性狀呢?答案是否。在后代的生長過程中,它們體內(nèi)的基因會(huì)發(fā)生一些變化,使得它們與父母不同。這個(gè)過程我們稱為「變異」,它可以被定義為染色體上發(fā)生的隨機(jī)變化,正是因?yàn)樽儺?,種群中才會(huì)存在多樣性。

下圖為變異的一個(gè)簡單示例:

變異的一個(gè)簡單示例

變異完成之后,我們就得到了新為個(gè)體,進(jìn)化也就完成了,整個(gè)過程如下圖:

在進(jìn)行完一輪「遺傳變異」之后,我們用適應(yīng)度函數(shù)對(duì)這些新的后代進(jìn)行驗(yàn)證,如果函數(shù)判定它們適應(yīng)度足夠,那么就會(huì)用它們從總體中替代掉那些適應(yīng)度不夠的染色體。這里有個(gè)問題,我們最終應(yīng)該以什么標(biāo)準(zhǔn)來判斷后代達(dá)到了***適應(yīng)度水平呢?

一般來說,有如下幾個(gè)終止條件:

  • 在進(jìn)行 X 次迭代之后,總體沒有什么太大改變。
  • 我們事先為算法定義好了進(jìn)化的次數(shù)。
  • 當(dāng)我們的適應(yīng)度函數(shù)已經(jīng)達(dá)到了預(yù)先定義的值。

好了,現(xiàn)在我假設(shè)你已基本理解了遺傳算法的要領(lǐng),那么現(xiàn)在讓我們用它在數(shù)據(jù)科學(xué)的場景中應(yīng)用一番。

5. 遺傳算法的應(yīng)用

5.1 特征選取

試想一下每當(dāng)你參加一個(gè)數(shù)據(jù)科學(xué)比賽,你會(huì)用什么方法來挑選那些對(duì)你目標(biāo)變量的預(yù)測來說很重要的特征呢?你經(jīng)常會(huì)對(duì)模型中特征的重要性進(jìn)行一番判斷,然后手動(dòng)設(shè)定一個(gè)閾值,選擇出其重要性高于這個(gè)閾值的特征。

那么,有沒有什么方法可以更好地處理這個(gè)問題呢?其實(shí)處理特征選取任務(wù)***進(jìn)的算法之一就是遺傳算法。

我們前面處理背包問題的方法可以完全應(yīng)用到這里?,F(xiàn)在,我們還是先從建立「染色體」總體開始,這里的染色體依舊是二進(jìn)制數(shù)串,「1」表示模型包含了該特征,「0 表示模型排除了該特征」。

不過,有一個(gè)不同之處,即我們的適應(yīng)度函數(shù)需要改變一下。這里的適應(yīng)度函數(shù)應(yīng)該是這次比賽的的精度的標(biāo)準(zhǔn)。也就是說,如果染色體的預(yù)測值越精準(zhǔn),那么就可以說它的適應(yīng)度更高。

現(xiàn)在我假設(shè)你已經(jīng)對(duì)這個(gè)方法有點(diǎn)一概念了。下面我不會(huì)馬上講解這個(gè)問題的解決過程,而是讓我們先來用 TPOT 庫去實(shí)現(xiàn)它。

5.2 用 TPOT 庫來實(shí)現(xiàn)

這個(gè)部分相信是你在一開始讀本文時(shí)心里最終想實(shí)現(xiàn)的那個(gè)目標(biāo)。即:實(shí)現(xiàn)。那么首先我們來快速瀏覽一下 TPOT 庫(Tree-based Pipeline Optimisation Technique,樹形傳遞優(yōu)化技術(shù)),該庫基于 scikit-learn 庫建立。下圖為一個(gè)基本的傳遞結(jié)構(gòu)。

用 TPOT 庫來實(shí)現(xiàn)

圖中的灰色區(qū)域用 TPOT 庫實(shí)現(xiàn)了自動(dòng)處理。實(shí)現(xiàn)該部分的自動(dòng)處理需要用到遺傳算法。

我們這里不深入講解,而是直接應(yīng)用它。為了能夠使用 TPOT 庫,你需要先安裝一些 TPOT 建立于其上的 python 庫。下面我們快速安裝它們:

  1. # installing DEAP, update_checker and tqdm  
  2.  
  3. pip install deap update_checker tqdm 
  4. # installling TPOT  
  5. pip install tpot 

這里,我用了 Big Mart Sales(數(shù)據(jù)集地址:

https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/)數(shù)據(jù)集,為實(shí)現(xiàn)做準(zhǔn)備,我們先快速下載訓(xùn)練和測試文件,以下是 python 代碼:

  1. # import basic libraries 
  2.  
  3. import numpy as np  
  4. import pandas as pd  
  5. import matplotlib.pyplot as plt  
  6. %matplotlib inline  
  7. from sklearn import preprocessing  
  8. from sklearn.metrics import mean_squared_error  
  9. ## preprocessing  
  10. ### mean imputations  
  11.  
  12. train['Item_Weight'].fillna((train['Item_Weight'].mean()), inplace=True
  13. test['Item_Weight'].fillna((test['Item_Weight'].mean()), inplace=True)  
  14. ### reducing fat content to only two categories  
  15.  
  16. train['Item_Fat_Content'] = train['Item_Fat_Content'].replace(['low fat','LF'], ['Low Fat','Low Fat'])  
  17. train['Item_Fat_Content'] = train['Item_Fat_Content'].replace(['reg'], ['Regular'])  
  18. test['Item_Fat_Content'] = test['Item_Fat_Content'].replace(['low fat','LF'], ['Low Fat','Low Fat'])  
  19. test['Item_Fat_Content'] = test['Item_Fat_Content'].replace(['reg'], ['Regular'])  
  20. train['Outlet_Establishment_Year'] = 2013 - train['Outlet_Establishment_Year']  
  21. test['Outlet_Establishment_Year'] = 2013 - test['Outlet_Establishment_Year']  
  22.  
  23. train['Outlet_Size'].fillna('Small',inplace=True
  24. test['Outlet_Size'].fillna('Small',inplace=True
  25.  
  26. train['Item_Visibility'] = np.sqrt(train['Item_Visibility']) 
  27. test['Item_Visibility'] = np.sqrt(test['Item_Visibility']) 
  28.  
  29. col = ['Outlet_Size','Outlet_Location_Type','Outlet_Type','Item_Fat_Content'] 
  30. test['Item_Outlet_Sales'] = 0combi = train.append(test)for i in col: 
  31.  combi[i] = number.fit_transform(combi[i].astype('str')) 
  32.  combi[i] = combi[i].astype('object') 
  33. train = combi[:train.shape[0]] 
  34. test = combi[train.shape[0]:] 
  35. test.drop('Item_Outlet_Sales',axis=1,inplace=True
  36. ## removing id variables  
  37.  
  38. tpot_train = train.drop(['Outlet_Identifier','Item_Type','Item_Identifier'],axis=1
  39. tpot_test = test.drop(['Outlet_Identifier','Item_Type','Item_Identifier'],axis=1
  40. target = tpot_train['Item_Outlet_Sales'] 
  41. tpot_train.drop('Item_Outlet_Sales',axis=1,inplace=True
  42. # finally building model using tpot library 
  43.  
  44. from tpot import TPOTRegressor 
  45. X_train, X_test, y_train, y_test = train_test_split(tpot_train, target, 
  46.  train_size=0.75, test_size=0.25) 
  47.  
  48. tpot = TPOTRegressor(generations=5population_size=50verbosity=2
  49. tpot.fit(X_train, y_train) 
  50. print(tpot.score(X_test, y_test)) 
  51. tpot.export('tpot_boston_pipeline.py') 

 一旦這些代碼運(yùn)行完成,tpot_exported_pipeline.py 里就將會(huì)放入用于路徑優(yōu)化的 python 代碼。我們可以發(fā)現(xiàn),ExtraTreeRegressor 可以***地解決這個(gè)問題。

  1. ## predicting using tpot optimised pipeline 
  2.  
  3. tpottpot_pred = tpot.predict(tpot_test) 
  4. sub1 = pd.DataFrame(data=tpot_pred
  5. #sub1.index = np.arange(0, len(test)+1) 
  6.  
  7. sub1sub1 = sub1.rename(columns = {'0':'Item_Outlet_Sales'}) 
  8. sub1['Item_Identifier'] = test['Item_Identifier'] 
  9. sub1['Outlet_Identifier'] = test['Outlet_Identifier'] 
  10. sub1.columns = ['Item_Outlet_Sales','Item_Identifier','Outlet_Identifier'] 
  11. sub1sub1 = sub1[['Item_Identifier','Outlet_Identifier','Item_Outlet_Sales']] 
  12. sub1.to_csv('tpot.csv',index=False

如果你提交了這個(gè) csv,那么你會(huì)發(fā)現(xiàn)我一開始保證的那些還沒有完全實(shí)現(xiàn)。那是不是我在騙你們呢?當(dāng)然不是。實(shí)際上,TPOT 庫有一個(gè)簡單的規(guī)則。如果你不運(yùn)行 TPOT 太久,那么它就不會(huì)為你的問題找出最可能傳遞方式。

所以,你得增加進(jìn)化的代數(shù),拿杯咖啡出去走一遭,其它的交給 TPOT 就行。此外,你也可以用這個(gè)庫來處理分類問題。進(jìn)一步內(nèi)容可以參考這個(gè)文檔:http://rhiever.github.io/tpot/。除了比賽,在生活中我們也有很多應(yīng)用場景可以用到遺傳算法。

6. 實(shí)際應(yīng)用

遺傳算法在真實(shí)世界中有很多應(yīng)用。這里我列了部分有趣的場景,但是由于篇幅限制,我不會(huì)逐一詳細(xì)介紹。

6.1 工程設(shè)計(jì)

工程設(shè)計(jì)非常依賴計(jì)算機(jī)建模以及模擬,這樣才能讓設(shè)計(jì)周期過程即快又經(jīng)濟(jì)。遺傳算法在這里可以進(jìn)行優(yōu)化并給出一個(gè)很好的結(jié)果。

相關(guān)資源:

  • 論文:Engineering design using genetic algorithms
  • 地址:http://lib.dr.iastate.edu/cgi/viewcontent.cgi?article=16942&context=rtd

6.2 交通與船運(yùn)路線(Travelling Salesman Problem,巡回售貨員問題)

這是一個(gè)非常著名的問題,它已被很多貿(mào)易公司用來讓運(yùn)輸更省時(shí)、經(jīng)濟(jì)。解決這個(gè)問題也要用到遺傳算法。

 6.3 機(jī)器人

遺傳算法在機(jī)器人領(lǐng)域中的應(yīng)用非常廣泛。實(shí)際上,目前人們正在用遺傳算法來創(chuàng)造可以像人類一樣行動(dòng)的自主學(xué)習(xí)機(jī)器人,其執(zhí)行的任務(wù)可以是做飯、洗衣服等等。

相關(guān)資源:

  • 論文:Genetic Algorithms for Auto-tuning Mobile Robot Motion Control
  • 地址:https://pdfs.semanticscholar.org/7c8c/faa78795bcba8e72cd56f8b8e3b95c0df20c.pdf

7. 結(jié)語

希望通過本文介紹,你現(xiàn)在已經(jīng)對(duì)遺傳算法有了足夠的理解,而且也會(huì)用 TPOT 庫來實(shí)現(xiàn)它了。但是如果你不親身實(shí)踐,本文的知識(shí)也是非常有限的。

所以,請各位讀者朋友一定要在無論是數(shù)據(jù)科學(xué)比賽或是生活中嘗試自己去實(shí)現(xiàn)它。

原文:https://www.analyticsvidhya.com/blog/2017/07/introduction-to-genetic-algorithm/

【本文是51CTO專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2025-01-16 07:10:00

2022-05-12 10:53:42

keepalivevrrp協(xié)議

2021-10-20 07:18:51

Linux延時(shí)隊(duì)列

2024-09-12 10:06:21

2023-03-03 08:26:32

負(fù)載均衡算法服務(wù)

2025-04-30 09:12:35

2017-05-15 11:10:10

大數(shù)據(jù)聚類算法

2021-12-16 14:45:09

https架構(gòu)服務(wù)端

2020-10-22 09:35:11

線程池核心線程阻塞隊(duì)列

2022-04-10 10:57:06

eBPFJIT即時(shí)編譯

2019-03-27 09:00:00

人工智能AI算法

2023-01-09 08:14:08

GoHttpServer

2017-07-12 14:23:25

遺傳算法java自然選擇

2022-09-21 09:04:07

Python裝飾器

2023-12-22 19:59:15

2021-08-04 16:06:45

DataOps智領(lǐng)云

2021-10-15 14:28:30

React 組件渲染

2024-07-03 08:00:00

2017-11-16 15:25:54

Go語言算法代碼

2024-10-12 09:26:32

線程池系統(tǒng)核心線程
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)