自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<em id="ulmy6"><rt id="ulmy6"></rt></em>

<blockquote id="ulmy6"><p id="ulmy6"><th id="ulmy6"></th></p></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

三行Python代碼，讓數(shù)據(jù)預(yù)處理速度提高2到6倍

作者：機(jī)器之心編譯 2018-10-07 05:27:03

開(kāi)發(fā) 開(kāi)發(fā)工具后端大數(shù)據(jù)

在 Python 中，我們可以找到原生的并行化運(yùn)算指令。本文可以教你僅使用 3 行代碼，大大加快數(shù)據(jù)預(yù)處理的速度。

Python 是機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)的***編程語(yǔ)言，它易于使用，也有很多出色的庫(kù)來(lái)幫助你更快處理數(shù)據(jù)。但當(dāng)我們面臨大量數(shù)據(jù)時(shí)，一些問(wèn)題就會(huì)顯現(xiàn)……

目前，大數(shù)據(jù)(Big Data)這個(gè)術(shù)語(yǔ)通常用于表示包含數(shù)十萬(wàn)數(shù)據(jù)點(diǎn)的數(shù)據(jù)集。在這樣的尺度上，工作進(jìn)程中加入任何額外的計(jì)算都需要時(shí)刻注意保持效率。在設(shè)計(jì)機(jī)器學(xué)習(xí)系統(tǒng)時(shí)，數(shù)據(jù)預(yù)處理非常重要——在這里，我們必須對(duì)所有數(shù)據(jù)點(diǎn)使用某種操作。

在默認(rèn)情況下，Python 程序是單個(gè)進(jìn)程，使用單 CPU 核心執(zhí)行。而大多數(shù)當(dāng)代機(jī)器學(xué)習(xí)硬件都至少搭載了雙核處理器。這意味著如果沒(méi)有進(jìn)行優(yōu)化，在數(shù)據(jù)預(yù)處理的時(shí)候會(huì)出現(xiàn)「一核有難九核圍觀」的情況——超過(guò) 50% 的算力都會(huì)被浪費(fèi)。在當(dāng)前四核處理器(英特爾酷睿 i5)和 6 核處理器(英特爾酷睿 i7)大行其道的時(shí)候，這種情況會(huì)變得更加明顯。

幸運(yùn)的是，Python 庫(kù)中內(nèi)建了一些隱藏的特性，可以讓我們充分利用所有 CPU 核心的能力。通過(guò)使用 Python 的 concurrent.futures 模塊，我們只需要 3 行代碼就可以讓一個(gè)普通的程序轉(zhuǎn)換成適用于多核處理器并行處理的程序。

標(biāo)準(zhǔn)方法

讓我們舉一個(gè)簡(jiǎn)單的例子，在單個(gè)文件夾中有一個(gè)圖片數(shù)據(jù)集，其中有數(shù)萬(wàn)張圖片。在這里，我們決定使用 1000 張。我們希望在所有圖片被傳遞到深度神經(jīng)網(wǎng)絡(luò)之前將其調(diào)整為 600×600 像素分辨率的形式。以下是你經(jīng)常會(huì)在 GitHub 上看到的標(biāo)準(zhǔn) Python 代碼：

import glob 
import os 
import cv2 
 
 
### Loop through all jpg files in the current folder  
### Resize each one to size 600x600 
for image_filename in glob.glob("*.jpg"): 
 ### Read in the image data 
 img = cv2.imread(image_filename) 
 
 ### Resize the image 
 img = cv2.resize(img, (600, 600))

上面的程序遵循你在處理數(shù)據(jù)腳本時(shí)經(jīng)?？吹降暮?jiǎn)單模式：

首先從需要處理內(nèi)容的文件(或其他數(shù)據(jù))列表開(kāi)始。
使用 for 循環(huán)逐個(gè)處理每個(gè)數(shù)據(jù)，然后在每個(gè)循環(huán)迭代上運(yùn)行預(yù)處理。

讓我們?cè)谝粋€(gè)包含 1000 個(gè) jpeg 文件的文件夾上測(cè)試這個(gè)程序，看看運(yùn)行它需要多久：

time python standard_res_conversion.py

在我的酷睿 i7-8700k 6 核 CPU 上，運(yùn)行時(shí)間為 7.9864 秒!在這樣的高端 CPU 上，這種速度看起來(lái)是難以讓人接受的，看看我們能做點(diǎn)什么。

更快的方法

為了便于理解并行化的提升，假設(shè)我們需要執(zhí)行相同的任務(wù)，比如將 1000 個(gè)釘子釘入木頭，假如釘入一個(gè)需要一秒，一個(gè)人就需要 1000 秒來(lái)完成任務(wù)。四個(gè)人組隊(duì)就只需要 250 秒。

在我們這個(gè)包含 1000 個(gè)圖像的例子中，可以讓 Python 做類(lèi)似的工作：

將 jpeg 文件列表分成 4 個(gè)小組;
運(yùn)行 Python 解釋器中的 4 個(gè)獨(dú)立實(shí)例;
讓 Python 的每個(gè)實(shí)例處理 4 個(gè)數(shù)據(jù)小組中的一個(gè);
結(jié)合四個(gè)處理過(guò)程得到的結(jié)果得出最終結(jié)果列表。

這一方法的重點(diǎn)在于，Python 幫我們處理了所有棘手的工作。我們只需告訴它我們想要運(yùn)行哪個(gè)函數(shù)，要用多少 Python 實(shí)例，剩下的就交給它了!只需改變?nèi)写a。實(shí)例：

import glob 
import os 
import cv2 
import concurrent.futures 
 
 
def load_and_resize(image_filename): 
 ### Read in the image data 
 img = cv2.imread(image_filename) 
 
 ### Resize the image 
 img = cv2.resize(img, (600, 600))  
 
 
### Create a pool of processes. By default, one is created for each CPU in your machine. 
with concurrent.futures.ProcessPoolExecutor() as executor: 
 ### Get a list of files to process 
 image_files = glob.glob("*.jpg") 
 
 ### Process the list of files, but split the work across the process pool to use all CPUs 
 ### Loop through all jpg files in the current folder  
 ### Resize each one to size 600x600 
 executor.map(load_and_resize, image_files)

從以上代碼中摘出一行：

with concurrent.futures.ProcessPoolExecutor() as executor:

你的 CPU 核越多，啟動(dòng)的 Python 進(jìn)程越多，我的 CPU 有 6 個(gè)核。實(shí)際處理代碼如下：

executor.map(load_and_resize, image_files)

「executor.map()」將你想要運(yùn)行的函數(shù)和列表作為輸入，列表中的每個(gè)元素都是我們函數(shù)的單個(gè)輸入。由于我們有 6 個(gè)核，我們將同時(shí)處理該列表中的 6 個(gè)項(xiàng)目!

如果再次用以下代碼運(yùn)行我們的程序：

time python fast_res_conversion.py

我們可以將運(yùn)行時(shí)間降到 1.14265 秒，速度提升了近 6 倍!

注意：在生成更多 Python 進(jìn)程及在它們之間整理數(shù)據(jù)時(shí)會(huì)有一些開(kāi)銷(xiāo)，所以速度提升并不總是這么明顯。但是總的來(lái)說(shuō)，速度提升還是非?？捎^的。

它總是那么快嗎?

如果你有一個(gè)數(shù)據(jù)列表要處理，而且在每個(gè)數(shù)據(jù)點(diǎn)上執(zhí)行相似的運(yùn)算，那么使用 Python 并行池是一個(gè)很好的選擇。但有時(shí)這不是***解決方案。并行池處理的數(shù)據(jù)不會(huì)在任何可預(yù)測(cè)的順序中進(jìn)行處理。如果你對(duì)處理后的結(jié)果有特殊順序要求，那么這個(gè)方法可能不適合你。

你處理的數(shù)據(jù)也必須是 Python 可以「炮制」的類(lèi)型。所幸這些指定類(lèi)別都很常見(jiàn)。以下來(lái)自 Python 官方文件：

None, True, 及 False
整數(shù)、浮點(diǎn)數(shù)、復(fù)數(shù)
字符串、字節(jié)、字節(jié)數(shù)組
只包含可挑選對(duì)象的元組、列表、集合和字典
在模塊頂層定義的函數(shù)(使用 def ，而不是 lambda )
在模塊頂層定義的內(nèi)置函數(shù)
在模塊頂層定義的類(lèi)
這種類(lèi)的實(shí)例，其 __dict__ 或調(diào)用__getstate__() 的結(jié)果是可選擇的(參見(jiàn)「Pickling Class Instances」一節(jié))。

原文鏈接：

https://towardsdatascience.com/heres-how-you-can-get-a-2-6x-speed-up-on-your-data-pre-processing-with-python-847887e63be5

【本文是51CTO專(zhuān)欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文，微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】

戳這里，看該作者更多好文

責(zé)任編輯：趙寧寧來(lái)源： 51CTO專(zhuān)欄

Python 代碼機(jī)器學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<thead id="pdav2"><rt id="pdav2"></rt></thead>

<legend id="pdav2"></legend>