自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為什么Python比VBA更適合自動化處理Excel數(shù)據(jù)?

大數(shù)據(jù) 自動化
每當有人發(fā)布關(guān)于 python 處理 Excel 數(shù)據(jù)的文章,總會有人只看了標題就評論:"vba處理已經(jīng)足夠,完全沒必要使用python";"我工作環(huán)境不能安裝,因此vba就比python更適合處理Excel";"vba比python快速100倍!"其實,那些稍微接觸過 pandas 的人,相信都會心底上抗拒使用vba。

每當有人發(fā)布關(guān)于 python 處理 Excel 數(shù)據(jù)的文章,總會有人只看了標題就評論:

  • "vba處理已經(jīng)足夠,完全沒必要使用python"。
  • "我工作環(huán)境不能安裝,因此vba就比python更適合處理Excel"
  • "vba比python快速100倍!"

其實,那些稍微接觸過 pandas 的人,相信都會心底上抗拒使用vba。

而我本人一直保持一個觀點,各種工具都有他的優(yōu)劣勢,拋開應(yīng)用場景單純說某個工具更好都是在耍流氓。今天,我就舉例說明一下,哪些場景適合vba,哪些場景適合python。

我喜歡用實際案例說明問題,本文使用泰坦尼克號沉船事件中的乘客信息表:

 

為什么python比vba更適合自動化處理Excel數(shù)據(jù)?

實現(xiàn)幾個簡單分析需求:

  • 找出多人(2人或以上)一起登船的組的數(shù)量
  • 列出這些人的信息
  • 是否存在最幸運的親朋好友(多人一起登船,同時全部人都獲救)?

"操作 Excel"等于"數(shù)據(jù)處理"嗎?

初學者往往誤以為操作 Excel 就是在處理數(shù)據(jù),實際上是兩回事。

需求是:"姓名與住址列內(nèi)容通常很長,希望最終Excel顯示的時候,使用縮小字體填充"。

 

為什么python比vba更適合自動化處理Excel數(shù)據(jù)?

對于這種格式化設(shè)置,vba絕對是最佳選擇!因為我們可以通過錄制宏,自動得到大概的代碼

通過簡單的錄制宏,我們就能寫出如下實現(xiàn):

 

為什么python比vba更適合自動化處理Excel數(shù)據(jù)?

如果我們使用 python 實現(xiàn)相同的需求,代碼肯定只多不少,并且難以調(diào)試。

如果你看過我的專欄《帶你玩轉(zhuǎn)Python數(shù)據(jù)處理—pandas》的話,其中關(guān)于數(shù)據(jù)處理流程一節(jié),你會想到,這就是"數(shù)據(jù)展示"的流程。

也就是說,如果你的數(shù)據(jù)任務(wù)最終需要輸出 Excel 文件,vba是"數(shù)據(jù)展示"過程的最佳自動化工具。

可惜,現(xiàn)實中的大部分需求并不單純,都需要進行"數(shù)據(jù)處理",那么 vba 中又是如何處理數(shù)據(jù)?

vba 使用數(shù)組+字典,就是高效率?

大部分不經(jīng)思考,張口就反對 python 的同學,都是對自己的 vba "數(shù)組+字典" 的技能有著迷之自信。

來看一個數(shù)據(jù)分析相關(guān)的處理需求:

我們注意到,有些人是親朋好友一起上船,比如:

 

為什么python比vba更適合自動化處理Excel數(shù)據(jù)?
  • 從"票根號"一樣,可以看出來他們是一起上船
  • 從"住址"一樣,可以看出來他們是一家四口

我們需要統(tǒng)計出有多少組這些2人或以上登船的?

以下嘗試用vba解決:

 

為什么python比vba更適合自動化處理Excel數(shù)據(jù)?

其實代碼不算多,里面的技巧也只是基礎(chǔ),但是如果會 pandas 的同學心里肯定會說:"太繁瑣了"。

因為對于 pandas 來說,如下:

 

為什么python比vba更適合自動化處理Excel數(shù)據(jù)?

代碼就4句,最關(guān)鍵的其實只有3句,分別表示:

  • 加載數(shù)據(jù)
  • 按"票根號"分組統(tǒng)計數(shù)量
  • 數(shù)量大于1的總和

這不就是一個正常人的處理思維嗎?這就是簡潔

能夠與需求表達語義相近,多余的表達越少,即越簡潔

回頭看 vba 的表達,多余的表達非常多。

  • Excel 有一個非常好用的統(tǒng)計工具——透視表。你可以嘗試通過錄制宏得到透視表的操作代碼,但是你仍然會發(fā)現(xiàn)有許多多余的表達。
  • Sql 的表達更加簡潔,但是實現(xiàn)如上的需求,你會發(fā)現(xiàn)他的表達順序需要"繞"一下

有些不服氣的同學會說:"我寫出這段vba代碼也就1分鐘,反正也能得到正確結(jié)果"

當需求不斷變化,你就會發(fā)現(xiàn)這樣子的代碼最終走向無法實現(xiàn)的死胡同。

剛剛我們知道了有216組親朋好友是一起登船的,但只有一個數(shù)字,我們希望看看這216數(shù)據(jù)的大概樣子。

也就是說輸出這些乘客數(shù)據(jù)。

python 的實現(xiàn):

 

為什么python比vba更適合自動化處理Excel數(shù)據(jù)?
  • 順便排序一下,方便觀察
  • 這里代碼多余的表達,就是那個 lambda 單詞。如果換成是 sql ,就非常簡潔

vba 的實現(xiàn)太麻煩了,就留給那些不服氣的 vba 粉絲吧

現(xiàn)在你大概能夠稍微理解,為什么 Python 在數(shù)據(jù)領(lǐng)域這么受寵了。

數(shù)據(jù)分析中的數(shù)據(jù)處理,需要你的代碼趕上你的思維速度,只有簡潔的語言才能做到。

按理說,sql 應(yīng)該是更好的選擇,但實際上很多復雜需求實現(xiàn),sql 需要大量的嵌套查詢,此時就一點都不簡潔了。以后再舉例說明

現(xiàn)實的需求是 "操作Excel" + "數(shù)據(jù)處理" ,怎么辦?

這時候最理想的情況是,使用 vba 操作 Excel,數(shù)據(jù)處理交給 Python,中間就需要一個橋梁把 vba 與 python 打通,這就是 xlwings 或其他類似的庫的最佳實踐方式。

如果你完全使用 xlwings 控制 Excel,Python 代碼操作 Excel 寫起來非常別扭,一旦你理清楚 "操作Excel" 與 "數(shù)據(jù)處理" 的區(qū)別,自然而然知道如何組織你的代碼。

Python 需要單獨安裝,因此他比不上 vba

這是一種無聊的結(jié)論,因為任何自動化工具都需要安裝,比如學習性價比最高的 Sql ,他也需要安裝相應(yīng)的驅(qū)動程序才能執(zhí)行。

而我本人的工作環(huán)境有一部分任務(wù)是需要放在服務(wù)器上執(zhí)行,此時是不可能安裝 Excel,vba 也用不上了,但我不能因此作出"vba比不上python"的結(jié)論吧。

如果你的工作環(huán)境不能安裝 python,但你又需要做大量數(shù)據(jù)處理任務(wù),那么我只能說非常不幸,你只能犧牲自己大量的時間使用vba去完成需求。

Vba 就不能有 pandas 的存在嗎?

"說了半天,不就是 python 比 vba 多了一個 pandas 庫而已嗎,找個vba牛人去寫一個 vba-pandas 就行啦!"

vba 天生缺少了一種語言特性,使得你即使有寫庫的能力,也無法發(fā)揮。

這就是提取邏輯的能力.

通常來說,如果一段代碼有些數(shù)據(jù)不是固定,我們可以提取成函數(shù)的參數(shù),比如最簡單的數(shù)字計算:

 

為什么python比vba更適合自動化處理Excel數(shù)據(jù)?
  • 分別定義3個參數(shù),讓你輸入,但計算方式是固定的

對于 vba 來說他同樣可以做到,但是如果是其中一段代碼不是固定,能否把他提取為參數(shù)呢?

而 python 就能做到,比如以下的函數(shù),可以讓你輸入3個數(shù)字,并且由你決定前2個數(shù)字的計算方式,最后與第3個數(shù)字做乘法:

 

為什么python比vba更適合自動化處理Excel數(shù)據(jù)?

結(jié)果時,第一個數(shù)乘以10 + 第二個數(shù)乘以100(這是變化的邏輯,由使用函數(shù)的人自行決定),最后乘以第三個數(shù)(這是固定邏輯,由定義函數(shù)的人決定)

vba 需要使用接口做到同樣的效果,非常麻煩,對于數(shù)據(jù)任務(wù)沒有任何實用價值

這有什么用處?用最后一個需求說明:

  • 是否存在最幸運的親朋好友(多人一起登船,同時全部人都獲救)?

假如說,我只給你一組相同"票根號"的乘客數(shù)據(jù),該如何判斷他們都是生還呢?

 

為什么python比vba更適合自動化處理Excel數(shù)據(jù)?

只要看"生還"列是否都為1就可以。方式非常多,除了上面的做法,還可以"生還列求和,看看是否等于記錄行數(shù)"

前一個需求中使用的 filter 就是可以接受一段邏輯(函數(shù)),pandas 負責幫你分組,你只需要在函數(shù)中描述出符合條件的邏輯即可:

 

為什么python比vba更適合自動化處理Excel數(shù)據(jù)?
  • 把剛剛定義的函數(shù),傳給 filter 函數(shù)

而 vba 無法做到這一點,就意味著他無法做出 pandas 一樣好用的庫!

因為許多看似復雜的流程,其實是由許多固定的邏輯 + 變化的邏輯 組成。

比如分組的原理就類似 vba 中使用字典,這是相對固定的,完全可以讓庫完成。

但是分組后,每一組的處理邏輯卻是變化的,由使用者臨時決定,比如之前的需求分組中我們有時候需要計數(shù),有時候需要篩選。篩選的邏輯也是千變?nèi)f化。

最后

任何工具都有他的適用場景,如何合理利用才是我們的學習方向,而非一根經(jīng)地排斥自己不熟悉的工具。

責任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2021-04-28 14:50:07

ElasticSearMySQL數(shù)據(jù)庫

2021-02-19 08:17:07

MySQL ElasticSea搜索

2022-04-28 18:37:50

PythonExcel

2021-04-21 07:31:01

ElasticSearMySQLCPU

2018-10-17 12:34:36

災難恢復云計算數(shù)據(jù)中心

2020-11-23 16:18:21

Python開發(fā)工具

2024-09-09 04:00:00

GPU人工智能

2010-11-24 10:16:04

Office 365Google Apps

2024-05-23 11:33:42

python代碼開發(fā)

2013-01-29 10:40:26

云環(huán)境應(yīng)用程序開發(fā)

2019-08-21 09:24:45

GPUCPU深度學習

2013-01-29 08:43:32

應(yīng)用程序開發(fā)PaaS

2011-12-07 20:43:33

2021-02-22 10:39:10

多云云計算云平臺

2022-07-28 13:54:16

RPABPA自動化項目

2021-04-27 09:00:00

PythonIDE開發(fā)

2025-03-28 09:15:50

2024-12-30 08:33:54

大型模型GeminiLLM

2009-09-04 11:26:00

英特爾虛擬化

2009-11-05 18:50:04

Windows 7上網(wǎng)本
點贊
收藏

51CTO技術(shù)棧公眾號