用Python監(jiān)控并分析城市空氣質(zhì)量
同為發(fā)展中國家,印度也受到空氣質(zhì)量問題的困擾,本文就以印度的城市為例進(jìn)行數(shù)據(jù)分析。利用簡單的Python代碼,分析城市空氣質(zhì)量及其每天在全國范圍內(nèi)(即印度水平)的排名。
在開始之前,先介紹一下整個(gè)分析過程中使用的一些基本原理。印度政府中央污染控制委員會(CPCB)是該國環(huán)境空氣質(zhì)量監(jiān)測的監(jiān)管機(jī)構(gòu),每天為那些設(shè)有連續(xù)環(huán)境空氣質(zhì)量監(jiān)測站的印度城市發(fā)布空氣質(zhì)量相關(guān)信息公告。該公告包含有特定城市的空氣質(zhì)量指數(shù)(AQI)、空氣質(zhì)量類別、標(biāo)準(zhǔn)污染物以及該城市運(yùn)行的監(jiān)測站數(shù)量相關(guān)的信息。本文正是通過分析這個(gè)空氣質(zhì)量指數(shù)(AQI)來對城市進(jìn)行排名。
如下所示是對于公告中一些術(shù)語的解釋:
- a)空氣質(zhì)量指數(shù)(AQI):空氣質(zhì)量指數(shù)是一個(gè)表示空氣質(zhì)量狀況的無量綱數(shù)字。
- b)空氣質(zhì)量類別或等級:根據(jù)空氣質(zhì)量指數(shù),空氣質(zhì)量情況被分為6個(gè)類別,即“優(yōu)秀”、“良好”、“中等”、“差”、“非常差”和“嚴(yán)重”。隨著空氣質(zhì)量的下降,該類別從“優(yōu)秀”到“嚴(yán)重”,表明有可能對健康產(chǎn)生不利影響。
- c)標(biāo)準(zhǔn)污染物:尺寸為2.5和10微米的顆粒物、二氧化氮(NO2)、二氧化硫(SO2)、一氧化碳(CO)、臭氧(O3)、氨(NH3)和鉛(Pb)是空氣質(zhì)量指數(shù)計(jì)算中涉及的具有潛在不利健康影響的主要標(biāo)準(zhǔn)污染物。在計(jì)算單個(gè)污染物的空氣質(zhì)量指數(shù)值時(shí),應(yīng)將空氣質(zhì)量指數(shù)最高的污染物宣布為該市的空氣質(zhì)量指數(shù),并將相應(yīng)的污染物宣布為標(biāo)準(zhǔn)污染物。
- d)監(jiān)測站:表示該城市在特定日期內(nèi)運(yùn)行的空氣質(zhì)量監(jiān)測站的總數(shù)。這些監(jiān)測站監(jiān)測的污染物濃度(即標(biāo)準(zhǔn)污染物)用于評估任何城市的空氣質(zhì)量指數(shù)。
進(jìn)行此分析有何好處?
官員們從AQI公告中實(shí)際匯編了感興趣的城市信息。隨著所關(guān)注的城市的增加,這項(xiàng)工作變得更加困難,必須在下午6點(diǎn)前報(bào)告上級,而公告在每天4點(diǎn)后才發(fā)布,這可能會導(dǎo)致無意的人為錯(cuò)誤。由于這些原因開發(fā)了這套Python代碼。這種分析的好處包括減少人工分析的人力,可靠的結(jié)果減少了人為的錯(cuò)誤,提高了公眾的知識水平,提高了政策制定者做出明智選擇的能力,包括監(jiān)測當(dāng)?shù)乜諝赓|(zhì)量管理的結(jié)果等。
現(xiàn)在開始編碼:
第1步:導(dǎo)入庫
導(dǎo)入庫numpy、requests、pandas、sys和tabula。requests?庫是為了從出版商的頁面上采集AQI公告。然后tabula?庫將PDF格式的公告讀到數(shù)據(jù)框中。pandas和numpy用作數(shù)據(jù)分析和科學(xué)計(jì)算。
第2步:用戶定義的輸入
a)感興趣的日期(YYYYMMDD格式);
b)下載PDF格式的AQI公告文件的路徑;
c)特定城市/感興趣的城市名單(可選)。
最終分析提供了每日AQI公告中提到的所有城市的排名。然而,在提取特定城市/感興趣的城市的排名的情況下,可以在c)中提供這些城市的名單。確保與c)中提供的城市相關(guān)的信息必須出現(xiàn)于AQI公報(bào)中。
警告:請確保調(diào)用的意向日期是在2018年1月29日或之后。
檢查完成后繼續(xù)進(jìn)行后續(xù)步驟。
第3步:下載AQI公告
使用request?庫下載AQI公告。使用tabula庫以數(shù)據(jù)幀格式讀取下載的pdf文件。如果在用戶定義的日期內(nèi)無法獲得AQI公報(bào),運(yùn)行將被終止。
第4步:基本數(shù)據(jù)清理
在這里,刪除重復(fù)的和不適用的數(shù)據(jù),重新設(shè)置列名,并按AQI的降序?qū)?shù)據(jù)框進(jìn)行排序。包含AQI值的數(shù)據(jù)框列被命名為“索引”。
第5步:根據(jù)空氣質(zhì)量指數(shù)對城市進(jìn)行排名
當(dāng)天擁有最高AQI值的城市獲得最高排名。輸出final_file包括根據(jù)AQI值在AQI公告中指定的城市的排名。2個(gè)或更多具有相同AQI值的城市被提供相同的排名。
第6步:對用戶定義的城市進(jìn)行排名并生成單獨(dú)的數(shù)據(jù)幀
生成的輸出文件名為city_ranking,包含了用戶定義的特定城市的所有必要信息。
數(shù)據(jù)分析
首先運(yùn)行代碼。現(xiàn)在輸入每個(gè)用戶定義的預(yù)設(shè)條件:
- a) 輸入分析的日期,格式為YYYMMDD:20230401
- b) 定義下載公告的Pathway地址:由用戶決定,這里使用C:/Users/USER/Downloads
- c) 輸入由逗號和無空格分隔的城市列表:Mumbai、Delhi、Bangalore、Hyderabad、Ahmedabad、Chennai、Kolkata、Surat、Vadodara、Pune
輸出如下圖所示:
輸出(city_ranking)顯示了用戶定義的城市的空氣質(zhì)量狀況、指數(shù)、主要污染物、監(jiān)測空氣污染的監(jiān)測站數(shù)量和排名。注:在用戶定義的分析日期,AQI公報(bào)中沒有與Bangalore和Vadodara有關(guān)的信息,因此沒有顯示在數(shù)據(jù)框中。
使用這套代碼,可以了解許多有用的內(nèi)容。例如,使用for循環(huán),就可以使用來自AQI公告庫的數(shù)據(jù),并查看數(shù)據(jù)是如何隨時(shí)間變化的。