Python中實(shí)現(xiàn)“一行拆多行“和“多行并一行“,你會嗎?
粉絲提問
今天粉絲提了下面這樣一個問題,其中一個是"一行拆多行",另外一個是"多行并一行",貌似群友用power query已經(jīng)解決了。但是基于Python怎么做呢?接著往下看。
一行拆多行
上面這個問題我會提供兩個思路,供大家選擇,當(dāng)然肯定是越簡單得越好。每種方法中都有一些好用的技巧,希望大家能夠好好學(xué)習(xí)。
1)方法一
下方代碼中有很多重要的知識點(diǎn),需要我們下去好好學(xué)習(xí)一下,我只提供解題思路,關(guān)于每個知識點(diǎn)怎么用,希望大家下去自行研究學(xué)習(xí)。
- Pandas.melt()函數(shù)的用法;
- Series.str.split("/",expand=True)中,expand=True參數(shù)的用法;
- Series.sort_values()對文本進(jìn)行排序;
- Python中enumerate()函數(shù)的用法;
- import pandas as pd
- # 讀取數(shù)據(jù)
- df = pd.read_excel("test1.xlsx",sheet_name="Sheet1")
- # 將一列炸裂成多列
- df[["類型1","類型2","類型3"]] = df["電影類型"].str.split("/",expand=True)
- # 選取想要的列
- df_final = df[["電影名","類型1","類型2","類型3"]]
- # 將行轉(zhuǎn)列
- df_final = df_final.melt(id_vars=["電影名"],value_name="類型")
- # 對“電影名”字段進(jìn)行排序
- df_final = df_final[["電影名","類型"]]
- df_final.sort_values(by="電影名",inplace=True)
- # 刪除“類型==None”的行
- for index,value in enumerate(df_final["類型"]):
- if value == None:
- df_final.drop(df_final.index[index],inplace=True)
- df_final
結(jié)果如下:
2)方法二
上述方法確實(shí)復(fù)雜,由于我的Pandas版本是0.23.4,因此無法使用explode()方法,進(jìn)行炸裂操作。在pandas0.25版本的時候,DataFrame中才新增了一個explode()方法,專門用來將一行變多行。
- Pandas.explode()函數(shù)的用法;
- import pandas as pd
- # 讀取數(shù)據(jù)
- df = pd.read_excel("test1.xlsx",sheet_name="Sheet1")
- # 將一行拆分成列表形式,注意:這里不需要使用expand=True參數(shù)
- df["type"] = df["電影類型"].str.split("/")
- # 直接炸裂指定列
- df.explode("type")
結(jié)果如下:
多行并一行這里沒有使用什么特別的知識,好好的理解Pandas中分組聚合應(yīng)用某個函數(shù),即可輕松解決這個問題。
- import pandas as pd
- # 讀取數(shù)據(jù)
- df = pd.read_excel("test1.xlsx",sheet_name="Sheet2")
- # 分組聚合,應(yīng)用某個函數(shù)
- def func(df):
- return ','.join(df.values)
- df = df.groupby(by='電影名').agg(func).reset_index()
- df
結(jié)果如下: