Python爬蟲全網(wǎng)搜索并下載音樂
現(xiàn)在寫一篇博客總是喜歡先談需求或者本內(nèi)容的應(yīng)用場景,是的,如果寫出來的東西沒有任何應(yīng)用價(jià)值,確實(shí)也沒有實(shí)際意義。今天的最早的需求是來自于 如何免費(fèi)[白嫖]下載全網(wǎng)優(yōu)質(zhì)音樂 ,我去b站上面搜索到了一個(gè)大牛做過的一個(gè)歌曲搜索神器,界面是這樣的:
確實(shí)很好用的,而且涵蓋了互聯(lián)網(wǎng)上面大多數(shù)主流的音樂網(wǎng)站,涉及到的版本也很多,可謂大而全,但是一個(gè)技術(shù)人的追求遠(yuǎn)遠(yuǎn)不會(huì)如此,于是我就想去了解其中背后的原理,因?yàn)樽鲞^網(wǎng)絡(luò)爬蟲的人都知道,爬蟲只能爬取某一頁或者某些頁的網(wǎng)站資源,所以我很好奇它背后是怎么實(shí)現(xiàn)的?
筆者一直以來都是做的基于Python3.7版本的網(wǎng)絡(luò)爬蟲,所以本文也是基于此來學(xué)習(xí)記錄的。首先爬取的網(wǎng)站不是對(duì)應(yīng)的音樂網(wǎng)站,而是一個(gè) 音樂直鏈搜索 ,那里匯聚了大多數(shù)音頻音樂的解析功能,界面如下:
所以自制一個(gè)搜索引擎的思想也很直觀了,那就是利用第三方的接口,直接對(duì)該服務(wù)器發(fā)起請(qǐng)求即可,然后將獲取的數(shù)據(jù)進(jìn)行解析保存。這里以最近比較火的歌曲“白月光與朱砂痣”下載為例:
解析的結(jié)果如上,獲取的數(shù)據(jù)格式是 json 類型,并且除了要有歌名以外,還要有音樂平臺(tái)。
源代碼實(shí)現(xiàn)如下:
- import requests
- import jsonpath
- import os
- """
- 1.url
- 2.模擬瀏覽器請(qǐng)求
- 3.解析網(wǎng)頁源代碼
- 4.保存數(shù)據(jù)
- """
- def song_download(url,title,author):
- # 創(chuàng)建文件夾
- os.makedirs("music",exist_ok=True)
- path = 'music\{}.mp3'.format(title)
- print('歌曲:{0}-{1},正在下載...'.format(title,author))
- # 下載(這種讀寫文件的下載方式適合少量文件的下載)
- content = requests.get(url).content
- with open(file = title + author + '.mp3',mode='wb') as f:
- f.write(content)
- print('下載完畢,{0}-{1},請(qǐng)?jiān)嚶?.format(title,author))
- def get_music_name():
- """
- 搜索歌曲名稱
- :return:
- """
- name = input("請(qǐng)輸入歌曲名稱:")
- print("1.網(wǎng)易云:netease\n2.QQ:qq\n3.酷狗:kugou\n4.酷我:kuwo\n5.百度:baidu\n6.喜馬拉雅:ximalaya")
- platfrom = input("輸入音樂平臺(tái)類型:")
- print("-------------------------------------------------------")
- url = 'https://music.liuzhijin.cn/'
- headers = {
- "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36",
- # 判斷請(qǐng)求是異步還是同步
- "x-requested-with":"XMLHttpRequest",
- }
- param = {
- "input":name,
- "filter":"name",
- "type":platfrom,
- "page": 1,
- }
- res = requests.post(url=url,data=param,headers=headers)
- json_text = res.json()
- title = jsonpath.jsonpath(json_text,'$..title')
- author = jsonpath.jsonpath(json_text,'$..author')
- url = jsonpath.jsonpath(json_text, '$..url')
- if title:
- songs = list(zip(title,author,url))
- for s in songs:
- print(s[0],s[1],s[2])
- print("-------------------------------------------------------")
- index = int(input("請(qǐng)輸入您想下載的歌曲版本:"))
- song_download(url[index],title[index],author[index])
- else:
- print("對(duì)不起,暫無搜索結(jié)果!")
- if __name__ == "__main__":
- get_music_name()
演示一下運(yùn)行效果:
然后文件下就會(huì)出現(xiàn)對(duì)應(yīng)的歌曲 .mp3 文件
并且每次的歌曲檢索都是在PyCharm專業(yè)版的控制臺(tái)中進(jìn)行的,這樣的用戶體驗(yàn)就非常糟糕,所以針對(duì)以上兩個(gè)問題,我對(duì)源代碼進(jìn)行了改進(jìn)。
- # 導(dǎo)入模塊
- from tkinter import *
- import requests
- import jsonpath
- import os
- from urllib.request import urlretrieve
- # 2.功能實(shí)現(xiàn)
- """
- 1.url
- 2.模擬瀏覽器請(qǐng)求
- 3.解析網(wǎng)頁源代碼
- 4.保存數(shù)據(jù)
- """
- def song_download(url,title,author):
- # 創(chuàng)建文件夾
- os.makedirs("music",exist_ok=True)
- path = 'music\{}.mp3'.format(title)
- text.insert(END,'歌曲:{0}-{1},正在下載...'.format(title,author))
- # 文本框滑動(dòng)
- text.see(END)
- # 更新
- text.update()
- # 下載
- urlretrieve(url,path)
- text.insert(END,'下載完畢,{0}-{1},請(qǐng)?jiān)嚶?.format(title,author))
- # 文本框滑動(dòng)
- text.see(END)
- # 更新
- text.update()
- def get_music_name():
- """
- 搜索歌曲名稱
- :return:
- """
- name = entry.get()
- platfrom = var.get()
- # name = '白月光與朱砂痣'
- url = 'https://music.liuzhijin.cn/'
- headers = {
- "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36",
- # 判斷請(qǐng)求是異步還是同步
- "x-requested-with":"XMLHttpRequest",
- }
- param = {
- "input":name,
- "filter":"name",
- "type":platfrom,
- "page": 1,
- }
- res = requests.post(url=url,data=param,headers=headers)
- json_text = res.json()
- title = jsonpath.jsonpath(json_text,'$..title')
- author = jsonpath.jsonpath(json_text,'$..author')
- url = jsonpath.jsonpath(json_text, '$..url')
- print(title,author,url)
- song_download(url[0],title[0],author[0])
- # 1.用戶界面
- # 創(chuàng)建畫板
- root = Tk()
- # 設(shè)置窗口標(biāo)題
- root.title('全網(wǎng)音樂下載器')
- # 設(shè)置窗口大小以及出現(xiàn)的位置
- root.geometry('560x450+400+200')
- # 標(biāo)簽組件
- label = Label(root,text="請(qǐng)輸入下載的歌曲:",font=('楷體',20))
- # 定位與布局
- label.grid(row=0)
- # 輸入框組件
- entry = Entry(root,font=('宋體',20))
- entry.grid(row=0,column=1)
- # 單選按鈕
- var = StringVar()
- r1 = Radiobutton(root,text='網(wǎng)易云',variable=var,value='netease')
- r1.grid(row=1,column=0)
- r2 = Radiobutton(root,text='QQ',variable=var,value='qq')
- r2.grid(row=1,column=1)
- # 列表框
- text = Listbox(root,font=('楷體',16),width=50,height=15)
- text.grid(row=2,columnspan=2)
- # 下載按鈕
- button1 = Button(root,text='開始下載',font=('楷體',15),command=get_music_name)
- button1.grid(row=3,column=0)
- button2 = Button(root,text='退出程序',font=('楷體',15),command=root.quit)
- button2.grid(row=3,column=1)
- # 顯示界面
- root.mainloop()
- # 如何將.py代碼打包成.exe文件
我們再來看看效果吧
這樣加上了UI界面和部分代碼優(yōu)化之后,就可以通過 .py代碼打包成.exe文件 發(fā)布給用戶使用了。