自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="wlnd5"><li id="wlnd5"></li></s><sub id="wlnd5"><i id="wlnd5"></i></sub>

<sub id="wlnd5"><i id="wlnd5"></i></sub>

<sub id="wlnd5"><dl id="wlnd5"></dl></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Python3爬取B站視頻彈幕

作者：佚名 2018-01-04 09:20:55

開(kāi)發(fā) 后端

本文通過(guò)8個(gè)步驟教你如何使用Python3爬取B站的視頻彈幕，快往下看看吧。

需要準(zhǔn)備的環(huán)境:

一個(gè)B站賬號(hào)，需要先登錄,否則不能查看歷史彈幕記錄
聯(lián)網(wǎng)的電腦和順手的瀏覽器，我用的Chrome
Python3環(huán)境以及request模塊，安裝使用命令，換源比較快：

pip3 install  request -i http://pypi.douban.com/simple

爬取步驟:

1.登錄后打開(kāi)需要爬取的視頻頁(yè)面，打開(kāi)開(kāi)發(fā)者工具臺(tái)，Chrome可以使用F12快捷鍵，選擇network監(jiān)聽(tīng)請(qǐng)求

2.點(diǎn)擊查看歷史彈幕，獲取請(qǐng)求

其中rolldate后面的數(shù)字表示該視頻對(duì)應(yīng)的彈幕號(hào)，返回的數(shù)據(jù)中timestamp表示彈幕日期，new表示數(shù)目

4.在查看歷史彈幕中任選一天，查看，會(huì)發(fā)出新的請(qǐng)求

dmroll ，時(shí)間戳，彈幕號(hào)，表示獲取該日期的彈幕，1507564800 表示2017/10/10 0:0:0

該請(qǐng)求返回xml數(shù)據(jù)

5.使用正則表達(dá)式獲取所有彈幕消息，匹配模式

'<d p=".*?">(.*?)</d>'

6.拼接字符串，將所有彈幕保存到本地文件即可

with open('content.txt', mode='w+', encoding='utf8') as f:    f.write(content)

7.參考代碼如下，將彈幕按照日期保存為單個(gè)文件...因?yàn)樘嗔?..

import requests 
 
import re 
 
import time  
 
"""    爬取嗶哩嗶哩視頻彈幕信息"""  
 
# 2043618 是視頻的彈幕標(biāo)號(hào),這個(gè)地址會(huì)返回時(shí)間列表 
 
# https://www.bilibili.com/video/av1349282 
 
url = 'https://comment.bilibili.com/rolldate,2043618' 
 
# 獲取彈幕的id 2043618 
 
video_id = url.split(',')[-1]print(video_id) 
 
# 獲取json文件 
 
html = requests.get(url) 
 
# print(html.json()) 
 
  
 
# 生成時(shí)間戳列表 
 
time_list = [i['timestamp'] for i in html.json()] 
 
# print(time_list) 
 
  
 
# 獲取彈幕網(wǎng)址格式 'https://comment.bilibili.com/dmroll,時(shí)間戳,彈幕號(hào)' 
 
  
 
# 彈幕內(nèi)容,由于總彈幕量太大,將每個(gè)彈幕文件分別保存 
 
for i in time_list:    content = ''    j = 'https://comment.bilibili.com/dmroll,{0},{1}'.format(i, video_id)    print(j)    text = requests.get(j).text 
 
    # 匹配彈幕內(nèi)容    res = re.findall('<d p=".*?">(.*?)</d>', text)     
 
    # 將時(shí)間戳轉(zhuǎn)化為日期形式,需要把字符串轉(zhuǎn)為整數(shù)    timeArray = time.localtime(int(i))    date_time = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)    print(date_time)    content += date_time + ' 
 
'    for k in res:        content += k + ' 
 
'    content += ' 
 
'    file_path = 'txt/{}.txt'.format(time.strftime("%Y_%m_%d", timeArray))    print(file_path)     
 
    with open(file_path, mode='w+', encoding='utf8') as f:        f.write(content)

8.最終效果

責(zé)任編輯：龐桂玉來(lái)源：程序員共讀

python 爬蟲(chóng)視頻彈幕

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="5wdxg"></sub>

<abbr id="5wdxg"></abbr>