自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="29u63"></sub>

<cite id="29u63"><track id="29u63"></track></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

[Python]消失在QQ空間里的青春

作者：程序員共成長(zhǎng) 2018-12-18 13:41:40

開發(fā) 后端移動(dòng)開發(fā)

QQ空間，這個(gè)曾經(jīng)陪我們從童年到少年再到成年，從2G時(shí)代再到如今的4G末，占據(jù)了我們太多的青春回憶，如今好友空間動(dòng)態(tài)更新的不在像從前那樣頻繁。

QQ空間，這個(gè)曾經(jīng)陪我們從童年到少年再到成年，從2G時(shí)代再到如今的4G末，占據(jù)了我們太多的青春回憶，如今好友空間動(dòng)態(tài)更新的不在像從前那樣頻繁。依稀記得當(dāng)年的好友買賣，搶車位再或者情侶空間，現(xiàn)在想想那時(shí)候真的很幼稚，那就是我們傻逼的童年，什么互踩，火星文，跑堂見(jiàn)證了我們無(wú)憂無(wú)慮的童年。

有時(shí)候看看QQ推送的"那年今日"，看到自己好幾年前發(fā)的動(dòng)態(tài)，說(shuō)的傻話，自己都怕了自己。有時(shí)候看到好朋友幾年前的動(dòng)態(tài)，不由笑罵道，這孫子，怎么這么2! 即使現(xiàn)在不怎么用QQ了，有時(shí)候看看曾經(jīng)發(fā)的說(shuō)說(shuō)還有空間的留言。即使讓我再尷尬也不舍得刪，因?yàn)槟嵌际乔啻簼M滿的回憶。

空間留言上千條，說(shuō)說(shuō)也比較多，一頁(yè)一頁(yè)的翻比較麻煩。索性就把這些數(shù)據(jù)都下載到本地。同理我們也可以導(dǎo)出全部聯(lián)系人的說(shuō)說(shuō)和留言板。

Selenium

由于訪問(wèn)好友留言板需要登錄，為了方便起見(jiàn)我們使用Web應(yīng)用程序測(cè)試的Selenium工具。該工具可以用于單元測(cè)試，集成測(cè)試，系統(tǒng)測(cè)試等等。它可以像真正的用戶一樣去操作瀏覽器等，支持Mozilla Firefox、Google Chrome、Safari、Opera、IE等等瀏覽器。

使用這個(gè)工具之前我們需要安裝selenium庫(kù)和下載相應(yīng)瀏覽器的驅(qū)動(dòng)。然后通過(guò)分析QQ空間登錄界面我們發(fā)現(xiàn)默認(rèn)是掃碼登錄，因此需要切換成賬號(hào)密碼登錄。

通過(guò)分析html標(biāo)簽屬性，我們發(fā)現(xiàn) id="switcher_plogin"，是個(gè)切換登錄的全局唯一屬性。同理我們?cè)傩枰业劫~號(hào)、密碼輸入框和點(diǎn)擊登錄的元素就可以用selenium模擬登錄了

登錄部分代碼如下：

from selenium import webdriver 
 
driver = webdriver.Chrome() 
    # 獲取谷歌瀏覽器驅(qū)動(dòng) 
    driver = webdriver.Chrome() 
    # 登錄網(wǎng)站 
    driver.get('https://i.qq.com') 
    # 選擇賬號(hào)密碼登錄 
    driver.switch_to_frame('login_frame') 
    # 點(diǎn)擊輸入框獲取輸入 
    driver.find_element_by_id('switcher_plogin').click() 
    # 輸入賬號(hào) 
    driver.find_element_by_id('u').send_keys('你的qq號(hào)') 
    # 輸入密碼 
    driver.find_element_by_id('p').send_keys('qq密碼') 
    # 點(diǎn)擊登錄 
    driver.find_element_by_id('login_button').click()

工作前的參數(shù)準(zhǔn)備

通過(guò)查看開發(fā)者工具中的請(qǐng)求我們發(fā)現(xiàn)，登錄之后每次請(qǐng)求除了攜帶必要的參數(shù)以外，還攜帶了登錄獲取的token和g_tk。token我們可以從網(wǎng)頁(yè)源代碼中直接獲取，但是g_tk在源代碼中沒(méi)有，根據(jù)以往經(jīng)驗(yàn)第一步只能從js中查看，果然發(fā)現(xiàn)了一段加密代碼，再結(jié)合上下文發(fā)現(xiàn)是從cookie中取出“p_skey”的值再經(jīng)過(guò)一系列操作就是g_tk的值了。因?yàn)槲覀冃枰全@取cookie，然后再通過(guò)cookie獲取g_tk。

部分js加密邏輯代碼

if (e) { 
     if (e.host && e.host.indexOf("qzone.qq.com") > 0) { 
        try { 
           t = parent.QZFL.cookie.get("p_skey") 
        } catch(e) { 
           t = QZFL.cookie.get("p_skey") 
        } 
     }  
        ............ 
  } 
 
"g_tk=" + QZFL.pluginsDefine.getACSRFToken(t) 
 
QZFL.pluginsDefine.getACSRFToken._DJB = function(e) { 
        var t = 5381; 
        for (var n = 0, 
        r = e.length; n < r; ++n) { 
            t += (t << 5) + e.charCodeAt(n) 
        } 
        return t & 2147483647 
    };

獲取token && cookie && g_tk代碼

""" 
 獲取g_tk的值 
""" 
def get_g_tk(cookie): 
    hashes = 5381 
    for letter in cookie['p_skey']: 
        hashes += (hashes << 5) + ord(letter) 
    return hashes & 0x7fffffff 
 
# 獲取登錄之后的cookie信息 
cookie = {} 
for elem in driver.get_cookies(): 
    cookie[elem['name']] = elem['value'] 
# 獲取g_tk 
g_tk = get_g_tk(cookie) 
# 利用xpath獲取登錄之后的網(wǎng)頁(yè)源代碼 
html = driver.page_source 
xpath = r'window\.g_qzonetoken = \(function\(\)\{ try\{return "(.*?)";}' 
# 通過(guò)xpath 獲得登錄后的token 
token = re.compile(xpath).findall(html)[0]

開始搞事

破解了一個(gè)簡(jiǎn)單的反爬蟲，下面就可以編寫正式的爬蟲代碼了，首先確定我們目標(biāo)url、通過(guò)瀏覽器分析響應(yīng)的json對(duì)象、編寫headers

因?yàn)槊看握?qǐng)求都需要攜帶登錄信息，為了方便我們用到了session類，其次觀察相應(yīng)我們發(fā)現(xiàn)返回的response有無(wú)用的字符，因此需要進(jìn)行截取

headers = { 
    'authority': 'user.qzone.qq.com', 
    'method': 'GET', 
    'scheme': 'https', 
    'accept-language': 'zh-CN,zh;q=0.9', 
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36', 
} 
 
def get_resp(cookie, g_tk, token, page): 
    session = requests.session() 
    # 將cookie字典轉(zhuǎn)換成RequestsCookieJar 
    c = requests.utils.cookiejar_from_dict(cookie) 
    # 將headers 放入session 
    session.headers = headers 
    # RequestsCookieJar復(fù)制給session 
    session.cookies = c 
    # 訪問(wèn)留言板的url 
    url = f'https://user.qzone.qq.com/proxy/domain/m.qzone.qq.com/cgi-bin/new/get_msgb?uin={登陸的qq}&hostUin={要查詢留言內(nèi)容的QQ號(hào)}&start={page}&num=10&g_tk={g_tk}&qzonetoken={token}' 
    print(url) 
    response = session.get(url) 
    # 截取無(wú)用的字符 
    resp_text = response.text[10: -3] 
    # 轉(zhuǎn)為json 
    resp_json = json.loads(resp_text) 
    return resp_json

上面的方法，只是獲得了某一頁(yè)的接口相應(yīng)，我們通過(guò)json獲取留言總數(shù)，再除以每頁(yè)的條數(shù)，就可以知道總頁(yè)數(shù)了。然后再遍歷去取每頁(yè)的數(shù)據(jù)，為了方便查看將數(shù)據(jù)保存在csv文件中，另外將留言內(nèi)容保存在txt文件中，生成詞云。

def get_zone_xx(cookie, g_tk, token, page=0): 
    # 初始化請(qǐng)求為了取總條數(shù) 
    resp_json = get_resp(cookie, g_tk, token, page) 
    # 總條數(shù) 
    total = resp_json['data']['total'] 
    print(f'共{total}條留言信息') 
    # 總頁(yè)數(shù) 
    size = int(total/10 + 1) 
    # 已經(jīng)讀取的信息條數(shù) 
    use_page = 0 
    # 保存每條數(shù)據(jù)信息，生成csv文件用 
    content_arr = [] 
    for i in range(0, size): 
        # 請(qǐng)求每一頁(yè)的內(nèi)容 
        resp_json = get_resp(cookie, g_tk, token, i) 
        # 當(dāng)條數(shù)大于或等于總條數(shù) 跳出循環(huán) 
        if use_page >= total: 
            break 
        # 從每頁(yè)數(shù)據(jù)中取出需要的字段值 
        for comment in resp_json['data']['commentList']: 
            use_page += 1 
            print(f'當(dāng)前正在讀取第{use_page}條') 
            page_json = [] 
            # 留言日期 
            page_json.append(comment['pubtime']) 
            # 昵稱 
            page_json.append(comment['nickname']) 
            # 內(nèi)容 
            content = replace_html(comment['htmlContent']) 
            # 將內(nèi)容寫入文本 生成詞云用 
            with open('zone_text111.txt', 'a') as f: 
                f.write(content) 
 
            page_json.append(content) 
            content_arr.append(page_json)

生成csv文件

# 將總數(shù)據(jù)轉(zhuǎn)化為data frame再輸出 
 df = pd.DataFrame(data=content_arr, 
                   columns=['留言日期', '昵稱', '留言內(nèi)容']) 
 df.to_csv('QQ_ZONE.csv', index=False, encoding='utf-8_sig') 
 print('已保存為csv文件.')

運(yùn)行上面代碼生成csv文件部分內(nèi)容如下

生成詞云(wordcloud)代碼如下

from wordcloud import WordCloud 
import matplotlib.pyplot as plt 
with open('zone_text.txt','r') as f: 
    mytext = f.read() 
 
font = r'C:\Windows\Fonts\simfang.ttf' 
wc = WordCloud(collocations=False, font_path=font, width=1400, height=1400, margin=2).generate(mytext) 
plt.imshow(wc) 
plt.axis("off") 
plt.show() 
 
plt.show()

運(yùn)行結(jié)果如下：

寫在最后

上面的代碼并沒(méi)有太復(fù)雜，也許是觸景生情，也許是對(duì)現(xiàn)在朋友圈各種亂七八糟的信息產(chǎn)生了抵觸，所以試著去回憶青春的那些往事。

朋友圈和空間并不能去衡量一個(gè)人是是否成熟，但是對(duì)于大部分90后來(lái)說(shuō)，空間真的是承載了太多純真的回憶。不忘初心，砥礪前行!!!

責(zé)任編輯：未麗燕來(lái)源：程序員共成長(zhǎng)

Python QQ空間代碼

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="jbm3d"></blockquote>

<legend id="jbm3d"><track id="jbm3d"></track></legend>