一日二技:MongoDB與 Scrapy 的小技巧各一個(gè)
今天我們來(lái)講兩個(gè)小技巧。
如何更新 MongoDB 中的一個(gè)數(shù)組
我們知道,如果想給 MongoDB 的一條文檔增加一個(gè)字段,我們可以使用update_one方法:
- import pymongo
- handler = pymongo.MongoClient().db.col
- handler.update_one({'name': 'kingname'}, {'$set': {'新的字段名': '新的字段值'}})
但如果有一個(gè)字段是數(shù)組,我想向這個(gè)數(shù)組里面添加一個(gè)元素。并且,如果這個(gè)元素之前就已經(jīng)在這個(gè)數(shù)組中了,就什么也不做,只要之前不存在時(shí)才添加。
這個(gè)時(shí)候,我們就可以使用$addToSet操作符來(lái)實(shí)現(xiàn)這個(gè)功能。
這個(gè)操作符的語(yǔ)法為:
- handler.update_one({'name': 'kingname'}, {'$addToSet': {'字段名': '要插入的元素'}})
我們來(lái)看一個(gè)例子。
例如對(duì)于如圖所示的一條文檔:
執(zhí)行代碼:
- handler.update_one({'name': 'kingname'}, {'$addToSet': {'excellent': 'JavaScript'}})
運(yùn)行以后,數(shù)組excellent變?yōu)槿缦聢D所示:
如果插入一條已經(jīng)存在的數(shù)據(jù),那么這個(gè)數(shù)組就不會(huì)變化。例如:
- handler.update_one({'name': 'kingname'}, {'$addToSet': {'excellent': 'Python'}})
如何使用參數(shù)給 Scrapy 爬蟲增加屬性
在Scrapy 項(xiàng)目中,我們有時(shí)候需要在啟動(dòng)爬蟲的時(shí)候,傳入一些參數(shù),從而讓一份代碼執(zhí)行不同的邏輯。這個(gè)時(shí)候,有一個(gè)非常方便的方法,就是使用-a參數(shù)。它的語(yǔ)法為:
- scrapy crawl 爬蟲名 -a 參數(shù)1 -a 參數(shù)2 -a 參數(shù)3
那么,傳入的這些參數(shù),在爬蟲里面怎么使用呢?其實(shí)很簡(jiǎn)單,你不需要做任何額外的配置,直接在爬蟲里面通過(guò)self.參數(shù)名就可以調(diào)用了。例如下面這個(gè)爬蟲:
大家可以看到,PyCharm 給兩個(gè)屬性self.body_name和self.age_from_cmdline標(biāo)上了黃色的背景,這是因?yàn)镻yCharm 找不到這兩個(gè)屬性是在哪里定義的。
但沒(méi)有關(guān)系,我們啟動(dòng) Scrapy 爬蟲的時(shí)候,使用-a參數(shù)傳遞進(jìn)去就好了:
- scrapy crawl example -a body_name=kingname -a age_from_cmdline=28
運(yùn)行效果如下圖所示:
可以看到,這個(gè)接口成功接收到了這兩個(gè)參數(shù),并且把它顯示了出來(lái)。
本文轉(zhuǎn)載自微信公眾號(hào)「未聞Code」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系未聞Code公眾號(hào)。