自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="chanp"><i id="chanp"></i></blockquote>}

<thead id="chanp"></thead>

<sub id="chanp"><p id="chanp"></p></sub>

<cite id="chanp"><rp id="chanp"><form id="chanp"></form></rp></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

用Python將數(shù)據(jù)寫到CSV文件

作者：極客猴 2018-06-04 10:04:48

大數(shù)據(jù) 后端

我們從網(wǎng)上爬取數(shù)據(jù)，最后一步會(huì)考慮如何存儲(chǔ)數(shù)據(jù)。如果數(shù)據(jù)量不大，往往不會(huì)選擇存儲(chǔ)到數(shù)據(jù)庫，而是選擇存儲(chǔ)到文件中，例如文本文件、CSV 文件、xls 文件等。因?yàn)槲募邆鋽y帶方便、查閱直觀。

我們從網(wǎng)上爬取數(shù)據(jù)，***一步會(huì)考慮如何存儲(chǔ)數(shù)據(jù)。如果數(shù)據(jù)量不大，往往不會(huì)選擇存儲(chǔ)到數(shù)據(jù)庫，而是選擇存儲(chǔ)到文件中，例如文本文件、CSV 文件、xls 文件等。因?yàn)槲募邆鋽y帶方便、查閱直觀。

Python 作為膠水語言，搞定這些當(dāng)然不在話下。但在寫數(shù)據(jù)過程中，經(jīng)常因數(shù)據(jù)源中帶有中文漢字而報(bào)錯(cuò)。最讓人頭皮發(fā)麻的編碼問題。

我先說下編碼相關(guān)的知識(shí)。編碼方式有很多種：UTF-8, GBK, ASCII 等。

ASCII 碼是美國在上個(gè)世紀(jì) 60 年代制定的一套字符編碼。主要是規(guī)范英語字符和二進(jìn)制位之間的關(guān)系。英語詞匯組成簡(jiǎn)單，由 26 個(gè)字母構(gòu)成。使用一個(gè)字節(jié)就能表示一個(gè)字母符號(hào)。外加各種符號(hào)，使用 128 個(gè)字符就滿足編碼要求。

不同國家有不同語言文字。同時(shí)，文字組成部分的數(shù)量相比英語字母要多很多。根據(jù)不完全統(tǒng)計(jì)，漢字的數(shù)量大約將近 10 萬個(gè)，日常所使用的漢字有 3000 個(gè)。顯然，ASCII 編碼無法滿足需求。所以漢字采用 GBK 編碼，使用兩個(gè)字節(jié)表示一個(gè)漢字。簡(jiǎn)體中文的編碼方式是 GBK2312。

那 UTF-8 又是什么編碼?這要先說 Unicode 了。Unicode 目的是為了統(tǒng)一各種編碼。因?yàn)楦鲊几髯缘木幋a方式。如果使用一種編碼編碼，使用另一種編碼解碼。這會(huì)造成出現(xiàn)亂碼的情況。但 Unicode 只是一個(gè)符號(hào)集，它只規(guī)定了符號(hào)的二進(jìn)制代碼，卻沒有規(guī)定這個(gè)二進(jìn)制代碼應(yīng)該如何存儲(chǔ)。UTF-8 就是在互聯(lián)網(wǎng)上使用最廣的一種 Unicode 的實(shí)現(xiàn)方式。

因此，如果我們要寫數(shù)據(jù)到文件中，***指定編碼形式為 UTF-8。

Python 標(biāo)準(zhǔn)庫中，有個(gè)名為 csv 的庫，專門處理 csv 的讀寫操作。具體使用實(shí)例如下：

import csv 
import codecs 
# codecs 是自然語言編碼轉(zhuǎn)換模塊 
 
fileName = 'PythonBook.csv' 
 
# 指定編碼為 utf-8, 避免寫 csv 文件出現(xiàn)中文亂碼 
with codecs.open(fileName, 'w', 'utf-8') as csvfile: 
    # 指定 csv 文件的頭部顯示項(xiàng) 
    filednames = ['書名', '作者'] 
    writer = csv.DictWriter(csvfile, fieldnames=filednames) 
 
    books = [] 
    book = { 
        'title': '笑傲江湖', 
        'author': '金庸', 
    } 
    books.append(book) 
 
    writer.writeheader() 
    for book in books: 
        try: 
            writer.writerow({'書名':book['title'], '作者':book['author']}) 
        except UnicodeEncodeError: 
            print("編碼錯(cuò)誤, 該數(shù)據(jù)無法寫到文件中, 直接忽略該數(shù)據(jù)")

這種方式是逐行往 CSV 文件中寫數(shù)據(jù)，所以效率會(huì)比較低。如果想批量將數(shù)據(jù)寫到 CSV 文件中，需要用到 pandas 庫。

pandas 是第三方庫，所以使用之前需要安裝。通過 pip 方式安裝是最簡(jiǎn)單、最方便的。

pip install pandas

使用 pandas 批量寫數(shù)據(jù)的用法如下：

import pandas as pd 
 
fileName = 'PythonBook.csv' 
number = 1 
 
books = [] 
book = { 
    'title': '笑傲江湖', 
    'author': '金庸', 
} 
# 如果 book 條數(shù)足夠多的話，pandas 會(huì)每次往文件中寫 50 條數(shù)據(jù)。 
books.append(book) 
 
data = pd.DataFrame(books) 
# 寫入csv文件,'a+'是追加模式 
try: 
    if number == 1: 
        csv_headers = ['書名', '作者'] 
        data.to_csv(fileName, header=csv_headers, index=False, mode='a+', encoding='utf-8') 
    else: 
        data.to_csv('fileName, header=False, index=False, mode='a+', encoding='utf-8') 
        number = number + 1 
except UnicodeEncodeError: 
    print("編碼錯(cuò)誤, 該數(shù)據(jù)無法寫到文件中, 直接忽略該數(shù)據(jù)")

作者：極客猴，熱衷于 Python，目前擅長(zhǎng)利用 Python 制作網(wǎng)絡(luò)爬蟲以及 Django 框架。

責(zé)任編輯：未麗燕來源： Python中文社區(qū)

Python 數(shù)據(jù)語言

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<meter id="ntjis"><span id="ntjis"></span></meter>

<sub id="ntjis"><p id="ntjis"></p></sub>