自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="ftwwt"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

超實用Python小技巧，輕松應對大文件

作者：學研妹 2024-02-01 18:06:04

開發(fā) 前端

處理大型文件的高效方法在Python編程中是必不可少的技能，尤其是在數(shù)據(jù)分析、機器學習和系統(tǒng)管理等領域。

Python在文件處理方面提供了非常強大的支持，然而，當處理大型文件時，標準的文件處理技術會導致高內(nèi)存使用，進而影響處理效率。在數(shù)據(jù)分析、機器學習以及系統(tǒng)管理等領域，經(jīng)常需要打開和處理大型文件，以下是一些常見的用例：

數(shù)據(jù)分析和機器學習：在這些領域中，常常需要處理大型數(shù)據(jù)集。例如，我們可能需要處理一個多GB的日志文件，或者處理用于訓練機器學習模型的大型CSV文件。由于這些文件非常龐大，直接將其全部加載到內(nèi)存中是不可行的。因此，需要有效地打開和處理這些文件，通?？梢圆捎梅謮K或按行讀取文件的方式，以適應內(nèi)存限制。
文本處理：如果處理大型文本文件，例如一本書、一批網(wǎng)頁備份或大量客戶評論，則需要先將這些文件打開，才能對其進行搜索、替換或計數(shù)等操作。
日志分析：系統(tǒng)管理員經(jīng)常需要處理大型服務器日志文件來診斷問題、監(jiān)視系統(tǒng)性能或分析用戶行為。由于Python具有強大的文本處理能力，因此可以成為日志分析工作的優(yōu)秀工具。

本文介紹如何在Python中有效地處理大型文件，確保數(shù)據(jù)的高效和安全管理。

1 使用with語句

在Python中，with語句提供了一種干凈且高效的文件處理方式。with語句管理可以自動管理文件的打開和關閉操作，即使在with塊內(nèi)發(fā)生異常也能確保文件正確關閉，這樣減少了文件泄漏的風險。如果文件在使用后未正確關閉，就可能會導致文件泄漏。因此，在處理文件時，推薦使用with語句來保障文件的正確處理和資源的釋放。

with open('large_file.txt', 'r') as file:
    for line in file:
        print(line)

使用with語句時，不需要顯式地關閉文件；當with塊中的代碼執(zhí)行完畢，程序會自動關閉文件。這種方式可以減少由于忘記關閉文件造成的文件泄漏風險。

在上面的代碼示例中，使用with語句打開一個文件并按行迭代。通過在for循環(huán)中使用文件對象來逐行讀取文件。這種方式可以避免在處理大型文件時出現(xiàn)內(nèi)存問題。

當調(diào)用open函數(shù)時，會返回一個文件對象，這個文件對象被分配給with語句中的變量file。在with塊內(nèi)，可以使用for循環(huán)來逐行讀取文件。

當文件對象被迭代時，Python會為每次迭代調(diào)用文件對象的__next__()方法。這個方法讀取并返回文件中的下一行，每次調(diào)用它時都會這樣做。如果文件中沒有更多的行，則__next__()方法會引發(fā)StopIteration異常，會告訴for循環(huán)停止迭代。例如：

class SimpleFile():
    def __init__(self, data):
        self.data = data.splitlines()
        self.index = -1

    def __iter__(self):
        return self

    def __next__(self):
        self.index += 1
        if self.index < len(self.data):
            return self.data[self.index]
        else:
            raise StopIteration

data = "line 1\nline 2\nline 3\nline4"

my_file = SimpleFile(data)

while True:
    print(next(my_file))

運行上面的代碼，會看到以下輸出：

line 1
line 2
line 3
line4
Traceback (most recent call last):
  File "/mnt/efs/awside/data/home/lxu1/code/tony/python-code/file_opener.py", line 21, in 
    print(next(my_file))
          ^^^^^^^^^^^^^
  File "/mnt/efs/awside/data/home/lxu1/code/tony/python-code/file_opener.py", line 14, in __next__
    raise StopIteration
StopIteration

2 惰性加載文件

在處理大型文件時，不建議一次性將整個文件加載到內(nèi)存中，因為這會消耗大量的內(nèi)存資源，可能導致程序崩潰或系統(tǒng)假死。相反，應該采用惰性加載的方法，分塊或按行讀取文件。這種方法可以減少內(nèi)存的使用量，提高程序的性能和穩(wěn)定性。

惰性加載的原理是，只有在需要處理某一部分數(shù)據(jù)時，才會將其加載到內(nèi)存中，這樣可以最大限度地節(jié)省內(nèi)存資源。

with open('large_file.txt', 'r') as file:
    while True:
        line = file.readline()
        if not line:
            break 
        print(line)

# Or with the walrus operator 
with open('large_file.txt', 'r') as file:
    while line := file.readline():
        print(line)

在Python中，readline()方法用于從文件中讀取單行。以下是此方法的簡要概述：

當調(diào)用時，它讀取文件的下一行并將其作為字符串返回。
如果在文件中存在，則返回的字符串會包含換行符\n。
如果再次調(diào)用該方法，會讀取下一行。
當達到文件末尾時，readline()將返回空字符串。

在上面的代碼示例中，程序按行讀取文件并打印每一行內(nèi)容。這種方法是通過逐行或分塊讀取文件的內(nèi)容來提高處理大型文件的性能，而不是一次性將整個文件加載到內(nèi)存中。程序會不斷讀取并打印文件中的行，直到到達文件末尾時，循環(huán)才會中斷并結束執(zhí)行。這種方法可以大幅減少內(nèi)存的使用量，提高程序的性能和穩(wěn)定性。

3 使用生成器

生成器是特殊的迭代器，可讓開發(fā)者遍歷大型文件且無需一次性加載整個文件到內(nèi)存中。生成器通過生成一行一行的數(shù)據(jù)來保持其狀態(tài)，非常適合用于處理大型數(shù)據(jù)集。例如：

def read_large_file(file_object):
    while True:
        data = file_object.readline()
        if not data:
            break
        yield data

with open('large_file.txt', 'r') as file:
    gen = read_large_file(file)
    for line in gen:
        print(line)

在上面的代碼中：

yield data：如果有數(shù)據(jù)，則函數(shù)生成它。這使函數(shù)成為Python中的生成器，生成器是特殊類型的函數(shù)，會生成一系列結果，而不是單個值。
gen = read\_large\_file(file)：通過調(diào)用帶有文件對象的read_large_file()函數(shù)，可以創(chuàng)建一個生成器對象。
for line in gen：這會循環(huán)迭代生成器（從文件中逐行生成）。

4 分塊讀取文件

以分塊的方式讀取大型文件是Python處理大型文件的常見技巧。這種方法允許逐一處理文件的一部分，減少內(nèi)存使用量。

chunk_size = 1024  # 每次迭代讀取1024個字節(jié)
with open('large_file.txt', 'r') as file:
    while True:
        chunk = file.read(chunk_size)
        if not chunk:  #  如果該塊為空，則表示已經(jīng)到達文件末尾
            break
        print(chunk)

5 使用外部庫

對于非常大型的文件或復雜的數(shù)據(jù)處理，建議使用像Pandas或Dask這樣的庫。這些庫不僅提供高效的數(shù)據(jù)結構來進行數(shù)據(jù)操作，還提供了處理超出內(nèi)存限制的數(shù)據(jù)集的功能。

以下是使用Pandas讀取大型CSV文件的示例：

import pandas as pd

chunk_size = 500 
chunks = []

for chunk in pd.read_csv('large_file.csv', chunksize=chunk_size):
    chunks.append(chunk)

df = pd.concat(chunks, axis=0)

在這個示例中，pd.read\_csv()函數(shù)每次讀取500行，并返回包含這些行的DataFrame，然后可以分別進行處理。

6 總結

處理大型文件的高效方法在Python編程中是必不可少的技能，尤其是在數(shù)據(jù)分析、機器學習和系統(tǒng)管理等領域。

通過理解和應用最佳實踐，例如使用with語句自動管理文件、懶惰加載或分塊讀取文件、發(fā)揮生成器的功能、避免不必要的引用以及利用像Pandas這樣的外部庫，可以確保Python程序高效、穩(wěn)健，并且能夠輕松處理大型數(shù)據(jù)集。

責任編輯：武曉燕來源： Python學研大本營

Python 編程系統(tǒng)

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="smxoi"></sub>

<sub id="smxoi"></sub><style id="smxoi"></style>

<sub id="smxoi"></sub>

^{<sub id="smxoi"><i id="smxoi"></i></sub>}