自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="c6wes"><strike id="c6wes"></strike></pre>

<sub id="c6wes"></sub>

<style id="c6wes"></style>

<sub id="c6wes"><p id="c6wes"></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

高效讀取大文件，再也不用擔(dān)心 OOM 了！

作者：鴨血粉絲 2020-06-15 08:03:17

開(kāi)發(fā) 前端

本篇文章我們只是簡(jiǎn)單介紹了下，數(shù)據(jù)從文件讀取幾種方式。數(shù)據(jù)讀取之后，我們肯定還需要處理，然后最后會(huì)存儲(chǔ)到數(shù)據(jù)庫(kù)中或者輸出到另一個(gè)文件中。

最近阿粉接到一個(gè)需求，需要從文件讀取數(shù)據(jù)，然后經(jīng)過(guò)業(yè)務(wù)處理之后存儲(chǔ)到數(shù)據(jù)庫(kù)中。這個(gè)需求，說(shuō)實(shí)話不是很難，阿粉很快完成了第一個(gè)版本。

內(nèi)存讀取

第一個(gè)版本，阿粉采用內(nèi)存讀取的方式，所有的數(shù)據(jù)首先讀讀取到內(nèi)存中,程序代碼如下：

Stopwatch stopwatch = Stopwatch.createStarted(); 
// 將全部行數(shù)讀取的內(nèi)存中 
List<String> lines = FileUtils.readLines(new File("temp/test.txt"), Charset.defaultCharset()); 
for (String line : lines) { 
    // pass 
} 
stopwatch.stop(); 
System.out.println("read all lines spend " + stopwatch.elapsed(TimeUnit.SECONDS) + " s"); 
// 計(jì)算內(nèi)存占用 
logMemory();

logMemory方法如下:

MemoryMXBean memoryMXBean = ManagementFactory.getMemoryMXBean(); 
//堆內(nèi)存使用情況 
MemoryUsage memoryUsage = memoryMXBean.getHeapMemoryUsage(); 
//初始的總內(nèi)存 
long totalMemorySize = memoryUsage.getInit(); 
//已使用的內(nèi)存 
long usedMemorySize = memoryUsage.getUsed(); 
 
System.out.println("Total Memory: " + totalMemorySize / (1024 * 1024) + " Mb"); 
System.out.println("Free Memory: " + usedMemorySize / (1024 * 1024) + " Mb");

上述程序中，阿粉使用 Apache Common-Io 開(kāi)源第三方庫(kù)，F(xiàn)ileUtils#readLines將會(huì)把文件中所有內(nèi)容，全部讀取到內(nèi)存中。

這個(gè)程序簡(jiǎn)單測(cè)試并沒(méi)有什么問(wèn)題，但是等拿到真正的數(shù)據(jù)文件，運(yùn)行程序，很快程序發(fā)生了 OOM。

之所以會(huì)發(fā)生 OOM，主要原因是因?yàn)檫@個(gè)數(shù)據(jù)文件太大。假設(shè)上面測(cè)試文件 test.txt總共有 200W 行數(shù)據(jù)，文件大小為：740MB。

通過(guò)上述程序讀取到內(nèi)存之后，在我的電腦上內(nèi)存占用情況如下：

可以看到一個(gè)實(shí)際大小為 700 多 M 的文件，讀到內(nèi)存中占用內(nèi)存量為 1.5G 之多。而我之前的程序，虛擬機(jī)設(shè)置內(nèi)存大小只有 1G，所以程序發(fā)生了 OOM。

當(dāng)然這里最簡(jiǎn)單的辦法就是加內(nèi)存唄，將虛擬機(jī)內(nèi)存設(shè)置到 2G,甚至更多。不過(guò)機(jī)器內(nèi)存始終有限，如果文件更大，還是沒(méi)有辦法全部都加載到內(nèi)存。

不過(guò)仔細(xì)一想真的需要將全部數(shù)據(jù)一次性加載到內(nèi)存中?

很顯然，不需要!

在上述的場(chǎng)景中，我們將數(shù)據(jù)到加載內(nèi)存中，最后不還是一條條處理數(shù)據(jù)。

所以下面我們將讀取方式修改成逐行讀取。

逐行讀取

逐行讀取的方式比較多，這里阿粉主要介紹兩種方式：

BufferReader
Apache Commons IO
Java8 stream

BufferReader

我們可以使用 BufferReader#readLine 逐行讀取數(shù)據(jù)。

try (BufferedReader fileBufferReader = new BufferedReader(new FileReader("temp/test.txt"))) { 
    String fileLineContent; 
    while ((fileLineContent = fileBufferReader.readLine()) != null) { 
        // process the line. 
    } 
} catch (FileNotFoundException e) { 
    e.printStackTrace(); 
} catch (IOException e) { 
    e.printStackTrace(); 
}

Apache Commons IOCommon-IO

中有一個(gè)方法 FileUtils#lineIterator可以實(shí)現(xiàn)逐行讀取方式,使用代碼如下：

Stopwatch stopwatch = Stopwatch.createStarted(); 
LineIterator fileContents = FileUtils.lineIterator(new File("temp/test.txt"), StandardCharsets.UTF_8.name()); 
while (fileContents.hasNext()) { 
    fileContents.nextLine(); 
    //  pass 
} 
logMemory(); 
fileContents.close(); 
stopwatch.stop(); 
System.out.println("read all lines spend " + stopwatch.elapsed(TimeUnit.SECONDS) + " s");

這個(gè)方法返回一個(gè)迭代器，每次我們都可以獲取的一行數(shù)據(jù)。

其實(shí)我們查看代碼，其實(shí)可以發(fā)現(xiàn) FileUtils#lineIterator，其實(shí)用的就是 BufferReader，感興趣的同學(xué)可以自己查看一下源碼。

由于公號(hào)內(nèi)無(wú)法插入外鏈，關(guān)注『Java極客技術(shù)』，回復(fù)『20200610』獲取源碼

Java8 stream

Java8 Files 類新增了一個(gè) lines，可以返回 Stream我們可以逐行處理數(shù)據(jù)。

Stopwatch stopwatch = Stopwatch.createStarted(); 
// lines(Path path, Charset cs) 
try (Stream<String> inputStream = Files.lines(Paths.get("temp/test.txt"), StandardCharsets.UTF_8)) { 
    inputStream 
            .filter(str -> str.length() > 5)// 過(guò)濾數(shù)據(jù) 
            .forEach(o -> { 
                // pass do sample logic 
            }); 
} 
logMemory(); 
stopwatch.stop(); 
System.out.println("read all lines spend " + stopwatch.elapsed(TimeUnit.SECONDS) + " s");

使用這個(gè)方法有個(gè)好處在于，我們可以方便使用 Stream 鏈?zhǔn)讲僮鳎鲆恍┻^(guò)濾操作。

注意：這里我們使用 try-with-resources 方式，可以安全的確保讀取結(jié)束，流可以被安全的關(guān)閉。

并發(fā)讀取

逐行的讀取的方式，解決我們 OOM 的問(wèn)題。不過(guò)如果數(shù)據(jù)很多，我們這樣一行行處理，需要花費(fèi)很多時(shí)間。

上述的方式，只有一個(gè)線程在處理數(shù)據(jù)，那其實(shí)我們可以多來(lái)幾個(gè)線程，增加并行度。

下面在上面的基礎(chǔ)上，阿粉就拋磚引玉，介紹下阿粉自己比較常用兩種并行處理方式。

逐行批次打包

第一種方式，先逐行讀取數(shù)據(jù)，加載到內(nèi)存中，等到積累一定數(shù)據(jù)之后，然后再交給線程池異步處理。

@SneakyThrows 
public static void readInApacheIOWithThreadPool() { 
    // 創(chuàng)建一個(gè) 最大線程數(shù)為 10，隊(duì)列最大數(shù)為 100 的線程池 
    ThreadPoolExecutor threadPoolExecutor = new ThreadPoolExecutor(10, 10, 60l, TimeUnit.SECONDS, new LinkedBlockingDeque<>(100)); 
    // 使用 Apache 的方式逐行讀取數(shù)據(jù) 
    LineIterator fileContents = FileUtils.lineIterator(new File("temp/test.txt"), StandardCharsets.UTF_8.name()); 
    List<String> lines = Lists.newArrayList(); 
    while (fileContents.hasNext()) { 
        String nextLine = fileContents.nextLine(); 
        lines.add(nextLine); 
        // 讀取到十萬(wàn)的時(shí)候 
        if (lines.size() == 100000) { 
            // 拆分成兩個(gè) 50000 ，交給異步線程處理 
            List<List<String>> partition = Lists.partition(lines, 50000); 
            List<Future> futureList = Lists.newArrayList(); 
            for (List<String> strings : partition) { 
                Future<?> future = threadPoolExecutor.submit(() -> { 
                    processTask(strings); 
                }); 
                futureList.add(future); 
            } 
            // 等待兩個(gè)線程將任務(wù)執(zhí)行結(jié)束之后，再次讀取數(shù)據(jù)。這樣的目的防止，任務(wù)過(guò)多，加載的數(shù)據(jù)過(guò)多，導(dǎo)致 OOM 
            for (Future future : futureList) { 
                // 等待執(zhí)行結(jié)束 
                future.get(); 
            } 
            // 清除內(nèi)容 
            lines.clear(); 
        } 
 
    } 
    // lines 若還有剩余，繼續(xù)執(zhí)行結(jié)束 
    if (!lines.isEmpty()) { 
        // 繼續(xù)執(zhí)行 
        processTask(lines); 
    } 
  threadPoolExecutor.shutdown(); 
} 
    private static void processTask(List<String> strings) { 
        for (String line : strings) { 
            // 模擬業(yè)務(wù)執(zhí)行 
            try { 
                TimeUnit.MILLISECONDS.sleep(10L); 
            } catch (InterruptedException e) { 
                e.printStackTrace(); 
            } 
        } 
    }

上述方法，等到內(nèi)存的數(shù)據(jù)到達(dá) 10000 的時(shí)候，拆封兩個(gè)任務(wù)交給異步線程執(zhí)行，每個(gè)任務(wù)分別處理 50000 行數(shù)據(jù)。

后續(xù)使用 future#get()，等待異步線程執(zhí)行完成之后，主線程才能繼續(xù)讀取數(shù)據(jù)。

之所以這么做，主要原因是因?yàn)?，線程池的任務(wù)過(guò)多，再次導(dǎo)致 OOM 的問(wèn)題。

大文件拆分成小文件第二種方式，首先我們將一個(gè)大文件拆分成幾個(gè)小文件，然后使用多個(gè)異步線程分別逐行處理數(shù)據(jù)。

public static void splitFileAndRead() throws Exception { 
    // 先將大文件拆分成小文件 
    List<File> fileList = splitLargeFile("temp/test.txt"); 
    // 創(chuàng)建一個(gè) 最大線程數(shù)為 10，隊(duì)列最大數(shù)為 100 的線程池 
    ThreadPoolExecutor threadPoolExecutor = new ThreadPoolExecutor(10, 10, 60l, TimeUnit.SECONDS, new LinkedBlockingDeque<>(100)); 
    List<Future> futureList = Lists.newArrayList(); 
    for (File file : fileList) { 
        Future<?> future = threadPoolExecutor.submit(() -> { 
            try (Stream inputStream = Files.lines(file.toPath(), StandardCharsets.UTF_8)) { 
                inputStream.forEach(o -> { 
                    // 模擬執(zhí)行業(yè)務(wù) 
                    try { 
                        TimeUnit.MILLISECONDS.sleep(10L); 
                    } catch (InterruptedException e) { 
                        e.printStackTrace(); 
                    } 
                }); 
            } catch (IOException e) { 
                e.printStackTrace(); 
            } 
        }); 
        futureList.add(future); 
    } 
    for (Future future : futureList) { 
        // 等待所有任務(wù)執(zhí)行結(jié)束 
        future.get(); 
    } 
    threadPoolExecutor.shutdown(); 
 
 
} 
 
private static List<File> splitLargeFile(String largeFileName) throws IOException { 
    LineIterator fileContents = FileUtils.lineIterator(new File(largeFileName), StandardCharsets.UTF_8.name()); 
    List<String> lines = Lists.newArrayList(); 
    // 文件序號(hào) 
    int num = 1; 
    List<File> files = Lists.newArrayList(); 
    while (fileContents.hasNext()) { 
        String nextLine = fileContents.nextLine(); 
        lines.add(nextLine); 
        // 每個(gè)文件 10w 行數(shù)據(jù) 
        if (lines.size() == 100000) { 
            createSmallFile(lines, num, files); 
            num++; 
        } 
    } 
    // lines 若還有剩余，繼續(xù)執(zhí)行結(jié)束 
    if (!lines.isEmpty()) { 
        // 繼續(xù)執(zhí)行 
        createSmallFile(lines, num, files); 
    } 
    return files; 
}

上述方法，首先將一個(gè)大文件拆分成多個(gè)保存 10W 行的數(shù)據(jù)的小文件，然后再將小文件交給線程池異步處理。

由于這里的異步線程每次都是逐行從小文件的讀取數(shù)據(jù)，所以這種方式不用像上面方法一樣擔(dān)心 OOM 的問(wèn)題。

另外，上述我們使用 Java 代碼，將大文件拆分成小文件。這里阿粉還有一個(gè)簡(jiǎn)單的辦法，我們可以直接使用下述命令，直接將大文件拆分成小文件：

# 將大文件拆分成 100000 的小文件 
 split -l 100000 test.txt

后續(xù) Java 代碼只需要直接讀取小文件即可。

總結(jié)當(dāng)我們從文件讀取數(shù)據(jù)時(shí)，如果文件不是很大，我們可以考慮一次性讀取到內(nèi)存中，然后快速處理。

如果文件過(guò)大，我們就沒(méi)辦法一次性加載到內(nèi)存中，所以我們需要考慮逐行讀取，然后處理數(shù)據(jù)。但是單線程處理數(shù)據(jù)畢竟有限，所以我們考慮使用多線程，加快處理數(shù)據(jù)。

本篇文章我們只是簡(jiǎn)單介紹了下，數(shù)據(jù)從文件讀取幾種方式。數(shù)據(jù)讀取之后，我們肯定還需要處理，然后最后會(huì)存儲(chǔ)到數(shù)據(jù)庫(kù)中或者輸出到另一個(gè)文件中。

這個(gè)過(guò)程，說(shuō)實(shí)話比較麻煩，因?yàn)槲覀兊臄?shù)據(jù)源文件，可能是 txt，也可能是 excel，這樣我們就需要增加多種讀取方法。同樣的，當(dāng)數(shù)據(jù)處理完成之后，也有同樣的問(wèn)題。

不過(guò)好在，上述的問(wèn)題我們可以使用 Spring Batch 完美解決。

責(zé)任編輯：武曉燕來(lái)源： Java極客技術(shù)

大文件 OOM 內(nèi)存

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)