自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

數(shù)據(jù)太大爆內(nèi)存怎么辦？七條解決思路

作者：Jason Brownlee 2017-05-31 12:52:55

大數(shù)據(jù)

在研究、應(yīng)用機器學(xué)習算法的經(jīng)歷中，相信大伙兒經(jīng)常遇到數(shù)據(jù)集太大、內(nèi)存不夠用的情況。本文將討論一些常用的解決辦法，供大家參考。

在研究、應(yīng)用機器學(xué)習算法的經(jīng)歷中，相信大伙兒經(jīng)常遇到數(shù)據(jù)集太大、內(nèi)存不夠用的情況。

這引出一系列問題：

怎么加載十幾、幾十 GB 的數(shù)據(jù)文件?
運行數(shù)據(jù)集的時候算法崩潰了，怎么辦?
怎么處理內(nèi)存不足導(dǎo)致的錯誤?

本文將討論一些常用的解決辦法，供大家參考。

處理大型 ML 數(shù)據(jù)文件的七種思路

1. 分配更多內(nèi)存

有的機器學(xué)習工具/庫有默認內(nèi)存設(shè)置，比如 Weka。這便是一個限制因素。

你需要檢查一下：是否能重新設(shè)置該工具/庫，分配更多內(nèi)存。

對于 Weka，你可以在打開應(yīng)用時，把內(nèi)存當作一個參數(shù)進行調(diào)整。

2. 用更小的樣本

你真的需要用到全部數(shù)據(jù)嗎?

可以采集一個數(shù)據(jù)的隨機樣本，比如前 1,000 或 100,000 行。在全部數(shù)據(jù)上訓(xùn)練最終模型之前(使用漸進式的數(shù)據(jù)加載技巧)，先試著用這個小樣本解決問題。

總的來說，對算法做快速地抽查、看到結(jié)果在前后的變化，在機器學(xué)習領(lǐng)域是一個很好的習慣。

你還可以考慮：相對于模型技巧，做一個數(shù)據(jù)大小的敏感性分析。或許，對于你的隨機小樣本，有一個天然的邊際效應(yīng)遞減分水嶺。越過這個關(guān)口，繼續(xù)增加的數(shù)據(jù)規(guī)模帶來的好處微乎其微。

3. 更多內(nèi)存

你必須要用 PC 嗎?

你可以考慮內(nèi)存、性能高一個量級的計算設(shè)備。比如，租用 AWS 這樣的云服務(wù)。租用云端有數(shù)十 GB 內(nèi)存的機器，***價格每小時不到一美元。我個人覺得這是非常實際的選擇。

4. 轉(zhuǎn)換數(shù)據(jù)格式

你是否把數(shù)據(jù)存為原始的 ASCII 文本，比如 CSV 文件?

或許，使用其它格式能加速數(shù)據(jù)載入并且降低內(nèi)存占用。好的選擇包括像 GRIB、NetCDF、HDF 這樣的二進制格式。

有很多命令行工具能幫你轉(zhuǎn)換數(shù)據(jù)格式，而且不需要把整個數(shù)據(jù)集載入內(nèi)存里。

換一種格式，可能幫助你以更緊湊的形式存儲數(shù)據(jù)，節(jié)省內(nèi)存空間;比如 2-byte 整數(shù)，或者 4-byte 浮點。

5. 流式處理數(shù)據(jù)，或漸進式的數(shù)據(jù)加載

你的所有數(shù)據(jù)，需要同時出現(xiàn)在內(nèi)存里嗎?

或許，你可以用代碼或庫，隨時把需要的數(shù)據(jù)做流式處理或漸進式加載，導(dǎo)入內(nèi)存里訓(xùn)練模型。

這可能需要算法使用優(yōu)化技術(shù)迭代學(xué)習，比如使用隨機梯度下降。那些需要內(nèi)存里有所有數(shù)據(jù)、以進行矩陣運算的算法，比如某些對線性回歸和邏輯回歸的實現(xiàn)，就不適用了。

比如，Keras 深度學(xué)習 API 就提供了漸進式加載圖像文件的功能，名為 flow_from_directory

另一個例子式 Pandas 庫，可批量載入大型 CSV 文件。

6. 使用關(guān)系數(shù)據(jù)庫(Relational database)

關(guān)系數(shù)據(jù)庫為存儲、訪問大型數(shù)據(jù)集提供了標準化的方法。

在內(nèi)部，數(shù)據(jù)存在硬盤中，能漸進式地 in batch 批量加載，并使用標準檢索語言 SQL 檢索。

像 MySQL、Postgres 這樣的開源數(shù)據(jù)庫工具，支持絕大多數(shù)的(全部?)編程語言。許多機器學(xué)習工具，都能直接與關(guān)系數(shù)據(jù)庫連通。你也可以用 SQLite 這樣更輕量的方法。

我發(fā)現(xiàn)，這種方法對大型表格式數(shù)據(jù)集非常有效率。

雷鋒網(wǎng)提醒，你需要用能迭代學(xué)習的算法。

7. 使用大數(shù)據(jù)平臺

有的情況下，你可能必須要使用大數(shù)據(jù)平臺，即為處理超大型數(shù)據(jù)集而開發(fā)的平臺。它們能讓你進行數(shù)據(jù)轉(zhuǎn)換，并在其上開發(fā)機器學(xué)習算法。

兩個很好的例子是 Hadoop 與機器學(xué)習庫 Mahout，以及 Spark 與 MLLib 庫。

我認為，這是用盡上述辦法仍無法解決的情況下，才需要采用的***手段。單純是這為你的機器學(xué)習項目所帶來的額外硬件、軟件復(fù)雜情況，就會消耗許多精力。

即便如此，有的任務(wù)確實數(shù)據(jù)太過龐大，前面的選項都無法奏效。

責任編輯：龐桂玉來源： 36大數(shù)據(jù)

大數(shù)據(jù)數(shù)據(jù)文件解決思路

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ul id="fiqt4"></ul>