SoReL-20M: 2000萬惡意軟件樣本數(shù)據(jù)集開源
12月14日,網絡安全公司Sophos和 ReversingLabs聯(lián)發(fā)布史上最大規(guī)模惡意軟件研究數(shù)據(jù)集——SoReL-20M,旨在構建有效的防御能力,增強安全檢測和響應的能力。
SoReL-20M是一個含有2000萬Windows PE文件元數(shù)據(jù)、標簽和特征的數(shù)據(jù)集,其中包含1000萬去除惡意軟件功能的惡意軟件樣本,目標是為設計檢測惡意軟件的機器學習方法提供足夠的數(shù)據(jù)集。同時開源的還有在這些數(shù)據(jù)上預訓練的基于PyTorch 和 LightGBM的機器學習模型作為基準。
自然語言處理和圖像處理領域都有很多公開的數(shù)據(jù)集,比如MNIST、ImageNet、CIFAR-10、IMDB Reviews、Sentiment140和WordNet。與自然語言處理和圖像處理領域不同的是,標準化的、標記的數(shù)據(jù)集對網絡安全來說是非常具有挑戰(zhàn)性的,因為有很多個人識別的信息、敏感的網絡基礎設施數(shù)據(jù)、個人知識產權數(shù)據(jù)等,更何況要把惡意軟件提供給未知的第三方。
2018年發(fā)布的EMBER(Endgame Malware BEnchmark for Research)是一個開源的惡意軟件分類器,其中只有110萬惡意樣本,其功能只是單一的標記數(shù)據(jù)集(惡意軟件或非惡意軟件),也就是說會限制試驗的范圍。
SoReL-20M的目標是通過2000萬的PE 惡意軟件樣本來解決這一問題,其中含有1000萬去除惡意軟件功能的惡意軟件樣本(無法執(zhí)行),以及1000萬非惡意軟件中提取的特征和元數(shù)據(jù)。

此外,該方法使用基于機器學習的標記模型來生成指定惡意軟件樣本重要特征的人類可理解的語義描述。
SoReL-20M 的發(fā)布與近期業(yè)界動向是一致的。20年10月,微軟發(fā)布了對抗機器學習威脅矩陣來幫助安全分析人員檢測、響應和修復針對機器學習系統(tǒng)的對抗攻擊。
ReversingLabs研究人員稱,安全領域威脅情報共享的思想并不新鮮,但是是非常關鍵的。人工智能和機器學習已經成為檢測新的惡意軟件和定向攻擊軟件的關鍵,而且應用也越來越廣泛。
Github 頁面:https://github.com/sophos-ai/SOREL-20M
關于SOREL-20M的論文SOREL-20M:A Large Scale Benchmark Dataset for Malicious PE Detection 下載地址:https://arxiv.org/abs/2012.07634
更多參見:https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/
本文翻譯自:https://ai.sophos.com/2020/12/14/sophos-reversinglabs-sorel-20-million-sample-malware-dataset/如若轉載,請注明原文地址。