這個(gè)開源文本識(shí)別系統(tǒng)我粉了!
說到文本識(shí)別大家已經(jīng)非常熟悉了,這一技術(shù)早就深深融入我們生活的方方面面,今天,猿妹要和大家分享一個(gè)可以識(shí)別文本背后含義的工具——pyWhat。
當(dāng)你不知道特定一串文本代表什么時(shí),它能快速判斷它是否是 email、油管視頻編號(hào)、手機(jī)號(hào) 或者是其他信息格式。你給它一個(gè) .pcap 文件或者一段文本,它能告訴你這個(gè)文件或是文本代表了什么。
目前,pyWhat已經(jīng)在Github上標(biāo)星3.8K,累計(jì)分支 127 個(gè)
(Github地址:https://github.com/bee-san/pyWhat)
同搜索不同,pyWhat 會(huì)自動(dòng)進(jìn)行文本分?jǐn)?,例?5f4dcc3b5aa765d61d8327deb882cf99 如果沒有完全匹配的信息格式,pyWhat 會(huì)切斷文本進(jìn)行多個(gè)不同字符串長度的完全匹配
示例
比如當(dāng)你遇到了一個(gè)名為 WantToCry的新惡意軟件,你回想起 Wannacry 并記得它被停止是因?yàn)檠芯咳藛T在代碼中發(fā)現(xiàn)了一個(gè)終止開關(guān)。
當(dāng)一個(gè)硬編碼到 Wannacry 的域被注冊(cè)時(shí),病毒就會(huì)停止。你可以通過這個(gè)工具識(shí)別惡意軟件中的所有域,并使用域注冊(cè)器 API 來注冊(cè)所有域。如果 Wannacry 再次發(fā)生,你就可以在幾分鐘內(nèi)阻止它,而不是幾周。
更快地分析 Pcap 文件
假設(shè)你有一個(gè).pcap來自網(wǎng)絡(luò)攻擊的文件。What可以識(shí)別并快速找到以下內(nèi)容:
- 所有哈希
- 信用卡號(hào)碼
- 加密貨幣地址
- 聯(lián)系方式等
簡而言之,只要你想要在一個(gè)文件中找出所有有用的結(jié)構(gòu)化數(shù)據(jù),pywhat都適合你。