網(wǎng)絡(luò)安全人士必知的AI專(zhuān)業(yè)術(shù)語(yǔ)
隨著人工智能的迅猛發(fā)展,我們正置身于第四次工業(yè)革命的浪潮中。在這個(gè)數(shù)字化的時(shí)代,網(wǎng)絡(luò)安全成為各行業(yè)至關(guān)重要的議題。作為網(wǎng)絡(luò)安全從業(yè)人員,不僅需要熟練掌握傳統(tǒng)安全領(lǐng)域的知識(shí),更需要深刻理解和運(yùn)用人工智能,以在風(fēng)云變幻的網(wǎng)絡(luò)戰(zhàn)場(chǎng)中保護(hù)信息資產(chǎn)。人工智能不僅為網(wǎng)絡(luò)安全提供了創(chuàng)新性的解決方案,同時(shí)也成為潛在的攻擊目標(biāo)。防御者需要利用先進(jìn)的AI技術(shù),如機(jī)器學(xué)習(xí)和深度學(xué)習(xí),來(lái)檢測(cè)和應(yīng)對(duì)日益復(fù)雜的威脅。同時(shí),保障AI本身的安全性也尤為關(guān)鍵,防范對(duì)模型的攻擊和濫用。下面梳理了一些專(zhuān)業(yè)術(shù)語(yǔ)。
1.人工智能(AI)
通俗來(lái)講,是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué),人工智能是先“人工”后“智能”。人工智能行業(yè)有句話:有多少智能,背后就有多少人工。人工智能是新的工業(yè)革命,誰(shuí)掌握了人工智能,誰(shuí)就掌握了未來(lái)。
2.人工智能五大核心技術(shù)
主要包括計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、機(jī)器人和語(yǔ)音識(shí)別。
3.人工智能三個(gè)階段
總體來(lái)說(shuō),人工智能分為計(jì)算智能、感知智能及認(rèn)知智能三個(gè)階段。計(jì)算智能就是數(shù)據(jù)運(yùn)算和統(tǒng)計(jì);感知智能就是視覺(jué)、觸覺(jué)、聲音等元素的探測(cè)和感知,對(duì)元素的識(shí)別與分類(lèi);認(rèn)知智能就是對(duì)獲取信息的理解、推理和決策,具備人類(lèi)的基本思考認(rèn)知能力。
4.人工智能三大學(xué)派
符號(hào)主義學(xué)派關(guān)注使用符號(hào)和規(guī)則來(lái)表示知識(shí)和推理。該學(xué)派認(rèn)為智能是通過(guò)符號(hào)處理和邏輯推理來(lái)實(shí)現(xiàn)的。代表性的系統(tǒng)包括專(zhuān)家系統(tǒng),它使用規(guī)則庫(kù)進(jìn)行推理。
連接主義學(xué)派強(qiáng)調(diào)模仿人腦神經(jīng)網(wǎng)絡(luò)的工作方式。這種學(xué)派使用神經(jīng)網(wǎng)絡(luò)和分布式表示進(jìn)行學(xué)習(xí),強(qiáng)調(diào)從數(shù)據(jù)中提取模式和特征。深度學(xué)習(xí)就是連接主義學(xué)派的一部分,特別是基于深度神經(jīng)網(wǎng)絡(luò)的方法。
演化主義學(xué)派受到達(dá)爾文進(jìn)化論的啟發(fā),認(rèn)為智能是通過(guò)演化和遺傳機(jī)制逐步發(fā)展的。遺傳算法和進(jìn)化算法是演化主義學(xué)派的代表性方法,它們用于在搜索空間中找到適應(yīng)于特定任務(wù)的解決方案。
5.人工智能的三個(gè)核心要素
算法:借鑒人類(lèi)的思考方式,算法是核心中的核心。是以哲學(xué)、數(shù)學(xué)、生物學(xué)、心理學(xué)、音樂(lè)學(xué)、神學(xué)、玄學(xué)等為基礎(chǔ)的思維邏輯和系統(tǒng)頂層認(rèn)知的智慧結(jié)晶。
數(shù)據(jù):用于訓(xùn)練的數(shù)據(jù),有標(biāo)注好的數(shù)據(jù)和未標(biāo)注的數(shù)據(jù)。
算力:計(jì)算機(jī)的處理能力。
沒(méi)有合適的算法,理論上就不能解決問(wèn)題;沒(méi)有大量的數(shù)據(jù),就無(wú)法訓(xùn)練模型;沒(méi)有高性能的計(jì)算機(jī)(算力),訓(xùn)練速度就會(huì)非常緩慢。
6.算力需要的XPU
CPU:Central Processing Unit, 中央處理器
GPU:Graphics Processing Unit, 圖像處理器
TPU:Tensor Processing Unit, 張量處理器
DPU:Deep learning Processing Unit, 深度學(xué)習(xí)處理器
NPU:Neural network Processing Unit, 神經(jīng)網(wǎng)絡(luò)處理器
BPU:Brain Processing Unit, 大腦處理器
7.數(shù)據(jù)標(biāo)注
通過(guò)對(duì)數(shù)據(jù)貼標(biāo)簽、做記號(hào)、標(biāo)顏色或劃重點(diǎn)等方式,標(biāo)注出其中目標(biāo)數(shù)據(jù)的不同點(diǎn)、相似點(diǎn)或類(lèi)別,以此達(dá)到讓機(jī)器學(xué)習(xí)的功能。AI算法需要通過(guò)數(shù)據(jù)訓(xùn)練不斷完善,而數(shù)據(jù)標(biāo)注是大部分AI算法得以有效運(yùn)行的關(guān)鍵環(huán)節(jié)。
8.機(jī)器學(xué)習(xí)(ML)
機(jī)器學(xué)習(xí)是通過(guò)機(jī)器模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。
9.深度學(xué)習(xí)(DL)
利用深度神經(jīng)網(wǎng)絡(luò)來(lái)解決特征表達(dá)的一種學(xué)習(xí)過(guò)程,類(lèi)似人類(lèi)通過(guò)大腦層層思考問(wèn)題,由一個(gè)知識(shí)綜合多個(gè)知識(shí)/結(jié)果進(jìn)行層層推理思考,最終得出正確/錯(cuò)誤的決策或知識(shí)去執(zhí)行。
10.自然語(yǔ)言處理(NLP)
對(duì)人類(lèi)語(yǔ)言的處理,生成結(jié)構(gòu)化可定義的語(yǔ)言數(shù)據(jù),比如句型、語(yǔ)法等。
11.自然語(yǔ)言理解(NLU)
計(jì)算機(jī)能夠理解和生成人類(lèi)語(yǔ)言,和人一樣能輕松溝通交流。
12.語(yǔ)音識(shí)別(ASR)
將人類(lèi)的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入。
13.語(yǔ)音合成(TTS)
計(jì)算機(jī)自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月?tīng)得懂的、流利的語(yǔ)言輸出的技術(shù)。
14.計(jì)算機(jī)視覺(jué)(CV)
計(jì)算機(jī)從圖像中識(shí)別出物體、場(chǎng)景和活動(dòng)的能力,類(lèi)似于人類(lèi)日常生活中的視覺(jué)交互。
15.神經(jīng)網(wǎng)絡(luò)(CNN)
神經(jīng)網(wǎng)絡(luò)是一種計(jì)算模型,靈感來(lái)自于人腦的神經(jīng)系統(tǒng)結(jié)構(gòu)。它由神經(jīng)元和層級(jí)結(jié)構(gòu)組成,每個(gè)神經(jīng)元與其他神經(jīng)元相連,通過(guò)學(xué)習(xí)權(quán)重來(lái)處理輸入數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)可以進(jìn)行監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),廣泛用于機(jī)器學(xué)習(xí)任務(wù)。深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)是神經(jīng)網(wǎng)絡(luò)的一種變體,具有多個(gè)層次和復(fù)雜的結(jié)構(gòu),特別適用于處理大規(guī)模、高維度的數(shù)據(jù),如圖像識(shí)別、語(yǔ)音識(shí)別和自然語(yǔ)言處理。神經(jīng)網(wǎng)絡(luò)在各個(gè)領(lǐng)域取得了顯著成就,推動(dòng)了人工智能領(lǐng)域的發(fā)展。
16.人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)三者之間的關(guān)系
機(jī)器學(xué)習(xí)是人工智能的一個(gè)實(shí)現(xiàn)途徑,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種實(shí)現(xiàn)方法。
17.監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中分類(lèi)方法的一種,將樣本數(shù)據(jù)和預(yù)期結(jié)果建立關(guān)聯(lián)關(guān)系,通過(guò)對(duì)已知的結(jié)果和已知的樣本數(shù)據(jù)進(jìn)行的不斷學(xué)習(xí)和訓(xùn)練,不斷調(diào)整優(yōu)化特征提取方法,提取樣本數(shù)據(jù)的特征值和預(yù)期結(jié)果形成映射關(guān)系。對(duì)于新數(shù)據(jù),借助樣本數(shù)據(jù)的特征提取方法,提取新數(shù)據(jù)的特征值,對(duì)新的數(shù)據(jù)進(jìn)行結(jié)果的預(yù)測(cè)。
18.無(wú)監(jiān)督學(xué)習(xí)
無(wú)監(jiān)督學(xué)習(xí)就是不需要對(duì)樣本數(shù)據(jù)進(jìn)行結(jié)果標(biāo)注,數(shù)據(jù)獲取成本低,不需要人工標(biāo)記數(shù)據(jù),主要是分析和發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),數(shù)據(jù)本身的自有特征,進(jìn)行歸納和分類(lèi)。無(wú)監(jiān)督學(xué)習(xí)整體上分為聚類(lèi)和降維兩大類(lèi)。
19.半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)相互結(jié)合的一種學(xué)習(xí)方法。通過(guò)有標(biāo)簽數(shù)據(jù)輔助訓(xùn)練無(wú)標(biāo)簽數(shù)據(jù),無(wú)標(biāo)簽數(shù)據(jù)輔助訓(xùn)練出有標(biāo)簽數(shù)據(jù),將有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)通過(guò)兩種方法進(jìn)行不同維度的學(xué)習(xí)來(lái)提升單一方法的效果。
20.遷移學(xué)習(xí)
遷移學(xué)習(xí)是一種機(jī)器學(xué)習(xí)的方法,指的是一個(gè)預(yù)訓(xùn)練的模型被重新用在另一個(gè)任務(wù)中,起到舉一反三的作用,將部分知識(shí)或模型應(yīng)用到其它任務(wù)中,它并不是某一類(lèi)特定的算法,而是一種處理問(wèn)題的思想。
21.聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)是一種分布式機(jī)器學(xué)習(xí)技術(shù),通過(guò)在多個(gè)擁有本地?cái)?shù)據(jù)的數(shù)據(jù)源之間進(jìn)行分布式模型訓(xùn)練,在不需要交換本地個(gè)體或樣本數(shù)據(jù)的前提下,僅通過(guò)交換模型參數(shù)或中間結(jié)果的方式,構(gòu)建基于虛擬融合數(shù)據(jù)下的全局模型,從而實(shí)現(xiàn)數(shù)據(jù)數(shù)據(jù)隱私保護(hù)和數(shù)據(jù)共享計(jì)算的平衡。例如手機(jī)輸入法在不同終端根據(jù)用戶本地?cái)?shù)據(jù)訓(xùn)練模型。
22.強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)的方法,是一種理解和自動(dòng)化目標(biāo)導(dǎo)向?qū)W習(xí)和決策的計(jì)算方法,它強(qiáng)調(diào)個(gè)體通過(guò)與環(huán)境的直接交互來(lái)學(xué)習(xí),而不需要監(jiān)督或完整的環(huán)境模型。類(lèi)似于在學(xué)習(xí)過(guò)程中,自律性強(qiáng)的學(xué)生設(shè)定自己的目標(biāo)和獎(jiǎng)勵(lì),達(dá)成某個(gè)階段目標(biāo)和獎(jiǎng)勵(lì),再不斷自我提高目標(biāo)和獎(jiǎng)勵(lì)標(biāo)準(zhǔn),通過(guò)這種強(qiáng)化學(xué)習(xí)的方式不斷提升學(xué)習(xí)效果。
23.訓(xùn)練集
訓(xùn)練集是用于機(jī)器學(xué)習(xí)模型訓(xùn)練的數(shù)據(jù)集合,類(lèi)似于課堂或課后作業(yè)。它包含了模型用于學(xué)習(xí)和調(diào)整參數(shù)的樣本數(shù)據(jù),其中每個(gè)樣本都有對(duì)應(yīng)的輸入特征和目標(biāo)標(biāo)簽。通過(guò)在訓(xùn)練集上進(jìn)行迭代訓(xùn)練,模型能夠?qū)W到數(shù)據(jù)中的模式和關(guān)系,以適應(yīng)任務(wù)的要求。訓(xùn)練集的質(zhì)量和多樣性對(duì)模型的性能至關(guān)重要,因?yàn)槟P偷姆夯芰θQ于其對(duì)訓(xùn)練集中不同情境和模式的學(xué)習(xí)程度。在訓(xùn)練完成后,模型可以用于對(duì)新的未見(jiàn)數(shù)據(jù)進(jìn)行預(yù)測(cè)和分類(lèi)。
24.驗(yàn)證集
驗(yàn)證集是用于評(píng)估機(jī)器學(xué)習(xí)模型性能的數(shù)據(jù)集合,類(lèi)似于課后小測(cè)驗(yàn)。它通常是從原始數(shù)據(jù)中獨(dú)立劃分出來(lái)的,不參與模型的訓(xùn)練過(guò)程。驗(yàn)證集用于調(diào)整模型的超參數(shù),評(píng)估模型在未見(jiàn)過(guò)的數(shù)據(jù)上的泛化能力,以及檢測(cè)模型是否存在過(guò)擬合或欠擬合。通過(guò)在訓(xùn)練過(guò)程中定期使用驗(yàn)證集進(jìn)行性能評(píng)估,可以更好地調(diào)整模型,以提高其在未知數(shù)據(jù)上的預(yù)測(cè)準(zhǔn)確性。驗(yàn)證集在模型開(kāi)發(fā)和調(diào)優(yōu)過(guò)程中扮演重要角色,有助于選擇最佳模型和參數(shù)配置。
25.測(cè)試集
測(cè)試集是用于最終評(píng)估機(jī)器學(xué)習(xí)模型性能的獨(dú)立數(shù)據(jù)集,類(lèi)似于期中期末考試。與訓(xùn)練集和驗(yàn)證集不同,測(cè)試集在整個(gè)模型開(kāi)發(fā)和調(diào)優(yōu)過(guò)程中都未被用于訓(xùn)練或調(diào)整模型。測(cè)試集的目的是模擬模型面對(duì)實(shí)際應(yīng)用中未見(jiàn)過(guò)的新數(shù)據(jù)時(shí)的表現(xiàn)。通過(guò)在測(cè)試集上進(jìn)行評(píng)估,可以更準(zhǔn)確地估計(jì)模型的泛化性能,并判斷模型是否能夠在真實(shí)場(chǎng)景中有效地進(jìn)行預(yù)測(cè)或分類(lèi)。測(cè)試集評(píng)估結(jié)果有助于確認(rèn)模型的可靠性,并提供對(duì)模型在實(shí)際使用中的期望性能的信心。
26.過(guò)擬合
過(guò)擬合是指機(jī)器學(xué)習(xí)模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好,但在未見(jiàn)過(guò)的測(cè)試數(shù)據(jù)上表現(xiàn)不佳的現(xiàn)象。當(dāng)模型過(guò)于復(fù)雜,以至于記住了訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié),而不是學(xué)到了數(shù)據(jù)的通用模式時(shí),就容易發(fā)生過(guò)擬合。過(guò)擬合的模型在新數(shù)據(jù)上的泛化能力差,因?yàn)樗^(guò)于適應(yīng)了訓(xùn)練數(shù)據(jù)的特定特征,而無(wú)法推廣到其他數(shù)據(jù)。為防止過(guò)擬合,可以采用一些方法,如增加訓(xùn)練數(shù)據(jù)量、使用正則化技術(shù)、降低模型復(fù)雜度或采用早停等策略,以確保模型更好地適應(yīng)整體數(shù)據(jù)分布而非僅僅記住訓(xùn)練數(shù)據(jù)的細(xì)節(jié)。
27.欠擬合
欠擬合是指機(jī)器學(xué)習(xí)模型無(wú)法在訓(xùn)練數(shù)據(jù)上學(xué)到足夠的信息,導(dǎo)致其在訓(xùn)練和測(cè)試數(shù)據(jù)上都表現(xiàn)不佳的情況。通常發(fā)生在模型過(guò)于簡(jiǎn)單或特征提取能力不足的情況下。欠擬合的模型未能捕捉到數(shù)據(jù)的復(fù)雜結(jié)構(gòu)和關(guān)系,導(dǎo)致無(wú)法有效地進(jìn)行預(yù)測(cè)或分類(lèi)。為克服欠擬合,可以嘗試增加模型復(fù)雜度、添加更多特征、調(diào)整模型架構(gòu)或使用更復(fù)雜的算法,以使模型能夠更好地適應(yīng)訓(xùn)練數(shù)據(jù)并提高泛化性能。
28.生成對(duì)抗網(wǎng)絡(luò)
生成對(duì)抗網(wǎng)絡(luò)(GAN)是一種深度學(xué)習(xí)架構(gòu),由生成器和判別器組成。生成器負(fù)責(zé)從隨機(jī)噪聲生成逼真的數(shù)據(jù)樣本,而判別器則試圖區(qū)分生成的樣本和真實(shí)數(shù)據(jù)。兩者通過(guò)對(duì)抗訓(xùn)練相互提升性能,使生成器生成的樣本越來(lái)越難以與真實(shí)數(shù)據(jù)區(qū)分。GAN在圖像生成、風(fēng)格遷移等領(lǐng)域取得了成功,能夠生成逼真的圖像和內(nèi)容。然而,訓(xùn)練過(guò)程可能面臨挑戰(zhàn),如訓(xùn)練不穩(wěn)定性。GAN的創(chuàng)新在于通過(guò)對(duì)抗學(xué)習(xí)實(shí)現(xiàn)了高質(zhì)量的生成,具有廣泛的應(yīng)用潛力。
29.精確度
精確度是用于評(píng)估分類(lèi)模型性能的指標(biāo),表示模型正確預(yù)測(cè)的樣本數(shù)量占總樣本數(shù)量的比例。計(jì)算方法為正確預(yù)測(cè)的樣本數(shù)除以總樣本數(shù),得到一個(gè)介于0和1之間的值。精確度越高,模型對(duì)樣本的分類(lèi)準(zhǔn)確性越好。然而,當(dāng)類(lèi)別不平衡時(shí),精確度可能不是一個(gè)全面的評(píng)估指標(biāo),因?yàn)樗豢紤]假正例和假負(fù)例。在某些情況下,需結(jié)合其他指標(biāo)如召回率、F1分?jǐn)?shù)等來(lái)更全面地評(píng)估模型性能。
30.召回率
召回率是用于評(píng)估分類(lèi)模型性能的指標(biāo),表示模型成功預(yù)測(cè)為正類(lèi)別的樣本數(shù)量占實(shí)際正類(lèi)別樣本總數(shù)的比例。計(jì)算方法為正確預(yù)測(cè)的正類(lèi)別樣本數(shù)除以實(shí)際正類(lèi)別樣本總數(shù),得到一個(gè)介于0和1之間的值。召回率衡量了模型對(duì)正類(lèi)別樣本的覆蓋程度,即模型能夠識(shí)別出多少真正的正例。在一些應(yīng)用場(chǎng)景中,召回率比精確度更為重要,尤其是在關(guān)注遺漏正例的情境中,如醫(yī)學(xué)診斷或欺詐檢測(cè)。
31.F1值
F1值是綜合考慮精確度(Precision)和召回率(Recall)的評(píng)估指標(biāo),用于評(píng)估分類(lèi)模型性能。F1值是這兩者的調(diào)和平均,計(jì)算方法為2 * (Precision * Recall) / (Precision + Recall)。F1值的范圍在0和1之間,取決于精確度和召回率的平衡。它對(duì)于解決類(lèi)別不平衡的問(wèn)題特別有用,因?yàn)樗趦烧咧g取得平衡。當(dāng)模型需要在精確性和覆蓋率之間做出權(quán)衡時(shí),F(xiàn)1值提供了一個(gè)綜合的評(píng)估指標(biāo),對(duì)于評(píng)估模型在各個(gè)類(lèi)別上的整體性能更具意義。
32.AIGC
AIGC指利用人工智能技術(shù)生成文字、圖像、音頻、視頻等內(nèi)容的方法。這涵蓋了各種生成式人工智能模型,如文本生成模型、圖像生成模型(如GAN),語(yǔ)音合成等。AIGC在創(chuàng)造性?xún)?nèi)容生成、藝術(shù)創(chuàng)作、自動(dòng)化媒體制作等方面具有廣泛的應(yīng)用潛力,為各種領(lǐng)域帶來(lái)創(chuàng)新和便利。