自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

不再重復(fù)造輪子，AI 給你推薦更好的代碼，還沒bug

作者：青暮 2020-09-19 09:47:05

程序員的的代碼大部分都不是如同寫書法那般一揮而就，而需要反復(fù)地?fù)竍ug，摳到懷疑人生。

程序員的的代碼大部分都不是如同寫書法那般一揮而就，而需要反復(fù)地?fù)竍ug，摳到懷疑人生。

劍橋大學(xué)法官商學(xué)院發(fā)表的一項研究顯示，程序員將50.1％的工作時間用于編程，而將一半的時間用于debug。估計每年的debug總費(fèi)用為3120億美元。

現(xiàn)代軟件系統(tǒng)越來越復(fù)雜，很多時候一個小小的錯誤就可能讓系統(tǒng)崩潰，帶來巨大損失。所以不僅是程序員，企業(yè)也在為debug付出巨大代價。但現(xiàn)在，AI帶來了福音。

英特爾、麻省理工學(xué)院、佐治亞理工學(xué)院的研究人員合作開發(fā)了自動化代碼相似性檢測系統(tǒng)MISIM，該系統(tǒng)可以判斷兩段代碼的相似性，即便這兩段代碼使用的是不同的結(jié)構(gòu)和算法，也可以依據(jù)它們是否執(zhí)行相似的任務(wù)、是否有相似的代碼特征加以判斷。

代碼相似性檢測可以應(yīng)用在代碼推薦、自動修復(fù)bug中。在代碼推薦的應(yīng)用過程有點(diǎn)像輸入法的詞推薦，由于MISIM可以對不完整的代碼片段進(jìn)行評估，當(dāng)它檢測到不完整的、有bug的代碼時，就會從其它地方選出功能一樣的、沒有bug的代碼，來替換原來的代碼。

并且，MISIM 還會將代碼轉(zhuǎn)換為統(tǒng)一的形式，確定代碼功能，從而在不受編寫方式的影響下進(jìn)行代碼片段的對比。由于MISIM不受編程語言限制，它還可以用于代碼語言轉(zhuǎn)換。

在45,780個程序的實驗評估中，MISIM識別C和C ++程序中的代碼，這些程序是由學(xué)生編寫的，旨在解決104個編碼問題。如果一對程序都解決了相同的問題，則它們在數(shù)據(jù)集中被標(biāo)記為相似。MISIM的表現(xiàn)始終好于三個當(dāng)前最先進(jìn)系統(tǒng)，最高達(dá)到40.6倍。

自動代碼生成一直是一個研究熱點(diǎn)，產(chǎn)業(yè)界和學(xué)術(shù)界都在此方向上努力著。OpenAI的GPT-3語言模型甚至可以根據(jù)自然語言描述生成網(wǎng)頁布局的代碼。而代碼相似性檢測則可以復(fù)用已有代碼，使質(zhì)量高的代碼得到更有效的利用。

輸入“創(chuàng)建一個長得像西瓜的按鈕”，GPT-3就生成了上圖中綠皮紅瓢的原型按鈕。或者輸入“welcome to my newsletter的大號字體”，GPT-3就生成了上圖中的紅色大號字體。

當(dāng)然，代碼相似性檢測也可以用于代碼查重。所以，計算機(jī)系的同學(xué)們，注意自己寫作業(yè)！雖然現(xiàn)在已有非AI的代碼查重系統(tǒng)，但誰知道AI什么時候會后來居上呢？

1. MISIM架構(gòu)

MISIM架構(gòu)概覽

MISIM由兩個核心組件組成。首先，MISIM具有新型的上下文感知語義結(jié)構(gòu)（CASS），該結(jié)構(gòu)通過捕獲描述代碼上下文的信息，使用機(jī)器學(xué)習(xí)算法來確定給定源代碼的目的（例如，代碼是一個函數(shù)調(diào)用、一個操作等）。其次，MISIM還具有基于神經(jīng)網(wǎng)絡(luò)的代碼相似性評估算法，該算法可通過各種神經(jīng)網(wǎng)絡(luò)架構(gòu)來實現(xiàn)。

一旦構(gòu)建了CASS，就將其向量化并用作神經(jīng)網(wǎng)絡(luò)的輸入，神經(jīng)網(wǎng)絡(luò)會生成特征向量。生成特征向量后，就可以進(jìn)行代碼相似度評估（例如，向量點(diǎn)積、余弦相似度等）。

對于MISIM的相似性評估算法，研究人員研究了三種神經(jīng)網(wǎng)絡(luò)方法：GNN、RNN和BoF神經(jīng)網(wǎng)絡(luò)。其中，使用GNN的 MISM 總體表現(xiàn)最好，能夠以超過75%的準(zhǔn)確率識別出兩個程序的相似程度。

將代碼的結(jié)構(gòu)與CASS集成在一起后，算法就會根據(jù)代碼要執(zhí)行的工作計算相似性分?jǐn)?shù)。即使兩段代碼表面上不同，如果執(zhí)行相同的功能，模型就會將它們評估為相似。

CASS可以配置特定的上下文，從而能夠捕獲描述代碼的更高級別信息。而且CASS可以在不使用編譯器的情況下對代碼進(jìn)行評級（編譯器將人類可讀的源代碼轉(zhuǎn)換為計算機(jī)可執(zhí)行的機(jī)器代碼），甚至可以對不完整的代碼片段進(jìn)行評估。

MISIM-GNN的架構(gòu)如下圖所示。對于這種方法，輸入代碼的CASS表征被轉(zhuǎn)換為圖。然后，將圖中的每個節(jié)點(diǎn)嵌入一個可訓(xùn)練的向量，作為該節(jié)點(diǎn)的初始狀態(tài)。接下來，使用GNN迭代更新每個節(jié)點(diǎn)的狀態(tài)。最后，應(yīng)用全局讀取函數(shù)從節(jié)點(diǎn)的最終狀態(tài)提取整個圖的向量表征。

MISIM-GNN 架構(gòu)

2 . 不再重復(fù)造輪子

研究人員仍然在擴(kuò)展MISIM的特征集，目的是創(chuàng)建一個代碼推薦引擎，它能夠識別算法背后的意圖，并提供語義上相似但性能有所提高的候選代碼。系統(tǒng)可以指示程序員使用庫函數(shù)，而不用再重復(fù)造輪子。

像MISIM這樣的以AI為動力的代碼建議和審查工具有望大幅削減開發(fā)成本，同時使編碼人員能夠?qū)Ｗ⒂诟邉?chuàng)造性、減少重復(fù)性的任務(wù)。

英特爾實驗室首席科學(xué)家兼機(jī)器編程研究總監(jiān)Justin Gottschlich表示：“如果該系統(tǒng)能取得成功，我們的最終目標(biāo)之一就是實現(xiàn)全民編程。”

或許有一天，代碼相似性檢測可以擴(kuò)展到自然語言中，到時候要實現(xiàn)全民編程，就不再是難事。

3. 相關(guān)論文

不再重復(fù)造輪子，AI 給你推薦更好的代碼，還沒bug

論文地址：https://arxiv.org/pdf/2006.05265.pdf

不再重復(fù)造輪子，AI 給你推薦更好的代碼，還沒bug

代碼相似檢測系統(tǒng)的準(zhǔn)確率比較，結(jié)果是運(yùn)行3次的平均值和相對于平均值的最小/最大值。

不再重復(fù)造輪子，AI 給你推薦更好的代碼，還沒bug

code2vec、NCC、Aroma、MISIM在POJ-104測試集上的準(zhǔn)確率結(jié)果。條形高度表示運(yùn)行3次測量值的平均值，誤差條由測量值的最小值和最大值確定。

責(zé)任編輯：張燕妮來源：雷鋒網(wǎng)

AI 數(shù)據(jù)人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營