自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

思碼逸任晶磊:ChatGPT 時(shí)代的軟件研發(fā)數(shù)據(jù)與效能提升

人工智能
我在清華大學(xué)獲得博士學(xué)位后,加入了微軟亞洲研究院,從事軟件系統(tǒng)程序分析的研究。同時(shí)一直在關(guān)注機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展。現(xiàn)在,ChatGPT 技術(shù)確實(shí)讓幾乎所有人都大為震撼。

思碼逸創(chuàng)始人 & CEO 任晶磊在 2023年3月4日于上海舉辦的 LeaTech 全球 CTO 領(lǐng)導(dǎo)力峰會(huì)上作為演講嘉賓分享了主題為《ChatGPT 時(shí)代的軟件研發(fā)數(shù)據(jù)與效能提升》的演講。

??文字為分享內(nèi)容的提煉,您可以在文末查看完整分享視頻及獲取演講PPT。  

我在清華大學(xué)獲得博士學(xué)位后,加入了微軟亞洲研究院,從事軟件系統(tǒng)程序分析的研究。同時(shí)一直在關(guān)注機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展?,F(xiàn)在,ChatGPT 技術(shù)確實(shí)讓幾乎所有人都大為震撼。

接下來我們將進(jìn)入這項(xiàng)技術(shù)的干貨內(nèi)容,今天的演講分為四個(gè)部分。

· ChatGPT 給軟件工程帶來什么?

· 從研發(fā)數(shù)據(jù)角度看 ChatGPT

· 如何打造高質(zhì)量的研發(fā)數(shù)據(jù)基礎(chǔ)?

· ChatGPT 在實(shí)際研發(fā)效能數(shù)據(jù)上的表現(xiàn)如何?

1、ChatGPT 給軟件工程帶來什么?

第一部分,我們將概述 ChatGPT 對軟件工程的影響,不會(huì)局限于程序員如何提高工作效率,更會(huì)探討對軟件工程整體的影響。

首先,第一個(gè)方面是讓大家寫代碼變得更快、更容易了,我認(rèn)為這個(gè)話題無需贅述,因?yàn)槲蚁嘈旁谧暮芏嗳硕加畜w驗(yàn)。在 ChatGPT 出現(xiàn)之后,另外一個(gè)新產(chǎn)品也是值得關(guān)注的——代碼搜索領(lǐng)域的頭部公司 Sourcegraph 正在推出一款產(chǎn)品 Cody(盡管還沒有公測),它在后 ChatGPT 時(shí)代提供了問答功能。Cody 會(huì)結(jié)合你的領(lǐng)域知識、基于現(xiàn)有代碼給出回答。我認(rèn)為這個(gè)產(chǎn)品是值得大家關(guān)注的。


圖片

Sourcegraph Cody 編程助手

但綜合來看,我們現(xiàn)在能看到的落地能力還不能夠做到生成復(fù)雜項(xiàng)目級別的代碼,只能幫助你寫一些微觀的代碼。至于生成工程性的代碼,我們可能還需要等待一段時(shí)間,像在《流浪地球》中機(jī)器人能夠?yàn)槟阒貙懻麄€(gè)操作系統(tǒng)。我認(rèn)為這種幻想目前仍然只存在于小說中。至于這種能力何時(shí)能夠?qū)崿F(xiàn),我無法預(yù)測,因?yàn)槿魏晤A(yù)測都有可能被打臉。不太悲觀地講,我們的飯碗應(yīng)該還是能夠再保持幾年的。這是第一個(gè)維度的影響。

但 ChatGPT 對軟件工程的影響,不僅是讓個(gè)人寫代碼的速度變快這么簡單。我們可以問一個(gè)問題:如果你的團(tuán)隊(duì)中每個(gè)人的速度都快了10倍,項(xiàng)目進(jìn)度會(huì)變快10倍嗎?在座的都是技術(shù)管理者,很明顯這個(gè)答案是否定的。因?yàn)樵趶膭?chuàng)建到最后交付的整個(gè)過程中,寫代碼的時(shí)間可能只占10%-20%,軟件工程中還有許多復(fù)雜的組織和流程因素。

因此,我們還需要看看 ChatGPT 是否能夠解決軟件工程中的信息不對稱問題。因?yàn)楫?dāng)人數(shù)增加時(shí),信息不對稱就會(huì)存在,流程摩擦也會(huì)增加。想想我們每天要開多少會(huì)議,花費(fèi)了百分之多少的時(shí)間。AI 能否在這方面發(fā)揮價(jià)值呢?這是和前面同樣重要的維度。

如果在你的組織中有一個(gè) ChatGPT 研發(fā)效能顧問,能夠回答你有關(guān)項(xiàng)目和公司中各種問題,它就能夠幫助我們減少信息不對稱,并消除組織中流程摩擦。當(dāng)然,有些會(huì)議需要與真人交流,但如果有些問題可以由 ChatGPT 直接解答,可能能減少20%的會(huì)議時(shí)間,這也是一種效率。因此,這個(gè)價(jià)值也是一個(gè)非常重要的維度。我們的許多客戶都非常期待這樣的能力。

2、從研發(fā)數(shù)據(jù)角度看 ChatGPT

第二部分,我們將從研發(fā)數(shù)據(jù)的角度探討 ChatGPT,因?yàn)槿魏稳斯ぶ悄芗夹g(shù)的訓(xùn)練和使用都需要數(shù)據(jù)作為原材料。因此,我們必須從數(shù)據(jù)的角度去思考這個(gè)問題。

ChatGPT 的基石大型模型,是基于公共數(shù)據(jù)中巨大的參數(shù)訓(xùn)練而成的,規(guī)模達(dá)到了千億級別。但是,它并不了解私域信息、組織、團(tuán)隊(duì)和其他相關(guān)知識。那么,如何將這些知識傳遞給它,是我們當(dāng)前所面臨的最大瓶頸。

數(shù)據(jù)基本上可以分為兩類:一類是你的代碼,代碼中保存了你的大部分軟件知識;另一類是你的軟件工具和開發(fā)行為的所有數(shù)據(jù),比如你的工具中所有的交流互動(dòng)流程數(shù)據(jù),這部分?jǐn)?shù)據(jù)是代碼之外的。

圖片

具體來說,我們有三種途徑:最右邊是采用大模型的最典型方法,即提供提示(prompt)。與大模型交流時(shí),你不僅僅需要問一個(gè)問題,還需要給它提供一些上下文和少量的樣本,以解釋你想要干什么以及你的情況。這里最大的挑戰(zhàn)是你只能給出非常有限的信息,例如4K或8K。如果信息量太少,那么大模型無法回答你關(guān)于服務(wù)和知識方面的問題。這個(gè)帶寬是非常小的。

最左邊的方法是使用你自己的數(shù)據(jù)去訓(xùn)練大模型,你需要修改更新它的參數(shù)。然而,這種方法需要大量的時(shí)間和資源。中間的方式是自己訓(xùn)練一個(gè)小的模型去學(xué)習(xí)大模型,然后進(jìn)行微調(diào),以使其更適合你的特定任務(wù)。

在實(shí)際應(yīng)用中,選擇哪種方法取決于你的具體情況和需求。無論選擇哪種方法,我們都需要理解大型模型的優(yōu)勢和局限性,并在實(shí)踐中發(fā)掘其潛力。

總體來說,我們目前探索的方向是最右邊的第三種路徑。選擇這個(gè)路徑背后的邏輯是 ChatGPT 的核心思想,這種思路的成功在于使用全球公開的信息和1000億參數(shù)來訓(xùn)練一個(gè)通用的模型,而不是針對特定領(lǐng)域去收集數(shù)據(jù)和優(yōu)化模型。當(dāng)需要解決具體問題時(shí),只需提供一個(gè)小樣本,模型就能夠?qū)W習(xí)并回答問題。因此,我們?nèi)匀幌M刂@條路線前進(jìn)。

3、如何打造高質(zhì)量的研發(fā)數(shù)據(jù)基礎(chǔ)?

第三部分,我們將介紹構(gòu)建高質(zhì)量研發(fā)數(shù)據(jù)基礎(chǔ)的五個(gè)步驟。只有保證數(shù)據(jù)基礎(chǔ)的高質(zhì)量,ChatGPT 才能可靠地解決具體領(lǐng)域的問題。

圖片

第一步,需要完成原始數(shù)據(jù)的積累。我們意識到在研發(fā)中,這些數(shù)據(jù)本身就是重要的資產(chǎn)和信息源。我們建議使用像 Apache DevLake 這樣的開源工具,快速跨過這個(gè)初始階段。

圖片

第二步,在獲取數(shù)據(jù)后,我們會(huì)面臨數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)的健康度很重要,因?yàn)槿绻蛩惴ㄌ峁?0分的數(shù)據(jù),是不可能獲得90分的結(jié)果的。因此,我們建議使用代碼分析技術(shù)來校準(zhǔn)數(shù)據(jù),夯實(shí)數(shù)據(jù),以確保數(shù)據(jù)的質(zhì)量。

圖片

第三步,需要進(jìn)行自主分析,利用 BI 或可視化工具,從數(shù)據(jù)中解讀信息,下探洞察原因推動(dòng)度量-分析-回顧-改進(jìn))循環(huán)。

第四步,以目標(biāo)為導(dǎo)向,采用 GQM (目標(biāo)-問題-指標(biāo))方法,基于健康的數(shù)據(jù)進(jìn)行系統(tǒng)洞察,可以參考文章《GQM 概述:構(gòu)建研發(fā)效能度量體系的根本方法進(jìn)一步復(fù)用和豐富模板,沉淀知識。

第五步,基于ChatGPT 實(shí)現(xiàn)智能交互,滿足靈活多樣的信息需要。在 ChatGPT 之前,自然語言轉(zhuǎn) SQL 這一研究領(lǐng)域早已存在,而以 ChatGPT 為代表的新一代自然語言處理工具,將會(huì)給這個(gè)領(lǐng)域帶來新的活力。

4、ChatGPT 在實(shí)際研發(fā)效能數(shù)據(jù)上的表現(xiàn)如何?

第四部分,我們深入上述的第五個(gè)步驟——智能交互,去探索 ChatGPT 在可靠的研發(fā)數(shù)據(jù)基礎(chǔ)上,能夠?qū)崿F(xiàn)什么樣的功能。

我們基于 Apache DevLake 的真實(shí)數(shù)據(jù)表,測試了 ChatGPT 理解人類常識、找到正確的表、處理復(fù)雜抽象問題等方面的能力。

第一個(gè)測試顯示,ChatGPT 具備比較全面的人類常識,能夠直接找到“打開 issue”、“issue 合作”等表述對應(yīng)的數(shù)據(jù),這意味著我們不需要提供額外的數(shù)據(jù)字典,來輔助它理解某個(gè)細(xì)分領(lǐng)域。 

圖片

第二個(gè)測試顯示,ChatGPT 具備處理復(fù)雜數(shù)據(jù)表的能力。我們提供了互相關(guān)聯(lián)的 9 張表,其中有許多重復(fù)數(shù)據(jù)字段,而 ChatGPT 成功找到了正確的表,輸出了正確的 SQL 查詢。

圖片

第三個(gè)測試顯示,當(dāng)提出的問題比較模糊的時(shí)候,ChatGPT 嘗試?yán)斫獾姆较蛞彩呛侠淼摹N覀兊膯栴}中包括了“近期”“PR 評審難度高”這樣并不確切的表述,而 ChatGPT 在 SQL 查詢中使用了“最近一周”、“PR 評論長度 > 500”“PR 評論數(shù)量 > 5”這些具體且合理的推測。

圖片

第四個(gè)測試不是基于研發(fā)數(shù)據(jù)做的,但也很有意思,所以和大家分享一下。我們用了自然語言處理數(shù)據(jù)集 Spider 里的一個(gè)超難問題來考驗(yàn) ChatGPT。它給出的第一個(gè) SQL 查詢是錯(cuò)誤的,接下來我們不給出任何提示或反饋,只是反復(fù)提問。在后幾次嘗試中,ChatGPT 成功給出了多種正確解法。

這說明 ChatGPT 可以通過多次嘗試來自驗(yàn)證,提高數(shù)據(jù)解讀的準(zhǔn)確性。

圖片

責(zé)任編輯:龐桂玉 來源: CTO訓(xùn)練營
相關(guān)推薦

2021-12-24 10:39:33

軟件開發(fā) 技術(shù)

2016-10-12 17:11:04

華為HDG

2022-12-14 10:09:44

研發(fā)效能

2021-09-06 16:44:28

騰訊云SaaS軟件

2022-09-01 15:47:47

編程工具AI

2022-07-28 09:39:26

研發(fā)效能業(yè)務(wù)

2023-03-22 09:02:39

云計(jì)算

2022-05-17 11:16:33

軟件開發(fā)優(yōu)化

2022-06-20 15:24:51

開發(fā)軟件程序員

2023-05-19 12:33:24

美團(tuán)技術(shù)

2022-10-20 10:16:12

敏捷開發(fā)DevOps研發(fā)效能

2021-07-20 09:28:41

信息系統(tǒng)實(shí)踐

2010-04-27 14:06:57

廣域網(wǎng)優(yōu)化思博

2013-03-30 22:22:34

Surface Pro

2021-04-11 11:13:30

大數(shù)據(jù)經(jīng)濟(jì)技術(shù)

2019-10-24 09:51:48

阿里工程師互聯(lián)網(wǎng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號