自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<big id="eoajr"></big>

<wbr id="eoajr"></wbr>

<ul id="eoajr"><acronym id="eoajr"></acronym></ul>

<dfn id="eoajr"><fieldset id="eoajr"><wbr id="eoajr"></wbr></fieldset></dfn><var id="eoajr"></var>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

思碼逸任晶磊：ChatGPT 時(shí)代的軟件研發(fā)數(shù)據(jù)與效能提升

2023-05-04 10:48:35

我在清華大學(xué)獲得博士學(xué)位后，加入了微軟亞洲研究院，從事軟件系統(tǒng)程序分析的研究。同時(shí)一直在關(guān)注機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展。現(xiàn)在，ChatGPT 技術(shù)確實(shí)讓幾乎所有人都大為震撼。

思碼逸創(chuàng)始人 & CEO 任晶磊在 2023年3月4日于上海舉辦的 LeaTech 全球 CTO 領(lǐng)導(dǎo)力峰會(huì)上作為演講嘉賓分享了主題為《ChatGPT 時(shí)代的軟件研發(fā)數(shù)據(jù)與效能提升》的演講。

??文字為分享內(nèi)容的提煉，您可以在文末查看完整分享視頻及獲取演講PPT。

我在清華大學(xué)獲得博士學(xué)位后，加入了微軟亞洲研究院，從事軟件系統(tǒng)程序分析的研究。同時(shí)一直在關(guān)注機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展?，F(xiàn)在，ChatGPT 技術(shù)確實(shí)讓幾乎所有人都大為震撼。

接下來我們將進(jìn)入這項(xiàng)技術(shù)的干貨內(nèi)容，今天的演講分為四個(gè)部分。

· ChatGPT 給軟件工程帶來什么？

· 從研發(fā)數(shù)據(jù)角度看 ChatGPT

· 如何打造高質(zhì)量的研發(fā)數(shù)據(jù)基礎(chǔ)？

· ChatGPT 在實(shí)際研發(fā)效能數(shù)據(jù)上的表現(xiàn)如何？

1、ChatGPT 給軟件工程帶來什么？

第一部分，我們將概述 ChatGPT 對軟件工程的影響，不會(huì)局限于程序員如何提高工作效率，更會(huì)探討對軟件工程整體的影響。

首先，第一個(gè)方面是讓大家寫代碼變得更快、更容易了，我認(rèn)為這個(gè)話題無需贅述，因?yàn)槲蚁嘈旁谧暮芏嗳硕加畜w驗(yàn)。在 ChatGPT 出現(xiàn)之后，另外一個(gè)新產(chǎn)品也是值得關(guān)注的——代碼搜索領(lǐng)域的頭部公司 Sourcegraph 正在推出一款產(chǎn)品 Cody（盡管還沒有公測），它在后 ChatGPT 時(shí)代提供了問答功能。Cody 會(huì)結(jié)合你的領(lǐng)域知識、基于現(xiàn)有代碼給出回答。我認(rèn)為這個(gè)產(chǎn)品是值得大家關(guān)注的。

Sourcegraph Cody 編程助手

但綜合來看，我們現(xiàn)在能看到的落地能力還不能夠做到生成復(fù)雜項(xiàng)目級別的代碼，只能幫助你寫一些微觀的代碼。至于生成工程性的代碼，我們可能還需要等待一段時(shí)間，像在《流浪地球》中機(jī)器人能夠?yàn)槟阒貙懻麄€(gè)操作系統(tǒng)。我認(rèn)為這種幻想目前仍然只存在于小說中。至于這種能力何時(shí)能夠?qū)崿F(xiàn)，我無法預(yù)測，因?yàn)槿魏晤A(yù)測都有可能被打臉。不太悲觀地講，我們的飯碗應(yīng)該還是能夠再保持幾年的。這是第一個(gè)維度的影響。

但 ChatGPT 對軟件工程的影響，不僅是讓個(gè)人寫代碼的速度變快這么簡單。我們可以問一個(gè)問題：如果你的團(tuán)隊(duì)中每個(gè)人的速度都快了10倍，項(xiàng)目進(jìn)度會(huì)變快10倍嗎？在座的都是技術(shù)管理者，很明顯這個(gè)答案是否定的。因?yàn)樵趶膭?chuàng)建到最后交付的整個(gè)過程中，寫代碼的時(shí)間可能只占10%-20%，軟件工程中還有許多復(fù)雜的組織和流程因素。

因此，我們還需要看看 ChatGPT 是否能夠解決軟件工程中的信息不對稱問題。因?yàn)楫?dāng)人數(shù)增加時(shí)，信息不對稱就會(huì)存在，流程摩擦也會(huì)增加。想想我們每天要開多少會(huì)議，花費(fèi)了百分之多少的時(shí)間。AI 能否在這方面發(fā)揮價(jià)值呢？這是和前面同樣重要的維度。

如果在你的組織中有一個(gè) ChatGPT 研發(fā)效能顧問，能夠回答你有關(guān)項(xiàng)目和公司中各種問題，它就能夠幫助我們減少信息不對稱，并消除組織中流程摩擦。當(dāng)然，有些會(huì)議需要與真人交流，但如果有些問題可以由 ChatGPT 直接解答，可能能減少20%的會(huì)議時(shí)間，這也是一種效率。因此，這個(gè)價(jià)值也是一個(gè)非常重要的維度。我們的許多客戶都非常期待這樣的能力。

2、從研發(fā)數(shù)據(jù)角度看 ChatGPT

第二部分，我們將從研發(fā)數(shù)據(jù)的角度探討 ChatGPT，因?yàn)槿魏稳斯ぶ悄芗夹g(shù)的訓(xùn)練和使用都需要數(shù)據(jù)作為原材料。因此，我們必須從數(shù)據(jù)的角度去思考這個(gè)問題。

ChatGPT 的基石大型模型，是基于公共數(shù)據(jù)中巨大的參數(shù)訓(xùn)練而成的，規(guī)模達(dá)到了千億級別。但是，它并不了解私域信息、組織、團(tuán)隊(duì)和其他相關(guān)知識。那么，如何將這些知識傳遞給它，是我們當(dāng)前所面臨的最大瓶頸。

數(shù)據(jù)基本上可以分為兩類：一類是你的代碼，代碼中保存了你的大部分軟件知識；另一類是你的軟件工具和開發(fā)行為的所有數(shù)據(jù)，比如你的工具中所有的交流互動(dòng)流程數(shù)據(jù)，這部分?jǐn)?shù)據(jù)是代碼之外的。

具體來說，我們有三種途徑：最右邊是采用大模型的最典型方法，即提供提示（prompt）。與大模型交流時(shí)，你不僅僅需要問一個(gè)問題，還需要給它提供一些上下文和少量的樣本，以解釋你想要干什么以及你的情況。這里最大的挑戰(zhàn)是你只能給出非常有限的信息，例如4K或8K。如果信息量太少，那么大模型無法回答你關(guān)于服務(wù)和知識方面的問題。這個(gè)帶寬是非常小的。

最左邊的方法是使用你自己的數(shù)據(jù)去訓(xùn)練大模型，你需要修改更新它的參數(shù)。然而，這種方法需要大量的時(shí)間和資源。中間的方式是自己訓(xùn)練一個(gè)小的模型去學(xué)習(xí)大模型，然后進(jìn)行微調(diào)，以使其更適合你的特定任務(wù)。

在實(shí)際應(yīng)用中，選擇哪種方法取決于你的具體情況和需求。無論選擇哪種方法，我們都需要理解大型模型的優(yōu)勢和局限性，并在實(shí)踐中發(fā)掘其潛力。

總體來說，我們目前探索的方向是最右邊的第三種路徑。選擇這個(gè)路徑背后的邏輯是 ChatGPT 的核心思想，這種思路的成功在于使用全球公開的信息和1000億參數(shù)來訓(xùn)練一個(gè)通用的模型，而不是針對特定領(lǐng)域去收集數(shù)據(jù)和優(yōu)化模型。當(dāng)需要解決具體問題時(shí)，只需提供一個(gè)小樣本，模型就能夠?qū)W習(xí)并回答問題。因此，我們?nèi)匀幌Ｍ刂@條路線前進(jìn)。

3、如何打造高質(zhì)量的研發(fā)數(shù)據(jù)基礎(chǔ)？

第三部分，我們將介紹構(gòu)建高質(zhì)量研發(fā)數(shù)據(jù)基礎(chǔ)的五個(gè)步驟。只有保證數(shù)據(jù)基礎(chǔ)的高質(zhì)量，ChatGPT 才能可靠地解決具體領(lǐng)域的問題。

第一步，需要完成原始數(shù)據(jù)的積累。我們意識到在研發(fā)中，這些數(shù)據(jù)本身就是重要的資產(chǎn)和信息源。我們建議使用像 Apache DevLake 這樣的開源工具，快速跨過這個(gè)初始階段。

第二步，在獲取數(shù)據(jù)后，我們會(huì)面臨數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)的健康度很重要，因?yàn)槿绻蛩惴ㄌ峁?0分的數(shù)據(jù)，是不可能獲得90分的結(jié)果的。因此，我們建議使用代碼分析技術(shù)來校準(zhǔn)數(shù)據(jù)，夯實(shí)數(shù)據(jù)，以確保數(shù)據(jù)的質(zhì)量。

第三步，需要進(jìn)行自主分析，利用 BI 或可視化工具，從數(shù)據(jù)中解讀信息，下探洞察原因推動(dòng)度量-分析-回顧-改進(jìn)）循環(huán)。

第四步，以目標(biāo)為導(dǎo)向，采用 GQM （目標(biāo)-問題-指標(biāo)）方法，基于健康的數(shù)據(jù)進(jìn)行系統(tǒng)洞察，可以參考文章《GQM 概述：構(gòu)建研發(fā)效能度量體系的根本方法》進(jìn)一步復(fù)用和豐富模板，沉淀知識。

第五步，基于ChatGPT 實(shí)現(xiàn)智能交互，滿足靈活多樣的信息需要。在 ChatGPT 之前，自然語言轉(zhuǎn) SQL 這一研究領(lǐng)域早已存在，而以 ChatGPT 為代表的新一代自然語言處理工具，將會(huì)給這個(gè)領(lǐng)域帶來新的活力。

4、ChatGPT 在實(shí)際研發(fā)效能數(shù)據(jù)上的表現(xiàn)如何？

第四部分，我們深入上述的第五個(gè)步驟——智能交互，去探索 ChatGPT 在可靠的研發(fā)數(shù)據(jù)基礎(chǔ)上，能夠?qū)崿F(xiàn)什么樣的功能。

我們基于 Apache DevLake 的真實(shí)數(shù)據(jù)表，測試了 ChatGPT 理解人類常識、找到正確的表、處理復(fù)雜抽象問題等方面的能力。

第一個(gè)測試顯示，ChatGPT 具備比較全面的人類常識，能夠直接找到“打開 issue”、“issue 合作”等表述對應(yīng)的數(shù)據(jù)，這意味著我們不需要提供額外的數(shù)據(jù)字典，來輔助它理解某個(gè)細(xì)分領(lǐng)域。

第二個(gè)測試顯示，ChatGPT 具備處理復(fù)雜數(shù)據(jù)表的能力。我們提供了互相關(guān)聯(lián)的 9 張表，其中有許多重復(fù)數(shù)據(jù)字段，而 ChatGPT 成功找到了正確的表，輸出了正確的 SQL 查詢。

第三個(gè)測試顯示，當(dāng)提出的問題比較模糊的時(shí)候，ChatGPT 嘗試?yán)斫獾姆较蛞彩呛侠淼摹Ｎ覀兊膯栴}中包括了“近期”“PR 評審難度高”這樣并不確切的表述，而 ChatGPT 在 SQL 查詢中使用了“最近一周”、“PR 評論長度 > 500”“PR 評論數(shù)量 > 5”這些具體且合理的推測。

第四個(gè)測試不是基于研發(fā)數(shù)據(jù)做的，但也很有意思，所以和大家分享一下。我們用了自然語言處理數(shù)據(jù)集 Spider 里的一個(gè)超難問題來考驗(yàn) ChatGPT。它給出的第一個(gè) SQL 查詢是錯(cuò)誤的，接下來我們不給出任何提示或反饋，只是反復(fù)提問。在后幾次嘗試中，ChatGPT 成功給出了多種正確解法。

這說明 ChatGPT 可以通過多次嘗試來自驗(yàn)證，提高數(shù)據(jù)解讀的準(zhǔn)確性。

責(zé)任編輯：龐桂玉來源： CTO訓(xùn)練營

ChatGPT 軟件研發(fā)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<button id="50ufi"></button>