自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

企業(yè)AI:如何構(gòu)建AI數(shù)據(jù)集

人工智能
尋找和獲取構(gòu)建企業(yè)數(shù)據(jù)集所需的數(shù)據(jù),這對(duì)于那些希望構(gòu)建自己的AI模型的組織來(lái)說(shuō)是可能是最關(guān)鍵的一項(xiàng)任務(wù)。

尋找和獲取構(gòu)建企業(yè)數(shù)據(jù)集所需的數(shù)據(jù),這對(duì)于那些希望構(gòu)建自己的AI模型的組織來(lái)說(shuō)是可能是最關(guān)鍵的一項(xiàng)任務(wù)。

咨詢(xún)公司Rockborne首席執(zhí)行官Waseem Ali表示,即使有實(shí)踐經(jīng)驗(yàn),事情也很容易出錯(cuò)?!耙磺锌偸菑臄?shù)據(jù)開(kāi)始的,如果你的數(shù)據(jù)不好,模型就不會(huì)好?!?/p>

相反他建議,很多時(shí)候,企業(yè)面臨的挑戰(zhàn)不應(yīng)該是想要用他們的第一個(gè)項(xiàng)目征服世界,而是先進(jìn)行試點(diǎn),讓他們能夠走得更遠(yuǎn)。

檢查數(shù)據(jù)或數(shù)字項(xiàng)目的具體業(yè)務(wù)需求和要求,詢(xún)問(wèn)需要解決什么問(wèn)題,需要查詢(xún)什么“預(yù)感”,但首先要避免深入研究“全局影響”。

正如工業(yè)物聯(lián)網(wǎng)專(zhuān)業(yè)公司Hexagon的AI負(fù)責(zé)人Johannes Maunz所解釋的,從第一原則開(kāi)始著手獲取特定用例的數(shù)據(jù)。

Maunz說(shuō):“沒(méi)有一個(gè)深度學(xué)習(xí)模型可以解決所有用例。將現(xiàn)狀與需要改進(jìn)的地方進(jìn)行比較,需要捕獲哪些可用數(shù)據(jù)?以小規(guī)?;蛴邢薜姆绞竭M(jìn)行,僅針對(duì)那一個(gè)用例?!?/p>

Hexagon的方法通常側(cè)重于自己的傳感器,其中包含墻壁、窗戶、門(mén)等建筑的數(shù)據(jù)。通過(guò)在瀏覽器中呈現(xiàn)的內(nèi)容,Hexagon可以了解數(shù)據(jù)及其標(biāo)準(zhǔn)、格式、一致性等。

首先考慮企業(yè)已經(jīng)擁有的、或者可以使用的、符合要求的數(shù)據(jù)和數(shù)據(jù)集。這通常需要與法律和隱私團(tuán)隊(duì)密切合作,即使在工業(yè)內(nèi)部環(huán)境中也是如此。Maunz建議,要確保指定使用的數(shù)據(jù)不包含任何私人個(gè)人信息。然后,企業(yè)就可以構(gòu)建他們想要使用的模型并對(duì)其進(jìn)行訓(xùn)練——假設(shè)成本和可行性都已經(jīng)到位。

接下來(lái),你需要決策點(diǎn)透明度,以及信號(hào)值來(lái)評(píng)估可用性、可行性和業(yè)務(wù)效果等因素,或者潛在表現(xiàn)與競(jìng)爭(zhēng)對(duì)手相比的數(shù)據(jù)等。

對(duì)于企業(yè)目前沒(méi)有的數(shù)據(jù),可能需要一些合作伙伴或客戶協(xié)商來(lái)獲取。

Maunz表示:“坦率地說(shuō),人們是非常開(kāi)放——但總要有一份合同。只有這樣,我們才能開(kāi)始我們通常所說(shuō)的數(shù)據(jù)活動(dòng)。有時(shí)候超過(guò)所需量的數(shù)據(jù)也是有意義的,這樣企業(yè)就可以進(jìn)行向下采樣?!?/p>

數(shù)據(jù)質(zhì)量和簡(jiǎn)單性至關(guān)重要

供應(yīng)鏈咨詢(xún)公司BearingPoint的合伙人Emile Naus強(qiáng)調(diào)了對(duì)AI/ML數(shù)據(jù)質(zhì)量的關(guān)注。要盡可能保持簡(jiǎn)單,復(fù)雜性使正確的決策變得困難并且會(huì)損害結(jié)果——然后還有偏見(jiàn)和知識(shí)產(chǎn)權(quán)需要考慮。Naus補(bǔ)充說(shuō):“內(nèi)部數(shù)據(jù)并不完美,但至少你可以了解它有多好?!?/p>

他警告說(shuō),與易于使用的2D線擬合甚至3D線擬合相比,由AI/ML驅(qū)動(dòng)的復(fù)雜多維線擬合可以帶來(lái)更好的結(jié)果——優(yōu)化生產(chǎn)、解決方案“配方”、最大限度地減少浪費(fèi)等等——如果企業(yè)能夠“自由”地獲取所需的數(shù)據(jù)。

“和所有的模型一樣,因?yàn)锳I模型被用于構(gòu)建另一個(gè)模型,而模型總是出錯(cuò),因此數(shù)據(jù)治理是關(guān)鍵。你沒(méi)有的部分實(shí)際上可能更重要,你必須弄清楚數(shù)據(jù)的完整性和準(zhǔn)確性。”

鄧白氏(D&B)數(shù)據(jù)和分析高級(jí)副總裁Andy Crisp建議使用客戶洞察和關(guān)鍵數(shù)據(jù)元素來(lái)建立數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和公差、測(cè)量和監(jiān)控。

Crisp表示:“例如,[客戶想要的、或從我們這里獲得的]數(shù)據(jù)也可能會(huì)為他們的模型提供信息,我們正在進(jìn)行大約460億次數(shù)據(jù)質(zhì)量計(jì)算,獲取我們的數(shù)據(jù),然后可能根據(jù)這些標(biāo)準(zhǔn)再次進(jìn)行計(jì)算,然后每月發(fā)布數(shù)據(jù)質(zhì)量觀察結(jié)果。”

例如,通過(guò)特定標(biāo)準(zhǔn),特定屬性必須表現(xiàn)得足夠好,才能傳遞給下一個(gè)團(tuán)隊(duì),團(tuán)隊(duì)采用這些標(biāo)準(zhǔn)和公差、這些測(cè)量和觀察點(diǎn)的結(jié)果,與數(shù)據(jù)管理部門(mén)合作獲取、整理和維護(hù)數(shù)據(jù)。

“花時(shí)間做事并加深理解,別無(wú)他法。這就像,從切割一塊木頭開(kāi)始,然后檢查長(zhǎng)度,防止接下來(lái)你完全錯(cuò)誤地切割了50塊木板。”

企業(yè)需要“知道什么是好的”,以提高數(shù)據(jù)性能和洞察力,然后將它們整合在一起。保持問(wèn)題陳述的嚴(yán)謹(jǐn)性,縮小所需數(shù)據(jù)集的數(shù)據(jù)識(shí)別范圍。細(xì)致的注釋和元數(shù)據(jù)可以實(shí)現(xiàn)控制數(shù)據(jù)集的管理,實(shí)現(xiàn)真正科學(xué)的方法,識(shí)別偏差并幫助最大限度地減少偏差。

謹(jǐn)防將多個(gè)因素混為一談的大膽陳述,確保要“測(cè)試到破壞”,這是IT企業(yè)不想“快速行動(dòng)并打破常規(guī)”的一個(gè)領(lǐng)域。所有使用的數(shù)據(jù)都必須符合標(biāo)準(zhǔn),而且必須不斷檢查和補(bǔ)救。

“測(cè)量和監(jiān)控,補(bǔ)救和改進(jìn),”Crisp指出,鄧白氏的質(zhì)量工程團(tuán)隊(duì)是由全球約70名團(tuán)隊(duì)成員組成的,“高質(zhì)量的工程能力將有助于減少幻覺(jué)等?!?/p>

Informatica北歐、中東和非洲地區(qū)副總裁Greg Hanson也認(rèn)為,制定目標(biāo)至關(guān)重要,可以幫助企業(yè)確定如何最好地利用時(shí)間進(jìn)行信息編目、信息整合、訓(xùn)練AI以支持結(jié)果所需的數(shù)據(jù)。

即使是企業(yè)自己的數(shù)據(jù)通常也會(huì)分散并隱藏在不同位置、云或本地環(huán)境中。

Hanson說(shuō):“對(duì)所有數(shù)據(jù)資產(chǎn)進(jìn)行編目,了解這些數(shù)據(jù)所在的位置,也可以考慮使用AI來(lái)加快數(shù)據(jù)管理的速度?!?/p>

確保在采集數(shù)據(jù)之前進(jìn)行治理

在AI引擎采集數(shù)據(jù)之前要實(shí)施所有的數(shù)據(jù)質(zhì)量規(guī)則,并假設(shè)已經(jīng)采取了適當(dāng)?shù)闹卫砗秃弦?guī)性。如果企業(yè)沒(méi)有進(jìn)行衡量、量化和修復(fù),那么只會(huì)更快地做出錯(cuò)誤決策,Hanson補(bǔ)充說(shuō):“記?。豪M(jìn),垃圾出。”

數(shù)據(jù)套件廠商Precisely的首席技術(shù)官Tendü Yogurt?u表示,根據(jù)規(guī)模和行業(yè)類(lèi)型,企業(yè)可以考慮成立指導(dǎo)委員會(huì)或跨職能委員會(huì),幫助定義所有相關(guān)AI計(jì)劃的最佳實(shí)踐和流程。也可以通過(guò)識(shí)別團(tuán)隊(duì)之間的常見(jiàn)用例或模式來(lái)幫助加速進(jìn)程,隨著組織從試點(diǎn)和生產(chǎn)中學(xué)習(xí),這些用例或模式本身也會(huì)持續(xù)發(fā)生變化。

數(shù)據(jù)治理框架可能需要擴(kuò)展以涵蓋各種AI模型。話雖如此,潛在的AI用例比比皆是。

“以保險(xiǎn)行業(yè)為例。為了模擬風(fēng)險(xiǎn)和定價(jià)準(zhǔn)確性,保險(xiǎn)公司需要有關(guān)野火和洪水風(fēng)險(xiǎn)、地塊地形、地塊內(nèi)建筑物的確切位置、與消防栓的距離以及與加油站等潛在危險(xiǎn)點(diǎn)的距離等詳細(xì)信息,”Yogurt?u解釋說(shuō)。

然而,咨詢(xún)公司Slalom的高級(jí)數(shù)據(jù)和分析負(fù)責(zé)人Richard Fayers警告稱(chēng),構(gòu)建AI模型(尤其是生成式AI)可能會(huì)花費(fèi)不菲。

“也許,在某些領(lǐng)域企業(yè)可以合作——比如法律或醫(yī)學(xué),我們開(kāi)始看到價(jià)值的地方,就是當(dāng)你用你的數(shù)據(jù)增強(qiáng)生成式AI的時(shí)候——你可以用各種方法來(lái)實(shí)現(xiàn)它?!?/p>

例如,在建筑領(lǐng)域,用戶可以使用自己的數(shù)據(jù)集和文檔來(lái)補(bǔ)充大型語(yǔ)言模型,以供查詢(xún)。類(lèi)似做法還有票務(wù)搜索平臺(tái),平臺(tái)可以智能地考慮一組基于自然語(yǔ)言的標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)并非與元數(shù)據(jù)和標(biāo)簽一一相關(guān)。

“例如,你可以使用一個(gè)票務(wù)平臺(tái)來(lái)發(fā)現(xiàn)‘適合兒童觀看的周末演出’,目前這種搜索類(lèi)型是相當(dāng)困難的,”Fayers說(shuō)。

他說(shuō),即使是ChatGPT之類(lèi)的數(shù)據(jù)集構(gòu)建和提示工程,為了實(shí)現(xiàn)更有“對(duì)話性”的方法,仍然需要關(guān)注數(shù)據(jù)質(zhì)量和治理,提示工程將成為一項(xiàng)需求旺盛的基本技能。

責(zé)任編輯:趙寧寧 來(lái)源: 至頂網(wǎng)
相關(guān)推薦

2024-10-09 16:53:43

2024-04-12 12:01:51

人工智能AI大模型

2025-03-31 09:30:52

2018-04-12 13:37:31

2020-09-10 18:14:51

人工智能 IBM

2020-09-11 10:59:05

數(shù)據(jù)庫(kù)

2023-06-19 09:01:17

2023-11-08 13:00:00

AI就業(yè)人工智能

2025-02-12 08:00:00

人工智能GenAICISO

2021-04-12 17:47:25

Facebook開(kāi)源AI

2020-10-28 10:28:23

AI

2021-07-17 06:48:09

AI人工智能

2025-01-20 11:24:56

2021-12-22 23:28:04

區(qū)塊鏈人工智能技術(shù)

2023-06-20 16:17:40

人工智能

2020-03-31 10:13:04

Google 開(kāi)源技術(shù)

2024-06-21 11:11:22

2017-08-17 15:23:38

2023-12-07 16:17:07

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)