Cloudera大中華區(qū)技術(shù)總監(jiān)劉隸放:更準(zhǔn)確的AI需要更準(zhǔn)確的數(shù)據(jù)
原創(chuàng)在2023年Gartner發(fā)布的十大戰(zhàn)略技術(shù)趨勢中,應(yīng)用可觀測性以及AI信任、風(fēng)險和安全管理都位列其中?!跋嘈艛?shù)據(jù)可以使今天的不可能,在明天成為可能”的Cloudera肯睿,似乎在這兩個風(fēng)口都有著得天獨(dú)厚的優(yōu)勢。
近日,Cloudera大中華區(qū)技術(shù)總監(jiān)劉隸放向51CTO等媒體分享了Cloudera全新的現(xiàn)成大型語言模型(LLM)藍(lán)圖以及監(jiān)控和優(yōu)化CDP部署的新服務(wù)Cloudera Observability。
CML:信任 AI始于信任數(shù)據(jù)
“這對Cloudera是一個非常好的機(jī)會?!?/span>
談及AI時代,劉隸放表示, Cloudera平臺上管理的數(shù)據(jù)已經(jīng)超過2500萬TB,這與超大規(guī)模服務(wù)商的數(shù)據(jù)量不相上下。此前,Cloudera大中華區(qū)副總裁王剛表示:“生成式 AI和大型語言模型的效果取決于它們所接受的訓(xùn)練數(shù)據(jù),并且它們需要正確的語境。這些模型和AI要取得成功,就需要得到信任,而信任 AI始于信任數(shù)據(jù)?!?/span>
今年以來,不少合作伙伴和客戶都來向Cloudera尋求幫助,希望在系統(tǒng)中嵌入對話機(jī)器人以及機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)。
ChatGPT雖然很火,大家也都在做,但是為什么企業(yè)要跟合作伙伴談,而不是直接用公有云上的模型?劉隸放解釋道,企業(yè)需要在合適的情境中基于自身專有數(shù)據(jù)構(gòu)建交互體驗,并且不與外部服務(wù)共享他們的數(shù)據(jù)。在Cloudera平臺上,對所有客戶而言最重要最珍貴的數(shù)據(jù)始終都在客戶手中,這也是Cloudera能深度參與客戶AI建設(shè)的重要原因之一。
對于企業(yè)而言,數(shù)據(jù)的關(guān)聯(lián)度和準(zhǔn)確性也很重要,對話機(jī)器人的錯誤將會為工作和生產(chǎn)帶來很大的影響?!癈hatGPT有一個策略,當(dāng)它知識庫中沒有訓(xùn)練答案時,就會捏造一個答案,這種現(xiàn)象被稱為AI幻覺?!眲㈦`放表示,今天的AI還沒有像我們在電影中看到的那么神奇,要讓AI給出更準(zhǔn)確的答案,需要確保數(shù)據(jù)的質(zhì)量。
近兩年來,Cloudera一直強(qiáng)調(diào)在數(shù)據(jù)編織基礎(chǔ)上幫助客戶實現(xiàn)數(shù)據(jù)治理和管控的能力。但未來Cloudera將會轉(zhuǎn)型成為AI的平臺。
劉隸放介紹道,Cloudera的AI平臺CML(CDP Machine Learning)主要有三個重要部分:一是CDP基礎(chǔ)數(shù)據(jù),即客戶訓(xùn)練數(shù)據(jù)的基礎(chǔ)數(shù)據(jù),這將為客戶未來的分析系統(tǒng)提供數(shù)據(jù)支撐;二是數(shù)據(jù)加工、提取與轉(zhuǎn)換,Cloudera加工數(shù)據(jù)的流程原本用在大數(shù)據(jù)流程中,AI也同樣需要對數(shù)據(jù)進(jìn)行加工處理;三是嵌入大語言模型,并在模型的基礎(chǔ)上,構(gòu)建和部署AI應(yīng)用。
“在真實大數(shù)據(jù)的模型上,按照合規(guī)的方式產(chǎn)生可信結(jié)果,我想這是Cloudera AI平臺所提供的能力?!?/span>
Observability:優(yōu)化混合云成本
在越來越多企業(yè)選擇混合云和多云的今天,全面了解和管理不同部門和成本中心的基礎(chǔ)設(shè)施和服務(wù)支出變得愈發(fā)困難。
劉隸放介紹說,管理混合云部署的挑戰(zhàn)主要在三個方面:一是平臺可控性和穩(wěn)定性,由容器、調(diào)度器、服務(wù)等組成的復(fù)雜系統(tǒng)給運(yùn)維人員的知識面提出了很高的要求;二是資源管理和控制,對資源消耗情況和效率的可見性有限,導(dǎo)致浪費(fèi)和超支;三是支持力度和體驗,提供支持的人員需要頻繁來回奔波,排除故障的過程也很麻煩。
Cloudera Observability讓這些難題迎刃而解。今年6月,Cloudera Observability宣布面向所有在公有云或私有云環(huán)境中使用Cloudera Data Platform(CDP)的客戶開放,依托Cloudera在混合數(shù)據(jù)解決方案領(lǐng)域的經(jīng)驗,使客戶能夠監(jiān)控、了解和優(yōu)化其CDP部署??蛻暨€可以通過可自定義的自動操作和預(yù)先構(gòu)建的操作,發(fā)出警報、主動避免問題并優(yōu)化工作負(fù)載。
相比Cloudera此前的另一專注于工作負(fù)載調(diào)優(yōu)的產(chǎn)Workload Management,Cloudera Observability在混合云環(huán)境中能力更加全面。劉隸放介紹說,Observability實現(xiàn)了財務(wù)治理、主動系統(tǒng)監(jiān)控、服務(wù)健康監(jiān)控、工作負(fù)載優(yōu)化、自助式分析等功能,以及更快的問題解決速度。
Cloudera Observability能夠提高CDP全部功能的成本效益,從而增強(qiáng)企業(yè)用戶體驗。對于正在提高自身數(shù)據(jù)管理水平,以便為各種混合云和多云環(huán)境中的大型語言模型和其他AI項目提供基礎(chǔ)數(shù)據(jù)的企業(yè)來說,這一點正變得日益重要。
此外,提及Cloudera Observability的優(yōu)勢,劉隸放還展示了Cloudera針對已有適用客戶的平臺進(jìn)行的數(shù)據(jù)分析。在部署Observability后,集群利用率提升30%以上,提高了基礎(chǔ)設(shè)施的投資回報率;SLA和SLO遵守率提高43%,直接增加了收入;RCA和故障排除速度加快50倍,減少了運(yùn)營開支。
目前,Cloudera Observability只推出了公有云上的SaaS版本,還需要聯(lián)網(wǎng)支撐部署。但劉隸放透露,考慮到部分行業(yè)監(jiān)管嚴(yán)格且對數(shù)據(jù)敏感,Cloudera很快還會推出一個本地部署版。