自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

LLM、RAG雖好,但XGBoost更香!

譯文 精選
人工智能
大型語言模型(LLMs)產(chǎn)生文本輸出,但這里的重點(diǎn)在于利用LLMs生成的內(nèi)部嵌入(潛在結(jié)構(gòu)嵌入),這些嵌入可以傳遞給像XGBoost這樣的傳統(tǒng)表格模型。雖然Transformers無疑已經(jīng)徹底改變了生成式人工智能,但它們的優(yōu)勢(shì)在于處理非結(jié)構(gòu)化數(shù)據(jù)、序列數(shù)據(jù)以及涉及復(fù)雜模式的任務(wù)。

編譯 | 言征  

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

數(shù)據(jù)&AI企業(yè)家、投資人Oliver Molander 近日在LinkedIn上的帖子中打趣道:“如果你在2022年[ChatGPT推出]之前問人工智能專家什么是LLM,很多人可能會(huì)回答說這是一個(gè)法律學(xué)位?!彼a(bǔ)充說,有多少人發(fā)現(xiàn)很難接受人工智能遠(yuǎn)遠(yuǎn)不止是LLMs和文本到視頻模型。

圖片圖片

在表格數(shù)據(jù)處理和信息解讀方面,真正的贏家是XGBoost(也被稱為Extreme Gradient Boosting)。在眾多深度學(xué)習(xí)技術(shù)的炒作中,甚至包括大型語言模型(LLMs)或最近興起的檢索增強(qiáng)生成(RAG)技術(shù)中,XGBoost在各個(gè)方面都表現(xiàn)出色。去年10月發(fā)布的XGBoost 2.0在多個(gè)新的分類任務(wù)上表現(xiàn)更加出色。

盡管XGBoost、深度學(xué)習(xí)或RAG等技術(shù)無法直接比較,但它們的功能是相同的——都是為了檢索、理解信息并生成輸出。

1.聽說過新的XGBoost LLM嗎?

盡管生成性人工智能和大型語言模型(LLMs)的發(fā)展取得了巨大進(jìn)步,并且在依賴表格數(shù)據(jù)的領(lǐng)域中,XGBoost的實(shí)際效用仍然是無與倫比的。XGBoost的可解釋性、效率和魯棒性使其成為從金融到醫(yī)療保健等應(yīng)用領(lǐng)域中不可或缺的工具。

然而,圍繞LLMs和RAG(檢索式生成)技術(shù)的熱潮讓人們開始忽視其他ML技術(shù)的重要性,例如XGBoost。風(fēng)險(xiǎn)資本家們急切地想要搭上GenAI和LLMs的快車,以至于每一個(gè)新術(shù)語往往被錯(cuò)誤地標(biāo)記為新型LLM。

但實(shí)際上,投資回報(bào)的很大一部分集中在預(yù)測(cè)性ML技術(shù)和如XGBoost和隨機(jī)森林等技術(shù)上。目前,大多數(shù)商業(yè)用途的AI/ML案例都是使用專有的表格業(yè)務(wù)數(shù)據(jù)完成的。

在處理表格數(shù)據(jù)集時(shí),效率至關(guān)重要。XGBoost的多功能性不僅限于分類任務(wù),還包括回歸和排序任務(wù)。無論你是需要預(yù)測(cè)一個(gè)連續(xù)的目標(biāo)變量,根據(jù)相關(guān)性對(duì)項(xiàng)目進(jìn)行排序,還是將數(shù)據(jù)分類到多個(gè)類別中,XGBoost都能輕松應(yīng)對(duì)。

XGBoost的可解釋性、效率和多功能性使其成為許多預(yù)測(cè)建模嘗試的首選,特別是那些依賴于表格數(shù)據(jù)的嘗試。相反地,LLMs不斷演變的能力以及RAG的增強(qiáng)潛力為知識(shí)密集型應(yīng)用提供了誘人的前景。

2.RAG太好了,但問題在于——

在2022年7月進(jìn)行的一項(xiàng)研究中,分析了45個(gè)中等規(guī)模的數(shù)據(jù)集,結(jié)果顯示,像XGBoost和隨機(jī)森林這樣的基于樹的模型在應(yīng)用于表格數(shù)據(jù)集時(shí),繼續(xù)展現(xiàn)出比深度神經(jīng)網(wǎng)絡(luò)更優(yōu)越的性能。

這項(xiàng)研究就像是一場(chǎng)技術(shù)競(jìng)賽,而基于樹的模型再次證明了它們?cè)诒砀駭?shù)據(jù)領(lǐng)域的霸主地位。

而RAG技術(shù)的亮相,則是在2020年,當(dāng)時(shí)Meta AI的天才團(tuán)隊(duì)決定為大型語言模型(LLMs)的世界增添一抹亮色。

RAG就像是一顆新星,它的出現(xiàn)改變了游戲規(guī)則。RAG的設(shè)計(jì)初衷是賦予LLMs迫切需要的信息檢索技術(shù),來解決那些帶來困擾的幻覺問題。簡(jiǎn)而言之,RAG不僅為L(zhǎng)LMs帶來了新的生命力,也為整個(gè)人工智能領(lǐng)域帶來了新的希望和可能性。

RAG技術(shù)為大型語言模型(LLMs)帶來了一種創(chuàng)新的數(shù)據(jù)處理方式,允許用戶引入新的數(shù)據(jù)集,為模型提供最新的信息以生成答案。這種技術(shù)有時(shí)被稱為“更高級(jí)的提示工程”。它正是企業(yè)所需要的,可以從它們自己的數(shù)據(jù)中生成洞見。然而,即便如此,這項(xiàng)技術(shù)并沒有完全解決LLMs中的幻覺問題。相反,由于人們開始更加信任這些模型,這個(gè)問題可能變得更加嚴(yán)重。

盡管RAG技術(shù)提供了巨大的潛力,但其部署并非沒有挑戰(zhàn),尤其是與數(shù)據(jù)隱私和安全相關(guān)的挑戰(zhàn)。例如,提示注入漏洞的存在強(qiáng)調(diào)了在利用RAG支持的模型時(shí)需要強(qiáng)有力的安全保障。這些挑戰(zhàn)要求開發(fā)者和企業(yè)在實(shí)施RAG技術(shù)時(shí),必須采取更加細(xì)致和周密的措施,以確保用戶數(shù)據(jù)的隱私和安全得到保護(hù),同時(shí)遵守相關(guān)的法律法規(guī)。

3.大模型和XGBoost各自的地盤

在機(jī)器學(xué)習(xí)(ML)生態(tài)系統(tǒng)中,傳統(tǒng)上存在兩個(gè)截然不同的群體:一是專注于表格數(shù)據(jù)的科學(xué)家,他們使用XGBoost、lightGBM等類似工具;另一個(gè)則是大型語言模型(LLM)的研究者。這兩組人分別使用了不同的技術(shù)和模型。Damein Benveniste在LinkedIn上的The AiEdge表示:“我一直是XGBoost的超級(jí)粉絲!曾經(jīng)有一段時(shí)間,我更像是一個(gè)XGBoost模型師,而不僅僅是一個(gè)機(jī)器學(xué)習(xí)模型師?!?/p>

大型語言模型(LLMs)產(chǎn)生文本輸出,但這里的重點(diǎn)在于利用LLMs生成的內(nèi)部嵌入(潛在結(jié)構(gòu)嵌入),這些嵌入可以傳遞給像XGBoost這樣的傳統(tǒng)表格模型。雖然Transformers無疑已經(jīng)徹底改變了生成式人工智能,但它們的優(yōu)勢(shì)在于處理非結(jié)構(gòu)化數(shù)據(jù)、序列數(shù)據(jù)以及涉及復(fù)雜模式的任務(wù)。

MachineHack的首席技術(shù)官Krishna Rastogi表示:“Transformers就像機(jī)器學(xué)習(xí)領(lǐng)域的氫彈,而XGBoost則是可靠的狙擊步槍。當(dāng)涉及到表格數(shù)據(jù)時(shí),XGBoost被證明是首選的精確射手。”

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2022-12-12 08:23:34

Java 5ordrialname

2024-11-21 08:00:00

矢量數(shù)據(jù)庫人工智能

2019-09-27 12:14:15

低代碼程序平衡

2016-03-24 10:25:25

敏捷開發(fā)競(jìng)爭(zhēng)

2020-07-09 07:00:00

Python編程語言

2024-04-30 09:48:33

LLMRAG人工智能

2022-01-22 00:14:05

Windows 11微軟修復(fù)

2021-12-13 16:19:36

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-04-21 08:11:09

2010-09-09 09:25:59

2024-01-11 16:24:12

人工智能RAG

2024-10-07 08:49:25

2024-06-05 13:48:04

2025-01-03 08:14:33

2017-05-10 13:12:11

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)圖像處理

2013-06-08 10:19:41

云計(jì)算云孤島

2011-10-31 14:04:40

Windows XP

2013-12-09 14:21:29

2025-01-23 08:00:00

2021-10-26 06:34:12

系統(tǒng)設(shè)計(jì)服務(wù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)