自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="mvt8w"><tt id="mvt8w"></tt></ruby>

<blockquote id="mvt8w"><p id="mvt8w"><li id="mvt8w"></li></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

七個很酷的GenAI & LLM技術(shù)性面試問題原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2024-5-23 09:55

瀏覽

0收藏

不同于互聯(lián)網(wǎng)上隨處可見的傳統(tǒng)問題庫，這些問題需要跳出常規(guī)思維。

大語言模型(LLM)在數(shù)據(jù)科學(xué)、生成式人工智能(GenAI)和人工智能領(lǐng)域越來越重要。這些復(fù)雜的算法提升了人類的技能，并在諸多行業(yè)中推動了效率和創(chuàng)新性的提升，成為企業(yè)保持競爭力的關(guān)鍵。

然而，盡管GenAI和LLM越來越常見，但我們依然缺少能深入理解其復(fù)雜性的詳細(xì)資源。職場新人在進(jìn)行GenAI和LLM功能以及實際應(yīng)用的面試時，往往會覺得自己像是陷入了未知領(lǐng)域。

為此，我們編寫了這份指導(dǎo)手冊，收錄了7個有關(guān)GenAI & LLM的技術(shù)性面試問題。這份指南配有深入的答案，旨在幫助您更好地迎接面試，以充足的信心來應(yīng)對挑戰(zhàn)，以及更深層次地理解GenAI & LLM在塑造人工智能和數(shù)據(jù)科學(xué)未來方面的影響和潛力。

1. 如何在Python中使用嵌入式字典構(gòu)建知識圖譜?

一種方法是使用哈希(Python中的字典，也稱為鍵-值表)，其中鍵(key)是單詞、令牌、概念或類別，例如“數(shù)學(xué)”(mathematics)。每個鍵(key)對應(yīng)一個值(value)，這個值本身就是一個哈希：嵌套哈希(nested hash)。嵌套哈希中的鍵也是一個與父哈希中的父鍵相關(guān)的單詞，例如“微積分”(calculus)之類的單詞。該值是一個權(quán)重：“微積分”的值高，因為“微積分”和“數(shù)學(xué)”是相關(guān)的，并且經(jīng)常出現(xiàn)在一起;相反地，“餐館”(restaurants)的值低，因為“餐館”和“數(shù)學(xué)”很少出現(xiàn)在一起。

在LLM中，嵌套哈?？赡苁莈mbedding(一種將高維數(shù)據(jù)映射到低維空間的方法，通常用于將離散的、非連續(xù)的數(shù)據(jù)轉(zhuǎn)換為連續(xù)的向量表示，以便于計算機(jī)進(jìn)行處理)。由于嵌套哈希沒有固定數(shù)量的元素，因此它處理離散圖譜的效果遠(yuǎn)遠(yuǎn)好于矢量數(shù)據(jù)庫或矩陣。它帶來了更快的算法，且只需要很少的內(nèi)存。

2. 當(dāng)數(shù)據(jù)包含1億個關(guān)鍵字時，如何進(jìn)行分層聚類?

如果想要聚類關(guān)鍵字，那么對于每一對關(guān)鍵字{A, B}，你可以計算A和B之間的相似度，獲悉這兩個詞有多相似。目標(biāo)是生成相似關(guān)鍵字的集群。

Sklearn等標(biāo)準(zhǔn)Python庫提供凝聚聚類(agglomerative clustering)，也稱為分層聚類(hierarchical clustering)。然而，在這個例子中，它們通常需要一個1億x 1億的距離矩陣。這顯然行不通。在實踐中，隨機(jī)單詞A和B很少同時出現(xiàn)，因此距離矩陣是非常離散的。解決方案包括使用適合離散圖譜的方法，例如使用問題1中討論的嵌套哈希。其中一種方法是基于檢測底層圖中的連接組件的聚類。

3. 如何抓取像Wikipedia這樣的大型存儲庫，以檢索底層結(jié)構(gòu)，而不僅僅是單獨(dú)的條目?

這些存儲庫都將結(jié)構(gòu)化元素嵌入到網(wǎng)頁中，使內(nèi)容比乍一看更加結(jié)構(gòu)化。有些結(jié)構(gòu)元素是肉眼看不見的，比如元數(shù)據(jù)。有些是可見的，并且也出現(xiàn)在抓取的數(shù)據(jù)中，例如索引、相關(guān)項、面包屑或分類。您可以單獨(dú)檢索這些元素，以構(gòu)建良好的知識圖譜或分類法。但是您可能需要從頭開始編寫自己的爬蟲程序，而不是依賴Beautiful Soup之類的工具。富含結(jié)構(gòu)信息的LLM(如xLLM)提供了更好的結(jié)果。此外，如果您的存儲庫確實缺乏任何結(jié)構(gòu)，您可以使用從外部源檢索的結(jié)構(gòu)來擴(kuò)展您的抓取數(shù)據(jù)。這一過程稱為“結(jié)構(gòu)增強(qiáng)”(structure augmentation)。

4. 如何用上下文令牌增強(qiáng)LLM embeddings?

Embeddings由令牌組成;這些是您可以在任何文檔中找到的最小的文本元素。你不一定要有兩個令牌，比如“數(shù)據(jù)”和“科學(xué)”，你可以有四個令牌：“數(shù)據(jù)^科學(xué)”、“數(shù)據(jù)”、“科學(xué)”和“數(shù)據(jù)~科學(xué)”。最后一個表示發(fā)現(xiàn)了“數(shù)據(jù)科學(xué)”這個詞。第一個意思是“數(shù)據(jù)”和“科學(xué)”都被發(fā)現(xiàn)了，但是在一個給定段落的隨機(jī)位置，而不是在相鄰的位置。這樣的令牌稱為多令牌(multi-tokens)或上下文令牌。它們提供了一些很好的冗余，但如果不小心，您可能會得到巨大的embeddings。解決方案包括清除無用的令牌(保留最長的一個)和使用可變大小的embeddings。上下文內(nèi)容可以幫助減少LLM幻覺。

5. 如何實現(xiàn)自校正(self-tuning)以消除與模型評估和訓(xùn)練相關(guān)的許多問題?

這適用于基于可解釋人工智能的系統(tǒng)，而不是神經(jīng)網(wǎng)絡(luò)黑匣子。允許應(yīng)用程序的用戶選擇超參數(shù)并標(biāo)記他喜歡的那些。使用該信息查找理想的超參數(shù)并將其設(shè)置為默認(rèn)值。這是基于用戶輸入的自動強(qiáng)化學(xué)習(xí)。它還允許用戶根據(jù)期望的結(jié)果選擇他最喜歡的套裝，使您的應(yīng)用程序可定制。在LLM中，允許用戶選擇特定的子LLM(例如基于搜索類型或類別)，可以進(jìn)一步提高性能。為輸出結(jié)果中的每個項目添加相關(guān)性評分，也有助于微調(diào)您的系統(tǒng)。

6. 如何將矢量搜索的速度提高幾個數(shù)量級?

在LLM中，使用可變長度(variable-length)embeddings極大地減少了embeddings的大小。因此，它可以加速搜索，以查找與前端提示符中捕獲到的相似的后端embeddings。但是，它可能需要不同類型的數(shù)據(jù)庫，例如鍵-值表(key-value tables)。減少令牌的大小和embeddings表是另一個解決方案：在一個萬億令牌系統(tǒng)中，95%的令牌永遠(yuǎn)不會被提取來回答提示。它們只是噪音，因此可以擺脫它們。使用上下文令牌(參見問題4)是另一種以更緊湊的方式存儲信息的方法。最后，在壓縮embeddings上使用近似最近鄰搜索(approximate nearest neighbor，ANN)來進(jìn)行搜索。概率版本(pANN)可以運(yùn)行得快得多，見下圖。最后，使用緩存機(jī)制來存儲訪問最頻繁的embeddings 或查詢，以獲得更好的實時性能。

七個很酷的GenAI & LLM技術(shù)性面試問題-AI.x社區(qū)

概率近似最近鄰搜索(pANN)

根據(jù)經(jīng)驗來看，將訓(xùn)練集的大小減少50%會得到更好的結(jié)果，過度擬合效果也會大打折扣。在LLM中，選擇幾個好的輸入源比搜索整個互聯(lián)網(wǎng)要好。對于每個頂級類別都有一個專門的LLM，而不是一刀切，這進(jìn)一步減少了embeddings的數(shù)量：每個提示針對特定的子LLM，而非整個數(shù)據(jù)庫。

7. 從你的模型中獲得最佳結(jié)果的理想損失函數(shù)是什么?

最好的解決方案是使用模型評估指標(biāo)作為損失函數(shù)。之所以很少這樣做，是因為您需要一個損失函數(shù)，它可以在神經(jīng)網(wǎng)絡(luò)中每次神經(jīng)元被激活時非?？斓馗?。在神經(jīng)網(wǎng)絡(luò)環(huán)境下，另一種解決方案是在每個epoch之后計算評估指標(biāo)，并保持在具有最佳評估分?jǐn)?shù)的epoch生成解決方案上，而不是在具有最小損失的epoch生成解決方案上。

我目前正在研究一個系統(tǒng)，其中的評價指標(biāo)和損失函數(shù)是相同的。不是基于神經(jīng)網(wǎng)絡(luò)的。最初，我的評估指標(biāo)是多元Kolmogorov-Smirnov距離(KS)。但如果沒有大量的計算，在大數(shù)據(jù)上對KS進(jìn)行原子更新(atomic update)是極其困難的。這使得KS不適合作為損失函數(shù)，因為你需要數(shù)十億次原子更新。但是通過將累積分布函數(shù)(cumulative distribution)改變?yōu)榫哂袛?shù)百萬個bins參數(shù)的概率密度函數(shù)(probability density function)，我能夠想出一個很好的評估指標(biāo)，它也可以作為損失函數(shù)。

原文標(biāo)題：7 Cool Technical GenAI & LLM Job Interview Questions，作者：Vincent Granville

鏈接：

https://www.datasciencecentral.com/7-cool-technical-genai-llm-job-interview-questions/。

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

大語言模型

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

5億個token之后，我們得出關(guān)于GPT的七條寶貴經(jīng)驗

輕薄滴假象 ? 2457瀏覽 ? 0回復(fù)
斯坦福發(fā)布第七個年度AI Index 報告，用指數(shù)與圖解揭示2024年AI技術(shù)發(fā)展與未來趨勢

xuxiangda ? 3042瀏覽 ? 0回復(fù)
七個高質(zhì)量潤色論文和文章的指令

數(shù)師兄 ? 3253瀏覽 ? 0回復(fù)
RAG技術(shù)性能提升之文檔分塊策略方案

AIGC觀察者 ? 4750瀏覽 ? 0回復(fù)
GenAI應(yīng)用構(gòu)建者必須解決新的RAG復(fù)雜性

51CTO技術(shù)棧 ? 1952瀏覽 ? 0回復(fù)
提高LLM安全性的分步指南

51CTO內(nèi)容精選 ? 1974瀏覽 ? 0回復(fù)
Sample Packing：長序列 LLM 訓(xùn)練的 Attention 問題及優(yōu)化

amei2000go ? 2349瀏覽 ? 0回復(fù)
什么是好的GenAI 產(chǎn)品？哪些以LLM技術(shù)為支持的產(chǎn)品值得開發(fā)？

AI博物院 ? 1943瀏覽 ? 0回復(fù)
討論一個技術(shù)問題，大模型流式返回

AI探索時代 ? 3387瀏覽 ? 0回復(fù)
掌握OpenAI Day 2的RFT技術(shù)，你需要搞懂這3個關(guān)鍵問題！

凝固的雨_1 ? 3952瀏覽 ? 0回復(fù)
大模型面試實戰(zhàn)！Prompt調(diào)優(yōu)

ermulong ? 2438瀏覽 ? 0回復(fù)
AI時代，技術(shù)性失業(yè)會愈演愈烈嗎

數(shù)字化助推器 ? 2003瀏覽 ? 0回復(fù)
RAG技術(shù)落地的兩個問題及應(yīng)對策略

zhishan15 ? 1863瀏覽 ? 0回復(fù)
RAG：七種用于向量數(shù)據(jù)庫+相似性搜索的索引方法

Halo咯咯 ? 2296瀏覽 ? 0回復(fù)
訓(xùn)練自己的推理模型僅需七個步驟

51CTO內(nèi)容精選 ? 1615瀏覽 ? 0回復(fù)
人工智能應(yīng)用最大的問題是數(shù)據(jù)問題，而不是技術(shù)問題

AI探索時代 ? 1171瀏覽 ? 0回復(fù)
GenAI紅隊：將LLM置于網(wǎng)絡(luò)安全測試中的技巧和技術(shù)

51CTO內(nèi)容精選 ? 965瀏覽 ? 0回復(fù)
Gemma 3：采用Docker Model Runner釋放GenAI的潛力

51CTO內(nèi)容精選 ? 331瀏覽 ? 0回復(fù)
基礎(chǔ)智能體的進(jìn)展與挑戰(zhàn)：智能體的七個核心組件構(gòu)建認(rèn)知基石

數(shù)字化助推器 ? 177瀏覽 ? 0回復(fù)

51CTO內(nèi)容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenUI：從構(gòu)思到UI僅需數(shù)秒 8h前發(fā)布
MCP安全噩夢終結(jié)者：Agent框架如何重構(gòu)AI防護(hù)新范式？? 1天前發(fā)布

熱門推薦

模型上下文協(xié)議（MCP）開發(fā)實戰(zhàn)——構(gòu)建LangChain代理客戶端 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：基于LangChain自查詢檢索器的RAG系統(tǒng)開發(fā)實戰(zhàn)

下一篇：利用大語言模型增強(qiáng)網(wǎng)絡(luò)抓?。阂环N現(xiàn)代化的方法

社區(qū)精華內(nèi)容

目錄

<cite id="s7o61"><track id="s7o61"><sub id="s7o61"></sub></track></cite>