人工智能應用就是大模型能力+場景,基于大模型構建應用,首先要了解大模型的能力圈
在關于大模型應用方面,雖然也了解和應用過其中的一些技術;但經過這段時間的實踐和思考發(fā)現,對大模型應用的認識還很淺顯,因此在此記錄一下自己的思考。
大模型應用的思考
大模型作為人工智能應用的底座技術,所有應用場景和技術都是構建在大模型之上;但很多時候我們都搞錯了一件事,那就是我們沒有搞清楚大模型能力和其它技術的關聯和區(qū)別。
因此,在這里我們要搞清楚一個概念,那就是大模型能力;所謂大模型的能力,就是模型開發(fā)人員怎么把模型做的更好更強,其中設計到模型的設計,訓練等;具體有神經網絡架構,模型蒸餾等等。
當然,我們不需要關心大模型是怎么做出來的,以及大模型為什么能做那么好或者那么差;我們僅需要知道大模型有哪些能力和功能即可。
比如爆火的deekseep的V3模型和R1模型,其中V3更多的偏向生成模型,而R1更擅長的是推理。
前面說了這么多,可能很多人還沒理解其中的含義;之所以說大模型的能力,那就是說我們要明白大模型就是大模型,其它任何附屬于大模型的技術都不屬于大模型的范疇。
比如說,RAG技術,function call技術,MCP技術,其實他們并不屬于大模型本身的功能;特別是RAG,從技術上來看完全可以說RAG和大模型沒什么關系。
而function call和MCP技術只是大模型使用外界功能,也就是調用外部接口的能力;而思維鏈才屬于大模型本身的技術,讓模型具備分析和推理的能力。
但至于怎么讓大模型使用外部工具,這個就是function call和MCP需要考慮的事情。
所以說,模型就是模型,功能就是功能,工具就是工具;但往往我們很多時候都會把這些混為一談;導致的直接結果就是,在構建應用的時候分不清什么技術解決了什么問題,也不知道自己能做什么應用。
這也是為什么很多基于大模型開發(fā)的功能平臺,它的核心能力其實是平臺的設計和功能;和具體的大模型沒直接關系,市面上有了更好的模型出現,那么直接把現有的模型換掉就行了,并不會影響到這些平臺本身的業(yè)務和功能。
其實從這個角度來思考,事實上這就是一種方法論,很多人不知道怎么使用人工智能解決自己工作和生活中的問題,原因就在于不懂這種方法論;導致自己的認知和方向有偏差,感覺自己明明學了好多東西,但卻不知道能干啥。
大模型是核心,function call和MCP既是一種技術,也是一種工具;大模型可以選擇集成function call和MCP的能力,也可以選擇不使用這些功能。
function call和MCP屬于大模型能力的一種擴展,就類似于一種可插拔組件,其是實現智能體(Agent)的技術手段。而思維鏈才是屬于大模型本身的能力,大模型先具備獨立思考的能力,學會分析和拆解任務,其次再使用外部工具來完成任務。
當然,大模型實現function call并不需要具備網絡接口調用的能力,大模型只需要按照需求生成調用接口所需要的參數,然后把參數傳遞給開發(fā)者寫好的代碼中即可。