近年來,大語言模型(Largelanguagemodel,LLM)取得了顯著進(jìn)展。以ChatGPT為代表的LLM在自然語言任務(wù)上展現(xiàn)出驚人的智能涌現(xiàn)能力。盡管LLM在很多推理任務(wù)上表現(xiàn)出前所未有的接近人類的性能,但是單純的LLM只能處理文本類任務(wù)。與此同時(shí),在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的視覺基礎(chǔ)模型也在快速發(fā)展。盡管在視覺領(lǐng)域還沒有出現(xiàn)“ChatGPT時(shí)刻”,但是預(yù)訓(xùn)練視覺基礎(chǔ)模型已經(jīng)可以在很多真實(shí)視覺場景、數(shù)據(jù)集上表現(xiàn)出優(yōu)秀的零樣本、少樣本性...