MLLMs人類偏好增強(qiáng)對齊,自然圖像和數(shù)據(jù)圖表分離;視覺感知標(biāo)記,模型自主決定感知內(nèi)容
OmniAlignV:TowardsEnhancedAlignmentofMLLMswithHumanPreference20250225|SJTU,ShanghaiAILab,NJU,FDU,ZJU??54???http:arxiv.orgabs2502.18411v1????????https:huggingface.copapers2502.18411????????https:github.comPhoenixZ810OmniAlignV???研究背景與意義隨著多模態(tài)大語言模型(MLLMs)的快速發(fā)展,現(xiàn)有的研究主要集中在提升模型的基礎(chǔ)能力,如物體識別、OCR等,而在與人類偏好對齊方面存在顯著差...