Hugging Face 發(fā)布 SmolVLM:用于設備端推理的 2B 參數(shù)視覺語言模型 原創(chuàng)
01、概述
在人工智能的浪潮中,我們越來越渴望擁有既能處理視覺和語言任務,又不依賴于龐大基礎設施的機器學習模型。特別是對于筆記本電腦、消費級GPU或移動設備等設備,如何在性能和資源需求之間找到平衡點,成為了一個挑戰(zhàn)。今天,我們要聊的就是這樣一個“小而美”的解決方案——SmolVLM,一個由Hugging Face推出的2B參數(shù)視覺語言模型,專為設備端推理而設計。
02、性能與資源的平衡藝術
在視覺語言模型(VLMs)的世界里,許多模型需要大量的計算能力和內(nèi)存,這對于設備端應用來說并不現(xiàn)實。比如Qwen2-VL這樣的模型,雖然性能出色,但是需要昂貴的硬件和大量的GPU內(nèi)存,限制了它們的普及和實時設備端任務的實用性。這就需要我們尋找一種輕量級模型,它們能在資源消耗最小的情況下提供強大的性能。
03、SmolVLM:輕量級模型的新標桿
Hugging Face最近發(fā)布的SmolVLM,就是這樣一個在設備端推理中表現(xiàn)出色的模型。與同類GPU內(nèi)存使用量和token吞吐量相當?shù)钠渌P拖啾?,SmolVLM的性能更勝一籌。SmolVLM的關鍵特性是它能夠在更小的設備上有效運行,包括筆記本電腦或消費級GPU,而且不會犧牲性能。它在性能和效率之間取得了難以置信的平衡,這對于類似大小和能力的模型來說是一個挑戰(zhàn)。與Qwen2-VL 2B相比,SmolVLM生成token的速度要快7.5到16倍,這得益于其優(yōu)化的架構,更傾向于輕量級推理。這種效率轉(zhuǎn)化為了對最終用戶的實用優(yōu)勢。
04、SmolVLM的優(yōu)化架構
從技術角度來看,SmolVLM擁有一個優(yōu)化的架構,使其能夠有效地進行設備端推理。它可以使用Google Colab輕松進行微調(diào),即使資源有限,也便于進行實驗和開發(fā)。它的輕量級特性使其能夠在筆記本電腦上流暢運行,或者使用消費級GPU處理數(shù)百萬份文檔。它的一個重要優(yōu)勢是其小內(nèi)存占用,這使得它能夠在以前無法處理類似大小模型的設備上部署。其效率在其token生成吞吐量中表現(xiàn)得尤為明顯:與Qwen2-VL相比,SmolVLM的生成速度要快7.5到16倍。這一性能提升主要是由于SmolVLM的流線型架構優(yōu)化了圖像編碼和推理速度。盡管它與Qwen2-VL擁有相同數(shù)量的參數(shù),但SmolVLM高效的圖像編碼防止了設備過載——這是一個經(jīng)常導致Qwen2-VL崩潰的問題。
05、SmolVLM的意義:無需強大硬件的高質(zhì)量視覺語言推理
SmolVLM的意義在于它能夠在不需要強大硬件的情況下提供高質(zhì)量的視覺語言推理。對于希望在不投資昂貴GPU的情況下進行視覺語言任務實驗的研究者、開發(fā)者和愛好者來說,這是一個重要的步驟。在團隊進行的測試中,SmolVLM在用YouTube視頻的50幀進行評估時展示了其效率,結(jié)果證明了在CinePile(一個評估模型理解電影視覺能力的基準)上進行進一步測試的合理性。結(jié)果顯示,SmolVLM得分27.14%,位于兩個資源消耗更大的模型:InternVL2(2B)和Video LlaVa(7B)之間。值得注意的是,SmolVLM并未在視頻數(shù)據(jù)上進行訓練,但它的性能與為此類任務設計的模型相當,展示了其魯棒性和多功能性。此外,SmolVLM在保持準確性和輸出質(zhì)量的同時實現(xiàn)了這些效率提升,突出表明創(chuàng)建較小模型時不必犧牲性能。
06、結(jié)語
總之,SmolVLM代表了視覺語言模型領域的一個重要進步。通過使復雜的VLM任務能夠在日常設備上運行,Hugging Face解決了當前AI工具領域的一個重要缺口。SmolVLM在同類模型中表現(xiàn)出色,并且在速度、效率和設備端使用的實用性方面常常超越它們。憑借其緊湊的設計和高效的token吞吐量,SmolVLM將成為那些需要強大視覺語言處理能力但無法訪問高端硬件的人的寶貴工具。這一發(fā)展有潛力擴大VLM的使用范圍,使復雜的AI系統(tǒng)更加易于獲取。隨著AI變得更加個性化和普及,像SmolVLM這樣的模型為使強大的機器學習更廣泛地普及鋪平了道路。
參考:
- ??https://huggingface.co/spaces/HuggingFaceTB/SmolVLM??
- ??https://huggingface.co/blog/smolvlm??
- ??https://github.com/huggingface/blog/blob/main/smolvlm.md??
本文轉(zhuǎn)載自公眾號Halo咯咯 作者:基咯咯
