可視化:圖像的主題色提取算法,是不是太高端了?
浙江大學CAD&CG國家重點實驗室可視化與可視分析小組特別將論文進行了整理,以下為文章摘要。
斯坦福可視化組非常有必要介紹一下,領頭的兩個大牛一個是Pat Hanrahan教授,橫跨科學可視化和信息可視化兩個領域,即便不知道這個名字那今年紅得發(fā)紫的數(shù)據(jù)可視化上市公司Tableau應該都是知道的,他就是聯(lián)合創(chuàng)始人,Tableau原生于他的Polaris系統(tǒng);另一個Jeffrey Heer是信息可視化和人機交互領域近幾年的當紅炸子雞,論文兼顧創(chuàng)新性和實用性,驚才絕艷。
回到正題,這篇文章解決了圖像的主題色提取的問題,屬于顏色建模這個topic。論文的一作同一年在Eurovis、CHI和SIGGRAPH上都發(fā)表了顏色建模的文章(SIGGRAPH的論文現(xiàn)在處于conditionally accepted狀態(tài)),Eurovis和CHI都是最佳論文之一,真可謂厚積厚發(fā)。
這次真的是回到正題,回到這篇論文。一般的主題色提取方法有k-means和fuzzy c-means的按像素顏色值聚類的方法和顏色直方圖取峰值的方法。其實論文的思路并不復雜,對圖像定義一系列的特征,套用多元線性回歸模型LASSO,在眾包平臺亞馬遜土耳其機器人上建立任務收集訓練集,LASSO通過訓練集的學習增加關鍵特征的權重減小冗余特征的影響,從而生成一個比較好的主題色提取模型。下面分別說明特征定義、回歸模型和user study三個部分。
其實主題色這個概念真的是公說公有理,婆說婆有理,評判一張圖像的主題色是哪些,一千個看官不可能得到同一個答案,但是他們的答案大多近似。因此本文以用戶定義的主題色作為標準答案也算合理。對于每張圖像,文章以k=40用k-means方法計算圖像的40個顏色作為基準色。用戶只能從這40個顏色中挑選5個顏色作為圖像的主題色。
文章定義了以下6個方面的特征,提取計算出79個特征變量,這里作簡單說明:
視覺顯著性 saliency:文章以用戶對圖像的眼動跟蹤數(shù)據(jù)取定義圖像中每個像素的視覺顯著性,定義某一套主題色在圖像中的視覺顯著性為所有主題色所在像素的視覺顯著性的疊加,同時定義某顏色視覺顯著性密度為疊加值對像素個數(shù)的比值。
覆蓋誤差 coverage error:覆蓋誤差定義為用主題色去覆蓋整張圖像所得到的圖像和原圖像的顏色誤差,分硬誤差和軟誤差兩種,區(qū)別在于一個像素點是由單一主題色覆蓋還是由多個主題色的線性疊加覆蓋。相似地,還定義了像素在亮度、飽和度、紅綠、藍黃等顏色通道的覆蓋誤差,以及對圖像進行分割后按區(qū)域計算的覆蓋誤差。
顏色多樣性 color diversity:顏色多樣性考慮顏色之間的平均、最大、最小距離。
顏色集中性 color impurity:顏色集中性考慮與主題色相近的前5%的像素之間的距離。
顏色可命名性 color nameability與顏色統(tǒng)計 color statistics:這兩個聽起來比較直觀,實際上非常模糊,文中也沒有詳細介紹。
定義好這79個特征之后,就要輪到LASSO上場了。LASSO(least absolute shrinkage selection operator)是一種多元線性回歸方法,在傳統(tǒng)的多元線性回歸式子之余,通過一個約束條件達到特征選擇的目的(下圖公式摘自于LASSO原文)。其中x是特征,β是特征的權重,如果約束t是一個無窮大的值,那么就跟一般多元線性回歸沒有差別,但是t逐漸減小的時候特征權重就收到擠壓(shrinkage),從而達到去除冗余特征的選擇(selection)作用。通過LASSO方法對訓練集的學習,所定義的79個特征就被減少到非常有限個。

移步這里有對這個方法的思想和發(fā)展比較詳細的介紹。
User study就是作者在這個眾包平臺上設置了40張圖像,每個用戶接受10張圖像的任務,在基準色中找到圖像的5個主題色。另外作為對比,作者又找了11個藝術系的學生執(zhí)行相同的任務。
下圖是一張圖像的user study結(jié)果統(tǒng)計,可以看出用戶所選的主題色和藝術系同學的還是差不多的,但是和自動方法選出來的顏色相差較大。

對于建模得到的主題色,作者又以user study去鑒定是否和圖像真實主題相近,由用戶以評分的方式判斷,對給出主題給出1到5分,5分是非常接近而1分是非常不接近。從下圖可以看出建模得到顏色和用戶組的打分都廣受好評(左上角標出平均分),而其它兩種方法則稍顯劣勢。

最后來看下對新圖像的建模情況對比:可以看出文章方法能夠提取出一些像素覆蓋度不是很高,但是在視覺上比較顯著的區(qū)域,如蝴蝶的白色以及海上的紅色太陽等等。

最后文章給出了這79個特征的權重,似乎就可以用于類似于基于主題色的圖像檢索一類的應用。但實際上,由于視覺顯著性是通過用戶的眼動跟蹤數(shù)據(jù)得到的,所以無法對沒有視覺顯著性的圖像進行建模,就大大降低了可用性。如果對這個特征進行改進的話,就能讓這個方法得到更廣泛的應用。
幾點補充:
1.之前視物致知已經(jīng)報道過這篇文章,本博文則是從學術角度重新審視這篇文章。
2.Eurovis的文章針對數(shù)據(jù)實體本身的顏色語義和設計圖元所對應顏色的一致性的問題,比如是水果的數(shù)據(jù),那藍莓就用藍色,香蕉就用黃色等,感興趣的看官可以看原論文。