搜狗獲Cityscapes評測世界冠軍,多項指標刷新世界紀錄
近日,來自搜狗公司的視覺研究團隊,在國際自動駕駛領域權威評測集Cityscapes上獲得實例分割評測的第⼀名,擊敗了Nvidia、Facebook、商湯等幾十支強勁的國際科研機構,并一舉刷新了世界記錄,代表中國向全世界彰顯了我們出色的技術實力。
這是今年搜狗繼CVPR大會上奪得WAD自動駕駛識別挑戰(zhàn)賽冠軍之后,所摘得的又一桂冠。短期內(nèi)連奪兩項世界冠軍,充分證明了搜狗在計算機視覺上已經(jīng)位列行業(yè)領先地位。
Cityscapes評測數(shù)據(jù)集是什么?
眾所周知,人工智能技術在自動駕駛領域有著非常廣闊的市場空間,也是最被人們所看好的一大應用前景。而如何決定AI判斷識別路況信息的理解能力,就取決于它的評測數(shù)據(jù)集水準。
Cityscapes評測數(shù)據(jù)集在2015年由奔馳公司推動發(fā)布,是目前公認的自動駕駛領域內(nèi)***權威性和專業(yè)性的圖像語義分割評測集之一,其關注真實場景下的城區(qū)道路環(huán)境理解,任務難度更⾼,且更貼近于自動駕駛等熱門需求。在Cityscapes評測數(shù)據(jù)集之中,共分為像素分割和實例分割兩個子任務,其中相較于像素分割,實例分割的難度要更大,也是計算機視覺領域最重要、***挑戰(zhàn)的任務之一。
如何讓機器變得更加“聰明”,具備足夠的學習能力,是所有人工智能研發(fā)時的***難題,更是國內(nèi)外科技企業(yè)爭相研究的自動駕駛技術。能夠在Cityscapes評測數(shù)據(jù)集中脫穎而出,打破世界紀錄,意味著搜狗已經(jīng)具備了強大的AI技術硬實力。
實例分割,自動駕駛的曙光已現(xiàn)
實例分割是一個很綜合的問題,融合了目標檢測、圖像分割、圖像分類等多種AI技術。顧名思義,像素級別的語義分割,是對圖像中的每個像素都劃分出對應的類別,即實現(xiàn)像素級別的分類;⽽分類的具體對象,即為實例。那么實例分割不僅要進行像素級別的分類,還需要在具體的類別基礎上區(qū)別開不同的實例。實例分割對自駕汽車、機器人、視頻監(jiān)控等領域,都有著舉足輕重的重要價值,獲得全世界科學研發(fā)界的密切關注。
Cityscapes評測集包含50個城市不同情況下的街景,以及30類物體標注。此次搜狗參加的實例場景圖像語義分割評測,類別對象多、場景復雜,挑戰(zhàn)難度非常大。面對復雜的實例環(huán)境,搜狗所展示的技術十分巧妙。
過去,我們常常會把AI的關注點放在單一的車道上,而實際的路況信息乃是十分復雜且多變的,必須要求駕駛員有足夠的“眼觀六路耳聽八方”的能力,用縱覽全局的目光來觀察整個路況?;谶@個原因,搜狗通過引⼊全局編碼模塊,來顯著提升了全局信息在實例分割中的影響。全局編碼模塊可以很好地捕獲圖像中的語義信息,并選擇性地突出顯示與實例相關聯(lián)的特征映射,從而提升準確率。
另一方面,在訓練過程中如果只是簡單地引⼊每個像素的分割損失,而不是著重使⽤場景的全局上下⽂信息,會導致嚴重的類間不平衡問題。針對這一現(xiàn)狀,搜狗引入了一種全局實例例編碼損失函數(shù)GIE-loss。這種損失函數(shù)會預測場景中出現(xiàn)的實例類別,來加強網(wǎng)絡學習全局語義信息的能⼒。不像傳統(tǒng)的針對每個像素的損失函數(shù),GIE-loss對每個物體,不管⼤大⼩小都是同等對待的,在使用這個損失函數(shù)后,⼩物體的分割效果明顯變好。
(對比圖1)
(對比圖2)
(對比圖3)
通過上面的結果對比圖,我們可以清晰的看出全局編碼模塊的引⼊,徹底改變了實例分割傳統(tǒng)算法中遠近物體不能兼顧的缺點,近處物體可以識別的很好,遠處小物體的分割效果也提升了非常多,使得最終的AP100指標遠超其他隊伍。
截至目前,Cityscapes評測吸引了近百支隊伍參賽,包括Facebook、香港中⽂大學、商湯和NVIDIA(英偉達)等眾多國內(nèi)外優(yōu)秀創(chuàng)新企業(yè)和***學術機構參加。值得一提的是,在過去的近兩年時間里,商湯、港中文團隊與NVIDIA(英偉達)幾乎包攬了所有圖像分割評測的冠軍。而***參賽的搜狗團隊,各項評測指標均遠超其他隊伍,打破了世界紀錄,以無可爭議的成績拿下了***名。
搜狗視覺研究團隊通過不斷地算法積累和迭代, 建立了一套高效易用的通用檢測分割框架,可以針對任務快速遷移算法模型,達到實際應用需求。 CVPR2018 WAD檢測任務和本次實例分割任務所用模型基本一致,驗證了模型的高效易用性。同時團隊最近也做了一些簡單的實驗, 在少量代碼改動的情況下,僅僅訓練幾個小時,便可以在一些著名的評測數(shù)據(jù)集上達到top的成績。
聚焦“自然交互+知識計算”,將成就搜狗人工智能的未來之路
人工智能的***范圍很大,而搜狗選擇的突破口很小。以點帶面,正是王小川為搜狗所規(guī)劃的未來道路。
一直以來,搜狗都在堅持著“自然交互+知識計算”的人工智能核心戰(zhàn)略,專注于自然交互領域展開發(fā)力。在語音領域,擁有充足真實語料數(shù)據(jù)優(yōu)勢的搜狗,把語音識別與人機對話相結合,發(fā)布了知音引擎,并推出了全球首款商用AI同傳。除了單獨的語音識別“聽的能力”之外,搜狗還向著合成方向的“說的能力”展開突破,能夠自動學習的AI機器兼具了聽、說、翻譯等多種能力,位居業(yè)界領先地位。多模態(tài)輸入,已成為了搜狗語音交互的研發(fā)重心。
而在視覺領域,搜狗也實現(xiàn)了AI技術的不斷突破,讓機器的自然交互變得更加全面。2017年烏鎮(zhèn)互聯(lián)網(wǎng)大會上,搜狗發(fā)布了行業(yè)首款唇語識別技術,實現(xiàn)了視覺與聽覺的***結合,幫助機器以更加多元化的維度來理解用戶的訴求。在車載、智能家居等垂直場景下,準確率高達90%。本次在Cityscapes的實例場景圖像語義分割評測中大獲全勝,更是體現(xiàn)了搜狗對于視覺識別的技術積累,幫助機器進一步提升各項感知能力的交互水準。
連續(xù)獲得多項國際比賽冠軍的搜狗,已經(jīng)證明了自己在人工智能領域的充足技術底蘊。我們有理由相信,在未來的AI賽道上,占據(jù)領先優(yōu)勢的搜狗一定能取得更加出色的成績,用實際的AI產(chǎn)品來切身改善用戶的交互體驗。