從互聯(lián)網(wǎng)+到智能+,百度少帥顧嘉唯解讀下一代人機交互和無人車進展
主講人:顧嘉唯是百度深度學習研究院人機交互負責人,主任研發(fā)構(gòu)架師,百度少帥,主要研發(fā)項目為新型用戶體驗和智能化(包括可穿戴設(shè)備、智能交通、智能家居、機器人和物聯(lián)網(wǎng))
他主導利用深度學習和大數(shù)據(jù)的人工智能技術(shù)創(chuàng)造自然的用戶界面和新穎的互動方式。領(lǐng)導項目包括:百度智能眼鏡BaiduEye,盲人智能助理DuLight,實時變臉App臉優(yōu)FaceU和百度智能自行車DuBike等。
他所在百度的IDL(深度學習實驗室)是由百度CEO李彥宏和余凱博士建立,現(xiàn)在余凱創(chuàng)業(yè)做機器人智能--地平線機器人公司。
先從一個引子說去:現(xiàn)代人最焦躁的問題,沒WiFi,一直在載入和沒電,時不時就要摸一下口袋,感覺手機隨時都在震動,每時每刻都在用手機,就像一個人體器官。而其中微信可能就要占用85%以上的耗電。我們每天無時不刻被各種提醒或信息提示打擾,我們是被數(shù)字世界綁架的一代人?;氐?0年代前,我們沒有那么多聯(lián)網(wǎng)設(shè)備,那是一個“不插電”的時代,那時候人與人之間真誠的交流遠多過于今天。我們可以預見不久的將來IOT物聯(lián)網(wǎng)時代,每個人身邊充斥各種聯(lián)網(wǎng)的智能設(shè)備,設(shè)備之間的摩擦將會無以復加。
一、“互聯(lián)網(wǎng)+”的實現(xiàn)
自互聯(lián)網(wǎng)衍生以來,其發(fā)展經(jīng)歷了三個階段:
- 第一階段: 滿足基礎(chǔ)的通訊功能(通訊,門戶,社交)
- 第二階段:滿足大眾娛樂需求(視頻,游戲,電商,音樂,閱讀,服務)
- 第三階段:實現(xiàn)互聯(lián)網(wǎng)+X 在各個領(lǐng)域:金融,教育,旅游,醫(yī)療,餐飲,汽車…….而這個X預示著無盡的可能性與商機。
自互聯(lián)網(wǎng)于1995年興起到現(xiàn)如今2015年,我們正在實現(xiàn)從第二階段到第三階段的過渡。而O2O(On demand service)在中國的興盛也由中國市場的兩大因素構(gòu)成:社會勞動力價格低廉,服務需求密度高,以至于涵蓋了生活各個方面的生活服務類APP的興盛。因此當代的年輕人都更為熱衷于用這種更方便快捷并且能獲取充足信息量的方式實現(xiàn)生活中的服務需求:電影購票,美甲,按摩,買蔬果,上門寄養(yǎng)動物……兩個不可逆的趨勢:線下細分服務的線上化,和服務鏈接的碎片化。
即使你已經(jīng)覺得這樣夠方便了,其實其中還存在著小bug,當你被大量的可選擇信息淹沒的時候,你的選擇障礙癥讓你無從下手。當你需要在不同的app上切換以實現(xiàn)信息處理,物品購買,微信溝通,導航的時候,你仍然會覺得焦頭爛額…….因此,更加智能化的設(shè)備具有很高其市場需求以節(jié)省人類的時間和精力。本質(zhì)是AI著眼于解決設(shè)備之間的摩擦,通過場景感知和用戶意圖預測。
現(xiàn)在人工智能已經(jīng)被媒體和社會炒作地如此火熱,就像之前所有IT公司都喊自己是做大數(shù)據(jù)的,今天所有創(chuàng)業(yè)公司如果不講點和AI沾邊的梗,都不好意思說自己是科技公司,那么多打著“智能”旗號的,但最終還是需要回歸到商業(yè)本質(zhì),如何商業(yè)化?如何講人工智能技術(shù)商業(yè)化?在百度深度學習研究院的職責就是將百度的人工智能技術(shù)以創(chuàng)新產(chǎn)品線的方式進行商業(yè)化AI的迭代。
人與信息的連接通過中間的互聯(lián)網(wǎng)或者終端完成,人與終端之間的打通是來自交互技術(shù)的突破帶來的用戶體驗的提升,而設(shè)備與信息或者服務之間的打通是來自索引技術(shù)的突破。連接的力量,比如微信,Google搜索,VR,機器人,無人車都是不同的信息連接方式。物聯(lián)網(wǎng)連的是物,更是數(shù)據(jù),數(shù)百億的儀器就可以看做數(shù)百億個sensor,將數(shù)據(jù)收集起來,傳輸?shù)皆粕希ㄟ^機器學習,把浩如煙海信息轉(zhuǎn)化為對我們有價值的知識,產(chǎn)生巨大商業(yè)價值的同時,也讓我們更加了解我們自己和周圍的環(huán)境。
交互技術(shù)隨著人工智能技術(shù)的不斷發(fā)展,計算機視覺和語音識別、自然語言處理等的快速發(fā)展,迎來新一輪的革命突破。
Amazon Echo 已百萬級的銷量,入戶后相對高頻的內(nèi)容場景,回味之前發(fā)的微信朋友圈一條評價Apple Siri、Google Now、MSFT Cortana、Amazon Alexa的record,很明顯,Amazon Alexa在硬件入口上的投入和堅定比Google MSFT Apple都有耐心得多 。
自然人機交互 Conversational UI對話交互在手機上一定是最容易開始,但最快會過去的一波,在手機這個小盒子里,F(xiàn)acebook也好微信也好上各種chat bots想要通過智能多輪對話交互完全取代APP的愿景是好的,場景是糾結(jié)的。Amazon Echo的階段性成績算是開啟了,無論是Amazon的echo還是Google Now,或是蘋果siri,F(xiàn)acebook的M機器人,微軟小娜小冰,平臺型技術(shù)都在蓄力階段,智能對話交互新一代終端的“feature phone”早期時代顯現(xiàn),誰能做出最新一代交互時代的“iPhone”突破性產(chǎn)品,讓我們拭目以待。
我們看到一路走來Amazon Echo的初步成果的原因可以總結(jié)如下三條:1. 持續(xù)投入底層識別語音NLP整條鏈基礎(chǔ)技術(shù);2. 背后的數(shù)據(jù)服務鏈接,從內(nèi)容調(diào)用到服務消費行為;3. 利用一定的剛需培養(yǎng)用戶交互習慣作為切入點,市場的持續(xù)教育培養(yǎng),耐心與堅持。Amazon本身的電商渠道優(yōu)勢和內(nèi)容運營還是早就成績的根本。
回顧歷史,最早是基于命令行,然后有了圖形界面GUI,之后有了平板,很容易上手,現(xiàn)在是語音,手勢的NUI,未來人機交互是什么?基于人工智能的AIUI的革命創(chuàng)新。
現(xiàn)代年輕人從物聯(lián)網(wǎng)-移動互聯(lián)網(wǎng)-移動互聯(lián)網(wǎng)+的需求的逐步提升。當用戶不斷地在不同的APP之間跳轉(zhuǎn)時我們需要一個更智能化的平臺,這個平臺能夠打通不同APP之間的邊界,把人找服務(APP)的模式改變?yōu)榉?APP)找人的智能化模式。
Deepmind創(chuàng)造的AlphaGo通過對KGS服務器上千萬個棋局點的統(tǒng)計分析,事先算出不同棋局狀態(tài)下,最有可能下子位置的概率分布。然后根據(jù)這個概率分布,進行蒙特卡洛樹搜索(MCTS),快速的推算如果走某一步,對方可能會走哪些步,然后對各種可能性依據(jù)概率進行加權(quán)匯總,計算出勝算的期望值。AlphaGo是Google的一次相當成功的PR,驗證了深度學習和大規(guī)模并行計算能力的實力。
而他認為,智能助理和無人車才是真正改變?nèi)祟惿畹娜斯ぶ悄苌虡I(yè)化前景。事實上下圍棋還是有限范圍內(nèi)的解決方法,而實際環(huán)境道路變量還是非常多,在一個更大的維度上。通過高精度地圖,高精度攝像,就比如在路面上還有人駕駛的汽車與無人車共存的階段,紅綠燈識別上還是很多復雜因素,不是簡單的數(shù)據(jù)問題。除此之外還有非常多真實世界復雜的視覺問題,要達到準確的視覺判斷能力,機器必須擁有真正的認知能力和常識,這并不是AlphaGo所用的樹搜索和神經(jīng)網(wǎng)絡(luò)那么簡單的方法,就可以解決的。由于需要以極高的速度處理“模擬信號”,機器視覺可能根本就不是人們常用的“數(shù)字計算機”可以解決的問題。
另一個問題是在如今如此繁榮以及多樣的O2O服務平臺上,某個用戶無法實現(xiàn)能夠同時擁有大量的面向不同產(chǎn)品的APP并從中篩選出最優(yōu)化信息。因此百度在研發(fā)度秘一類的產(chǎn)品優(yōu)化了這種用戶體驗即通過與度秘對話聊天的形式來智能化的提供給用戶需要的服務建議以及服務連接。在去年百度大會上,李廠長就演示了通過度秘語言操作點了一杯咖啡,直接送貨上門的服務。
這其中很酷的一項功能是度秘可以通過圖像分析來解讀用戶的需求,比較有趣的一個例子是:如果你把腿磕破了,可以上傳照片給度秘,度秘會提供藥品以及附近醫(yī)生的建議。上面就是度秘在實體肯德基店里作為服務員幫顧客點餐的活動。
二、如何實現(xiàn)從“互聯(lián)網(wǎng)+”到“智能+”
雖然現(xiàn)階段APP十分的盛行,但是在不久的未來,以下三個要素會實現(xiàn)更智能化的all demand service,那時候App會消失,取而代之的是下一時代人與信息連接的節(jié)點。
個人助理是很大可能是下一代的搜索引擎,通過自然語言處理,語音識別,深度學習的結(jié)合。
- 不斷提升的智能系統(tǒng)(Emerging Intelligence)——人工智能的提升要基于數(shù)據(jù)量的提升+數(shù)據(jù)算法的提升
- 場景感知 (Context Awareness)
- 無處不在的計算 (Ubiquitous Computing)
三、從“互聯(lián)網(wǎng)+”到“智能+”需要以下幾個要素
- AI 技術(shù)的實現(xiàn)
- 人機交互技術(shù) (CLI – GUI – TUI – NUI (natural: speech, gesture))-AIUI(conversational))而從NUI到AIUI是現(xiàn)階段各大網(wǎng)絡(luò)公司在投入研發(fā)并希望搶占市場先機。
- 互聯(lián)網(wǎng)的智能化反作用會逐漸重塑人類的行為習慣,從而改變現(xiàn)階段產(chǎn)品的形態(tài)及種類。
- 互聯(lián)網(wǎng)和送達人的服務不再由人來完成而是由機器人完成。
當AI技術(shù)逐漸開始被平臺化,等各種bot framework和AI open API建立起來之后,層出不窮的基于人工智能的創(chuàng)業(yè)公司會像今天的互聯(lián)網(wǎng)創(chuàng)業(yè)公司一樣如雨后春一般興起。
這里,我把物聯(lián)網(wǎng)(IOT)分成聯(lián)網(wǎng)設(shè)備(smart device)和自動化家居(home automation),用戶要的是什么? 并不是左邊的聯(lián)網(wǎng)設(shè)備,而是右邊的智能自動化場景。 舉例,早上起床鬧鈴把我叫醒,我當天的日歷上有我一早開會的時間地點,根據(jù)現(xiàn)在路況和距離推算出我還有多久要出門,提醒我有多少時間洗漱吃早飯。 我的咖啡機、面包機在我鬧鐘響的時候就運作起來了。 當我洗漱、早餐完畢之后,會議室目的地坐標就會在無人車導航里,下樓坐上車以后,直接把我運到相應的位置。 用戶是需要這樣的智能自動化場景,但真實情況下,這種場景中的變量很多,簡單的聯(lián)網(wǎng)硬件無法處理和預判用戶的多維場景,更沒有全場景自動化服務的可能了。 好的用戶體驗設(shè)計不只是讓東西可以運作起來,更應該考慮讓他不會出錯,但不幸的是,大多數(shù)自動化智能場景都只是熱衷于讓東西聯(lián)動運轉(zhuǎn)起來,而完全不考慮出錯怎么辦。 這里,我們做智能化一定切記,人類不是算法邏輯,更不能簡單粗暴地把數(shù)字規(guī)則應用于模擬物理任務上去。
智能硬件現(xiàn)在有幾個誤區(qū),有人將能聯(lián)網(wǎng)的硬件當做智能硬件;也有人將有App控制的硬件當做智能硬件,還有人把加上充電寶的硬件叫智能硬件,就像“八星八箭,有mp3功能一樣”。
在顧帥眼中認為的真正的“萬物智能”時代的產(chǎn)品應該具備以下三大要素:
1. 還原三次元世界“物”的操作,消滅觸屏+App控制(二次元)
忽視人與硬件的直接交互,是一件很不自然的事情。人若想開窗,自然的反應就是用手推開窗,而不是找一個叫做“開窗”的按鈕。人與二次元世界溝通,用屏幕是可以理解的,但是人與三次元世界溝通,為什么還要通過屏幕呢?
2. 能學習會決策 AI
智能硬件首先是要“智能”,隨著經(jīng)驗演化,越變越聰明,學習的能力,是智能的本質(zhì)之一。它可以感知世界、理解甚至預測人類的需求,主動調(diào)整做出一些符合人類期望的反饋。
這些均需要基于數(shù)據(jù)收集和挖掘才能做到。如果一個機器是通過感知、理解和決策這一過程完成任務,并且隨著經(jīng)驗的積累在不斷的演化,那它就是一個能夠自我學習的人工智能系統(tǒng)。所謂經(jīng)驗積累,就是數(shù)據(jù),數(shù)據(jù)就是經(jīng)驗。在機器學習這個領(lǐng)域里有一個概念叫經(jīng)驗數(shù)據(jù)。隨著經(jīng)驗演化,也就是隨著數(shù)據(jù)的不斷增長,來增長你的能力。從PC互聯(lián)網(wǎng)時代到移動互聯(lián)網(wǎng)時代,我們迎來了一個數(shù)據(jù)爆發(fā)式增長的時代,這為人工智能的發(fā)展提供了沃土。
3. 做到“用戶與物IT交互”同“人與人交流”一樣(AI+HCI)
雖然關(guān)于人工智能的準確定義還不明確,但是通常已經(jīng)形成了一個普遍共識,那就是通過技術(shù)手段使人與非人物體之間的交互能與人與人之間的交流類似(對話,洗衣機君)人機交互:電器設(shè)備旋鈕時代,鍵盤鼠標時代,觸屏智能機時代,智能硬件萬物智能時代。
如果依據(jù)上面提到的共識來定義,那么智能硬件指的就是使用者能與產(chǎn)品的交互近似于人與人之間交互的硬件產(chǎn)品。按此標準來審視目前市場上的各類智能硬件的話,絕大部分都是不合格的。
四、人工智能的發(fā)展與展望
如果把人工智能比作火箭的話那么有兩個核心元素作為火箭助推器即:大數(shù)據(jù)作為燃料,深入學習作為引擎。這兩個核心早就了人工智能火箭的助推力。
人工智能分為強人工智能與弱人工智能。許多計算機領(lǐng)域的科學家都對強人工智能提出過質(zhì)疑,比如“鐵釘滅世”的猜想,認為人工智能達到一定的高度之后,機器人最終會將指令的執(zhí)行帶入極端從而想消滅人類。但是顧帥認為,現(xiàn)階段的科學發(fā)展還離強人工智能很遠,實現(xiàn)弱人工智能依然能夠為人類帶來無限的方便與可能,但下一步,首先是要解決信息之間的打通和用戶行為的預測,進而消除設(shè)備與設(shè)備之間的摩擦,還原“不插電”的智能生活。
1. 實現(xiàn)弱人工智能(從底往上)的三個核心是:
- 感知(Perception):通過多維傳感器搜集人的生理信息和環(huán)境的物理信息
- 理解(Understanding):即深度學習(Deep Neural Network + Deep Learning)
- 決定(Decision):比如推薦服務
2. 深度學習之所以有很大前景來源于以下幾個優(yōu)勢:
- 具有來自于人腦的運算機制(inspiration by brain)
- 適合大數(shù)據(jù)運算(suitable for big data)
- 端到端的學習體(end-to-end learning)
- 具有豐富的建模語言(a rich modeling language)
五、深度學習如何影響到未來互聯(lián)網(wǎng)
1. 網(wǎng)頁的索引知識,搜索,廣告,預測
2. 人的維度:圖形,聲音(百度的語音技術(shù)是自主開發(fā),性能和識別率都非常好)
3. 實體世界:感知到3D,VR,增強現(xiàn)實。
百度搜索在這個方面的進步是可以通過語音的輸入來篩選出重要的語義,另一個很酷炫的功能是擁有圖像搜索的入口并且能夠識別圖像進行相關(guān)信息的推介。另一個有關(guān)深度學習的產(chǎn)品是一款叫“臉優(yōu)”的APP,其技術(shù)核心是深度學習的本地化以及在手機端完成實時把2D圖片生成3D圖片,并且是只有200k的實時3D化渲染。
1. Baidu Eye
看過電影《她》的同學是否對人工智能感觸頗深呢?對于機器人的理解,顧帥是這么解釋的,可以接收人類智慧,能感知場景和預測情景,通過自動執(zhí)行任務,輔助人類拓寬能力的設(shè)備,進而協(xié)助或取代人類的部分工作,形態(tài)多樣,可虛可實。比如顧帥領(lǐng)導開發(fā)的BaiduEye實現(xiàn)了一款產(chǎn)品類似于一個戴在耳朵邊的幫助人們索引實物和連接數(shù)字的第三只眼。2014年9月,百度在世界大會展示了 BaiduEye。作為百度新的搜索入口,索引真實世界的嘗試,是 “對人工智能和人機交互終極形態(tài)的技術(shù)探索”,是連接所有計算設(shè)備的大腦和終極人機接口。
有些人拿這個跟Google Glass對比,但其實還是很不一樣的。光機如同Google的智能眼鏡,顯示畫幅大小是一個局限,戴上Google Glass眼球會翻白眼,這是很不好的體驗。BaiduEye可以通過其圖像識別技術(shù)實時的為用戶對目中所見進行解釋答疑或者商品推介,可以在博物館和商場中使用。比如在商場中給女朋友挑選花或者禮物,商家也知道了你的停留時間和購物習慣,進而做更精準的推薦策略。
最好的人機交互是讓人意識不到人機交互的存在,我們正朝著這個目標不斷演進 BaiduEye。
Baidu Eye 背后核心能力來自百度大腦,也就是集合了百度的人工智能技術(shù)引擎。百度希望將百度大腦核心能力通過視聽說多維度能力創(chuàng)新實踐落地,為公司連接人、數(shù)據(jù)與服務和 O2O 戰(zhàn)略意義帶來實質(zhì)性價值。
還探討B(tài)aiduEye 進入醫(yī)療領(lǐng)域的可行性,比如通過 Baidu Eye 進行手術(shù)室直播和遠程直播,幫助醫(yī)生遠程問診,最終幫助醫(yī)療體系實現(xiàn)分級問診,合理疏導患者。Baidu Eye 又有圖像識別、語音識別的功能,隨著技術(shù)成熟度提升和迭代,也許還能有機會切入電子檔案這個領(lǐng)域。
2. DuLight
人工智能技術(shù)可以成為給盲人看世界的窗口,為他們點亮生活。在未來,我們希望dulight不僅能幫助正常人更便捷的生活,還能成為盲人的日常生活私人助理。結(jié)合百度大數(shù)據(jù)分析能力和自然人機交互技術(shù),幫助盲人“洞見”真實世界,實現(xiàn)平等的各行各業(yè)的服務便利。
一款可穿戴設(shè)備,這款設(shè)備是用來幫助盲人和視力障礙者導航的,叫做Dulight,它可以像藍牙耳機一樣掛在耳朵上,能夠捕捉任何面前的東西,然后傳輸?shù)綀D像識別系統(tǒng)中進行確認。
當把Dulight指向椅子和盆景,Dulight發(fā)聲說:“識別中,輕塑料椅,識別中,綠色盆景。”當他把Dulight指向我的時候,Dulight發(fā)聲說:“這個男人在笑,大約30歲。”Dulight能記住那個人的名字,并在以后認出那個人。
了解到微軟最近也做這個類似技術(shù)來幫助實現(xiàn)盲人眼鏡,這是計算機視覺的一種場景化剛需。
3. 黑科技產(chǎn)品
顧帥認為,“讓機器人能夠在棋盤下贏下棋局,還是幫助消費者吃到更熱乎、更優(yōu)質(zhì)的飯菜,究竟哪一種人工智能更有價值?這或許是一個尚需討論的話題。”
百度外賣騎士的實時調(diào)度,應該到哪一個餐館接哪一個單子送到哪里,他的路線和時間都是由系統(tǒng)決定,系統(tǒng)會實時推送給他。所以智能派單,智能路徑規(guī)劃。
基于互聯(lián)網(wǎng)大數(shù)據(jù)與深度學習算法智能優(yōu)化的外賣解決方案:百度外賣可以實現(xiàn)精準的去單時間和去單分配,通過算法和經(jīng)驗數(shù)據(jù)計算出不同時段建議餐館準備的內(nèi)容時長,并且能夠?qū)崟r計算等候時間,以及根據(jù)插單調(diào)配情況增加指令信息給送外賣的員工,隨著業(yè)務增長,隨著數(shù)據(jù)量積累,預測會越來越準確。這樣導致外賣小哥覺得自己像個執(zhí)行指令的機器人,是不是可以腦補一下機器人送外賣就在不久的將來了呢:)
Uber也使用這個智能系統(tǒng)在中國落地,調(diào)配各種數(shù)據(jù)源,比如哪里有球賽,天氣,新聞,來靈活調(diào)配用車密度和優(yōu)化接單路徑。
4. 無人駕駛
進入2016年,百度正在重新聚焦下一步的方向:用人工智能重塑公司技術(shù)架構(gòu),包括將之前深度學習實驗室孵化的無人車項目擴大,成立自動駕駛事業(yè)部。3月,百度在媒體溝通會上高層表示會巨額投資無人駕駛汽車。此外,百度要在未來3-5年內(nèi),將激光雷達的價格從70萬降到2至3萬,從而實現(xiàn)無人車3年商用5年量產(chǎn)的目標。
無人駕駛汽車的成功涉及高精地圖、實時定位以及障礙物檢測等多項技術(shù),而這些技術(shù)都離不開光學雷達(LiDAR)。最早跟寶馬合作的一款無人車。在烏鎮(zhèn)的互聯(lián)網(wǎng)大會上,習大大點贊。極客公園的創(chuàng)始人第一時間體驗了一下百度無人車,說是坐過無人車中最激進的,最高時速100公里/h。提到跟傳統(tǒng)車軟件相比,有恐怖的1300倍的代碼量。在新能源趨勢下,傳統(tǒng)汽車制造向電動汽車轉(zhuǎn)移,零部件的迅速減少大大降低了制造門檻,反倒是在軟件上的代碼量快速增長,能夠預見今后汽車行業(yè)玩家的新變化,尤其是無人車技術(shù)本質(zhì)上是基于高性能計算與人工智能技術(shù)的核心
現(xiàn)在93%以上的事故是有人為因素造成的,行車最大的愿景就是安全,人開車是很危險的,駕駛員反應+液壓制動的反應時間是1.2秒,就50米的剎車距離,而計算機電控0.2s,剎車距離6.7米。另外,駕駛員安全視距50米,而自動駕駛汽車的有效視距超過200米,更重要的是沒有疲勞駕駛問題。由數(shù)字可見,自動駕駛技術(shù)首當其沖可以大大降低交通事故的人員傷亡概率。
除了個體車的自動駕駛技術(shù)需要形成突破,車車聯(lián)網(wǎng)環(huán)境下的智能交通更是重點發(fā)展方向。舉個例子,人到十字路口的時候,因為不知道燈是什么情況,所以會慢下來,所以通過效率是很低的。交通堵塞的一部分原因,就是大家都會慢下來。車和車,車和交通系統(tǒng)都是互聯(lián)的,這使得汽車可以以比較高的系統(tǒng)通過路段。汽車本身的使用效率也能夠提高。能夠使道路交通狀況改善。
無人車的推行,在整體國家經(jīng)濟上是有非常大的提升的,不僅僅是在極大節(jié)省了出行運營成本,還會包括節(jié)省下來的出行時間和交通路網(wǎng)城市規(guī)劃的區(qū)域空間,進而提升的國民生產(chǎn)總值。
自動駕駛的8大技術(shù)分支,這必須要跟車廠合作。無人駕駛技術(shù)是多個技術(shù)的集成,包括了計算機視覺、環(huán)境感知、傳感器融合、高精定位、高精地圖、路徑規(guī)劃、障礙物檢測與規(guī)避、機械控制、系統(tǒng)集成與優(yōu)化、能耗與電管理。
5. 無人車通用技術(shù)發(fā)展路徑
自動駕駛的5個進階,特定功能輔助:自動巡航,自動泊車,固定路段有限條件自動駕駛,完全自動駕駛。
兩大技術(shù)路線的不同派系:特斯拉,mobileeye,雷達傳感。
Google,百度:使用激光雷達(厘米級別定位),高精度雷達。
Google的自動駕駛汽車,可以稱為“全自動駕駛汽車”,這種汽車沒有方形盤,沒有剎車,全部靠感應器和軟件自動駕駛,Google宣稱它非常安全。
特斯拉的“半自動駕駛”更傾向于”有人監(jiān)督的自動駕駛技術(shù)“,就像是飛機的”Autopilot“功能一樣,而不是把自己完全交給感應器和軟件,并且隨時可以切換到人工駕駛模式。使用的硬件包括:
- 前置攝像頭:識別車道,實現(xiàn)車道保持。
- 前置雷達:加上攝像頭追蹤前車,控制車速。
- 12個超聲波傳感器:感應車輛周圍和駕駛員盲區(qū)內(nèi)車輛和障礙物,實現(xiàn)碰撞回避。
百度深度學習方面的成果在最近兩年在多項計算機視覺上的國際競賽中世界領(lǐng)先,KITTI公開數(shù)據(jù)集上車輛識別精度百度拿到第一名89.32%!
- 趨勢:汽車新能源化,制造門檻降低
- 汽車智能化:自動駕駛大勢所趨
- 汽車共享化:高效淘汰低能
同時,顧嘉唯提到,既智能手機在中國市場的大飛躍之后,智能汽車市場一定是中國一塊最大的蛋糕,龐大的人口和城市化進程,獨特的法律政策環(huán)境及消費市場特性,電動車和無人車會在中國接下去幾年引爆。中國國情是道路規(guī)劃車況擁堵很厲害不同于美國公路曠闊,面對復雜的行駛路況,會經(jīng)常需要剎車停車,中國駕駛者更需要機器幫助人做無人駕駛,機遇與挑戰(zhàn)并存,難點與需求共生。
除了前面介紹的大量自動駕駛技術(shù)積累之外,在中國做無人車的時候需要考慮的人機交互現(xiàn)實問題:
比如如何解決無人車在經(jīng)常剎車停車環(huán)境下的實時性處理和精密運算壓力;比如在國內(nèi)行人法規(guī)意識淡薄的條件下,如何設(shè)定無人車的機動預判和決策算法;又比如在中國地圖定位限制條件下以及城市規(guī)劃區(qū)域城管法規(guī)政策下,在未來叫無人車來接的時候精準定位和最后幾百米的人車關(guān)系上,如何做到車內(nèi)的乘客,車外的行人,車的暫時歸屬權(quán)交付和控制權(quán)限上的人機融合問題。
在從由自動駕駛車輛和人為駕駛車輛交融的路網(wǎng)條件,過度到完全由自動駕駛替代還有非常長一段路線,在降低技術(shù)門檻和成本以及配套法規(guī)政策和倫理因素的前提下,自動駕駛技術(shù)前景根本上是會首先在公共交通場景下解決固定路段行駛問題,不止是單體車的智能駕駛技術(shù),更重要的是配合低成本車聯(lián)網(wǎng)傳感器和道路路網(wǎng)主動感知融合。
六、未來展望
盡管無人駕駛技術(shù)漸趨成熟,但激光雷達始終是一個繞不過去的坎。純視覺與GPS/IMU的定位以及避障方案雖然價格低,卻還不成熟,很難應用到室外場景中;但同時激光雷達價格高居不下,當務之急就是快速把系統(tǒng)成本大幅降低。其中一個較有希望的方法是使用較低價的激光雷達,雖然會損失一些精確度,但可以使用其它的低價傳感器與激光雷達做信息混合,補償算法得到車輛的位置。通過更好的算法去彌補硬件傳感器的不足,無人車近期的發(fā)展方向。而高精度激光雷達的價格由于市場需求大增也將會在未來的一兩年內(nèi)出現(xiàn)降幅,為無人車的進一步普及鋪路。
顧帥最后展望了為實現(xiàn)一個“智能+”的時代,稱今天的人工智能應用僅露出冰山一角,未來對社會的影響將遠超我們的想象! 我們需要實現(xiàn)萬物互聯(lián)以搜集充分的有效數(shù)據(jù),然后通過神經(jīng)網(wǎng)絡(luò)的AI 算法實現(xiàn)對數(shù)據(jù)的結(jié)構(gòu)化,最后實現(xiàn)基于人工智能的自然人機交互。可以展望在不久的將來,我們可以實現(xiàn)一個全智能化的生活工作環(huán)境,互相連接配合的物品可以智能地提供人類需要的服務,如生活助理,秘書一樣地存在來便利人類的生活。
互聯(lián)網(wǎng)的飛速發(fā)展將大大的提升人類的生活體驗并且重塑人類的生活方式。經(jīng)歷了比爾蓋茨的GUI時代,喬布斯的TUI時代,我們可以期待AIUI時代!
【本文是51CTO專欄作者“董飛”的原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系作者本人獲取授權(quán)】