中國研發(fā)首個神經網絡處理器
近日,中科院計算技術研究所發(fā)布全球首個“神經網絡”處理器科研成果。由陳云霽、陳天石課題組提出的深度學習處理器指令集DianNaoYu被計算機體系結構領域頂級國際會議ISCA2016所接收,其評分排名總共近300篇投稿的第一名。
該成果的模擬實驗表明,采用DianNaoYu指令集的寒武紀深度學習處理器相對于x86指令集的CPU有兩個數量級的性能提升。這項成果今年年內將正式投入產業(yè)化,未來將實現(xiàn)刷臉支付、手機圖片搜索等應用。
這項成果因最近AlphaGo對決李世石的熱點而受到人們的關注。但據界面新聞記者了解,寒武紀處理器是長期技術積累的成果。早在2014年5月刊發(fā)的《中國計算機學會通訊》上陳天石和陳云霽就曾提到相關的內容。
“從2008年到現(xiàn)在,我們已經在體系結構和人工智能的交叉研究方向上工作了六年。作為國際上為數不多的幾個長期開展此方向研究的團隊之一,我們在不被認可中堅持了下來,并嘗試通過自己的努力來改善這個領域的環(huán)境(當然近年來環(huán)境的改善也得益于深度學習的興起),最終得到了學術界一定程度的肯定。”文章中說道。
截至目前,陳天石博士和陳云霽研究員就光寒武紀系列的技術成果,已經在計算機體系結構方面國際四大頂級會議中斬獲兩篇ASPLOS,兩篇ISCA,一篇MICRO,一篇HPCA,引起科研圈子極大的關注。
據了解,DianNao是寒武紀系列的第一個原型處理器結構,包含一個處理器核,主頻為0.98GHz,峰值性能達每秒4520億次神經網絡基本運算,65nm工藝下功耗為0.485W,面積3.02mm2。
在若干代表性神經網絡上的實驗結果表明,DianNao的平均性能超過主流CPU核的100倍,但是面積和功耗僅為1/10,效能提升可達三個數量級;DianNao的平均性能與主流GPGPU相當,但面積和功耗僅為主流GPGPU百分之一量級。
DaDianNao則在DianNao的基礎上進一步擴大了處理器的規(guī)模,包含16個處理器核和更大的片上存儲,并支持多處理器芯片間直接高速互連,避免了高昂的內存訪問開銷。
深度學習方法促進了人工神經網絡的發(fā)展,它在傳統(tǒng)的人工神經網絡訓練中增加了一個預訓練階段,即用無監(jiān)督學習對每一層網絡進行一次專門的訓練,然后才用有監(jiān)督學習對整個網絡進行總體訓練。
通過深度學習方法,人工神經網絡的效果一舉趕上甚至顯著超過了支持向量機等其他機器學習方法。目前,包括IBM、谷歌、微軟、科大訊飛、百度等公司均將該技術應用在工業(yè)級圖像和語音處理上,并取得了很好的效果。
因此人工神經網絡也已經成為最有效的認知任務處理算法之一,未來隨著人工智能的健康發(fā)展,如DaDianNao這樣的專門的神經網絡處理器也將跟隨產業(yè)不斷成長。
此外,由于日常生活顯然需要進行大量的認知活動,計算機體系結構研究者的目光也將從傳統(tǒng)的科學計算轉到認知任務上。很多大公司已經認識到這一點。Intel和IBM等傳統(tǒng)硬件廠商都已經成立了專門的部門進行認知任務處理的研究。在認知任務已經成了當前計算機最主要的任務之一的情況下,用戶和市場會有加速人工神經網絡的需求。
據陳天石介紹,目前課題組團隊已開始著手進行科研成果的產業(yè)化,未來應用瞄準企業(yè)、科研院所等高性能服務器、高效能終端芯片、機器人芯片三大領域。比如實現(xiàn)拍照即可獲取畫面中人物或物體的信息,對眾多視頻按類別或喜好進行智能歸類,實現(xiàn)刷臉支付等等。陳天石說,未來的服務既包括民生,也包括國家重大需求。
當然,未來寒武紀產業(yè)化成果是否順利,還需要時間來驗證。