騰訊大數(shù)據(jù)宣布推出第三代高性能計(jì)算平臺(tái)Angel 并于2017年全面開源
12月18日,深圳 - 騰訊大數(shù)據(jù)宣布推出面向機(jī)器學(xué)習(xí)的第三代高性能計(jì)算平臺(tái)——Angel,并預(yù)計(jì)于2017年一季度開放其源代碼,鼓勵(lì)業(yè)界工程師、學(xué)者和技術(shù)人員大規(guī)模學(xué)習(xí)使用,激發(fā)機(jī)器學(xué)習(xí)領(lǐng)域的更多創(chuàng)新應(yīng)用與良好生態(tài)發(fā)展。
騰訊今日在騰訊大數(shù)據(jù)技術(shù)峰會(huì)暨KDD China技術(shù)峰會(huì)上宣布這一消息,騰訊副總裁姚星先生,及騰訊數(shù)據(jù)平臺(tái)部總經(jīng)理、***數(shù)據(jù)專家蔣杰先生出席了峰會(huì)并發(fā)表演講。
姚星表示:“人工智能的發(fā)展在過去60年中幾經(jīng)沉浮,今年終于發(fā)出了璀璨光芒,很大的原因就是跟云計(jì)算和大數(shù)據(jù)有關(guān),這是一種演進(jìn)發(fā)展的必然結(jié)果。如何處理好大數(shù)據(jù),如何在有限的計(jì)算資源上對(duì)這些大數(shù)據(jù)進(jìn)行深入挖掘和分析,這是未來整個(gè)產(chǎn)業(yè)發(fā)展和升級(jí)的一個(gè)大課題。我相信大數(shù)據(jù)將成為這次產(chǎn)業(yè)升級(jí)的基礎(chǔ),核心算法將成為這次產(chǎn)業(yè)升級(jí)的靈魂。”
“面對(duì)騰訊快速增長(zhǎng)的數(shù)據(jù)挖掘需求,我們希望開發(fā)一個(gè)面向機(jī)器學(xué)習(xí)的、能應(yīng)對(duì)超大規(guī)模數(shù)據(jù)集的、高性能的計(jì)算框架,并且它要對(duì)用戶足夠友好,具有很低的使用門檻,就這樣,Angel平臺(tái)應(yīng)運(yùn)而生。”蔣杰表示:“機(jī)器學(xué)習(xí)作為人工智能的一個(gè)重要類別,正處于發(fā)展初期,開源Angel,就是開放騰訊18年來的海量大數(shù)據(jù)處理經(jīng)驗(yàn)和先進(jìn)技術(shù)。我們連接一切連接的資源,激發(fā)更多創(chuàng)意,讓這個(gè)好平臺(tái)逐步轉(zhuǎn)化成有價(jià)值的生態(tài)系統(tǒng),讓企業(yè)運(yùn)營(yíng)更有效、產(chǎn)品更智能、用戶體驗(yàn)更好。”
Angel是騰訊大數(shù)據(jù)部門第三代的計(jì)算平臺(tái),使用Java和Scala語言開發(fā),面向機(jī)器學(xué)習(xí)的高性能分布式計(jì)算框架,由騰訊大數(shù)據(jù)與香港科技大學(xué)、北京大學(xué)聯(lián)合研發(fā)。它采用參數(shù)服務(wù)器架構(gòu),解決了上一代框架的擴(kuò)展性問題,支持?jǐn)?shù)據(jù)并行及模型并行的計(jì)算模式,能支持十億級(jí)別維度的模型訓(xùn)練。
不僅如此,Angel還采用了多種業(yè)界***技術(shù)和騰訊大數(shù)據(jù)自主研發(fā)技術(shù),如SSP(Stale synchronous Parallel)、異步分布式SGD、多線程參數(shù)共享模式HogWild、網(wǎng)絡(luò)帶寬流量調(diào)度算法、計(jì)算和網(wǎng)絡(luò)請(qǐng)求流水化、參數(shù)更新索引和訓(xùn)練數(shù)據(jù)預(yù)處理方案等。這些技術(shù)使Angel性能大幅提高,達(dá)到常見開源系統(tǒng)Spark的數(shù)倍到數(shù)十倍,能在千萬到十億級(jí)的特征維度條件下運(yùn)行。
在系統(tǒng)易用性上,Angel提供豐富的機(jī)器學(xué)習(xí)算法庫(kù)及高度抽象的編程接口、數(shù)據(jù)計(jì)算和模型劃分的自動(dòng)方案及參數(shù)自適應(yīng)配置,同時(shí),用戶能像使用MR、Spark一樣在Angel上編程,我們還建設(shè)了拖拽式的一體化的開發(fā)運(yùn)營(yíng)門戶,屏蔽底層系統(tǒng)細(xì)節(jié),降低用戶使用門檻。另外,Angel還支持深度學(xué)習(xí),它支持Caffe、TensorFlow和Torch等業(yè)界主流的深度學(xué)習(xí)框架,為其提供計(jì)算加速。
自今年初在騰訊內(nèi)部上線以來,Angel已應(yīng)用于騰訊視頻、騰訊社交廣告及用戶畫像挖掘等精準(zhǔn)推薦業(yè)務(wù)。
今年11月,騰訊云大數(shù)據(jù)聯(lián)合團(tuán)隊(duì)在有“計(jì)算奧運(yùn)會(huì)”之稱的Sort Benchmark排序競(jìng)賽中,用時(shí)不到99秒完成100TB的數(shù)據(jù)排序,在測(cè)試大規(guī)模分布式系統(tǒng)軟硬件架構(gòu)能力和平臺(tái)計(jì)算效率的GraySort和MinuteSort兩項(xiàng)排序競(jìng)賽中奪得4個(gè)冠軍,將去年冠軍的紀(jì)錄分別提高二到五倍。冠軍的背后是騰訊大數(shù)據(jù)多年的積累,而Angel更是騰訊大數(shù)據(jù)下一代的核心計(jì)算平臺(tái)。
在此次會(huì)上,姚星談到了騰訊對(duì)于大數(shù)據(jù)和人工智能的看法。蔣杰詳細(xì)分享了此次奪冠背后騰訊大數(shù)據(jù)的發(fā)展之路,及Angel系統(tǒng)構(gòu)建的生態(tài)圈層。以下為演講全文:
大家早上好,非常高興今天參加kdd china技術(shù)峰會(huì)。過去的20年是信息時(shí)代快速發(fā)展的20年,信息產(chǎn)業(yè)的發(fā)展遠(yuǎn)超其他產(chǎn)業(yè)。信息產(chǎn)業(yè)的發(fā)展提升了人類的生活品質(zhì),也深深影響著我們這一代人。信息產(chǎn)業(yè)的高速發(fā)展離不開計(jì)算能力的提升,無論是我們使用的處理器計(jì)算能力還是網(wǎng)絡(luò)傳輸能力,在過往20年發(fā)展中都保持了“摩爾定律”的趨勢(shì),使得我們互聯(lián)網(wǎng)產(chǎn)品深入千家萬戶,得到了廣泛應(yīng)用。隨著互聯(lián)網(wǎng)產(chǎn)品滲透率的逐步趨穩(wěn),互聯(lián)網(wǎng)產(chǎn)業(yè)今后的發(fā)展趨勢(shì)在哪里?什么樣的技術(shù)、業(yè)務(wù)形態(tài)會(huì)***后續(xù)的產(chǎn)業(yè)發(fā)展?時(shí)至今日,我想答案毫無疑問是人工智能。人工智能在過往的60年發(fā)展中幾經(jīng)沉浮,起起落落,在今年散發(fā)出璀璨的光芒,人工智能的興起是大數(shù)據(jù)、云計(jì)算科學(xué)進(jìn)步的產(chǎn)物。充分利用計(jì)算資源,對(duì)海量大數(shù)據(jù)通過算法進(jìn)行進(jìn)一步的挖掘分析,這是互聯(lián)網(wǎng)產(chǎn)品和產(chǎn)業(yè)的未來發(fā)展趨勢(shì)。大數(shù)據(jù)是基礎(chǔ)、核心算法是靈魂。騰訊公司通過18年的發(fā)展今天已經(jīng)成為了***的互聯(lián)網(wǎng)公司。過去我們?cè)诋a(chǎn)品體驗(yàn)上更加關(guān)注的是簡(jiǎn)單、好用。通過簡(jiǎn)單的方式提升人們的溝通效率,通過簡(jiǎn)單的方式讓人們輕松享受數(shù)字內(nèi)容時(shí)代。在技術(shù)上,我們過去更加關(guān)注的是工程技術(shù),也就是海量性能處理能力、海量數(shù)據(jù)存儲(chǔ)能力、工程架構(gòu)分布容災(zāi)能力。未來騰訊必將發(fā)展成為一家***科技的互聯(lián)網(wǎng)公司,我們將在大數(shù)據(jù)、核心算法等技術(shù)領(lǐng)域上進(jìn)行積極的投入和布局,和合作伙伴共同推動(dòng)互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展。
騰訊公司是一家消息平臺(tái)+數(shù)字內(nèi)容的公司,本質(zhì)上來講我們也是一家大數(shù)據(jù)公司,今天我們每天產(chǎn)生數(shù)千億的收發(fā)消息,超過10億的分享圖片,高峰期間百億的收發(fā)紅包。每天產(chǎn)生的看新聞、聽音樂、看視頻的流量峰值高達(dá)數(shù)十T。這么大的數(shù)據(jù)如何處理好,使用好的確是***挑戰(zhàn)的。在大數(shù)據(jù)上騰訊也秉承開放生態(tài)理念與合作伙伴一起共建大數(shù)據(jù)生態(tài),在云、支付、LBS、安全方面,與生態(tài)合作伙伴共建基礎(chǔ)設(shè)施,與合作伙伴一起助推產(chǎn)業(yè)升級(jí)。
今年騰訊成立了AI實(shí)驗(yàn)室,我們確立的是四個(gè)基礎(chǔ)的研究方向,包括計(jì)算機(jī)視覺、語音識(shí)別,自然語言處理,以及機(jī)器學(xué)習(xí)。我們也確立了四個(gè)業(yè)務(wù)發(fā)展方向:首先我們會(huì)聚焦于內(nèi)容AI,主要聚焦于搜索和個(gè)性化推薦,除了文本以外的深度內(nèi)容再加上富媒體內(nèi)容的深度理解。第二個(gè)是游戲AI,這是基于騰訊業(yè)務(wù)本質(zhì)特性相關(guān)的。我們會(huì)打造競(jìng)技類游戲相關(guān)的AI能力。第三個(gè)方向我們會(huì)構(gòu)建社交AI,這是基于我們騰訊最主要的社交平臺(tái)的AI。相信在未來的產(chǎn)品形態(tài)上會(huì)出現(xiàn)智能音響也好,智能助手也好。第四個(gè)是云AI,我們會(huì)把我們的圖象識(shí)別能力、語音識(shí)別能力、自然語言處理能力以及大數(shù)據(jù)機(jī)器學(xué)習(xí)的平臺(tái)開放給更多的用戶使用。騰訊的AI使命是最終打造廣義通用AI,實(shí)現(xiàn)每個(gè)人心中的“大白”。使得我們的小朋友更加的“被理解”,使得我們的成年人更加的“被保護(hù)”,使得我們的老年人更加的“被照顧”。
目前AI整個(gè)行業(yè)還處于早期階段,雖然在某些垂直領(lǐng)域已經(jīng)或者達(dá)到了某些人類的平均智能水平,但是這與人的綜合智能還相差甚遠(yuǎn)。無論我們有如何先進(jìn)的算法模型,我們都需要重新訓(xùn)練數(shù)據(jù)。無論我們有如何深層的網(wǎng)絡(luò)模型,本質(zhì)上都是通過算力解決問題。這和人與生俱來的智能,以及“創(chuàng)造力”、“舉一反三”、“歸納總結(jié)”能力都相差甚遠(yuǎn)。但是我們也看到了積極的方向,比如deepmind的reinfocement的強(qiáng)化學(xué)習(xí)的發(fā)展進(jìn)步,openai的gan生成對(duì)抗網(wǎng)絡(luò)的發(fā)展。這些積極的發(fā)展使得AI的領(lǐng)域發(fā)展日新月異。
我相信在與會(huì)的各位專家和各位從業(yè)精英的積極投入和參與下,AI的發(fā)展必將朝氣蓬勃、勢(shì)不可擋!***預(yù)祝大會(huì)圓滿成功!謝謝!