三位大咖亮相WOT AI峰會機器學(xué)習(xí)會場,揭秘AI如何賦能行業(yè)應(yīng)用
原創(chuàng)【51CTO.com原創(chuàng)稿件】2018年,人工智能作為人類開創(chuàng)未來最耀眼的技術(shù)之一,正在深刻影響著全球產(chǎn)業(yè)結(jié)構(gòu)、商業(yè)模式、城市形態(tài)以及人類生活工作方式。如何讓人工智能技術(shù)為行業(yè)賦能,讓眾多行業(yè)共享科技生產(chǎn)力,是數(shù)字化轉(zhuǎn)型浪潮下的重要課題。作為推動人工智能務(wù)實創(chuàng)新的年度重要活動,11月30日-12月1日,WOT2018全球人工智能技術(shù)峰會在北京•粵財JW萬豪酒店盛大召開。60+國內(nèi)外人工智能一線精英大咖與千余名業(yè)界專業(yè)人士齊聚現(xiàn)場,分享人工智能的平臺工具、算法模型、語音視覺等技術(shù)內(nèi)容,探討人工智能如何賦予行業(yè)新的活力。
11月30下午,A會場機器學(xué)習(xí)分論壇召開,三位資深專家受邀出席發(fā)表精彩演講,會后51CTO將專家發(fā)言整理成文,希望他們的演講內(nèi)容精華對大家有所幫助。
楊雪峰 深圳追一科技有限公司高級研究員
閱讀理解技術(shù)探索與在企業(yè)服務(wù)中的應(yīng)用
楊雪峰的分享主要有兩部分重點,首先他介紹了機器閱讀理解的現(xiàn)狀、市場上前沿技術(shù),以及機器閱讀理解的背景、意義、方法論。其次他分享了AI技術(shù)落地的難點與閱讀理解技術(shù)的產(chǎn)品化實踐。
在楊雪峰看來,機器閱讀理解通俗來說就是針對給定的問題找到用戶需要的答案,答案可能是文字,也可能是圖片、數(shù)字、符號、片段,不同的答案形式,難度也有很大區(qū)別,通常通過不同的數(shù)據(jù)集來處理。他在現(xiàn)場介紹了目前主流的四個英文數(shù)據(jù)集,即谷歌發(fā)明的CNN & Daily Mail數(shù)據(jù)集、微軟MCTest數(shù)據(jù)集、斯坦福創(chuàng)建的SQuAD1&2數(shù)據(jù)集,以及微軟的MS MARCO萬量級數(shù)據(jù)集。此外中文數(shù)據(jù)集做的比較好的有百度的DuReader和科大訊飛的CMRC數(shù)據(jù)集。
楊雪峰還在現(xiàn)場舉了幾個機器閱讀理解的應(yīng)用場景:
一是客服和新員工培訓(xùn)場景。由于客服流動性較大,企業(yè)需要盡量減少培訓(xùn)環(huán)節(jié),讓客服人員盡快上崗,熟悉操作手冊和業(yè)務(wù)常用文檔,而通過機器閱讀理解產(chǎn)品,可以第一時間解答員工疑問,幫助員工熟悉業(yè)務(wù);
二是在金融領(lǐng)域里提供專業(yè)咨詢服務(wù)。由于人手有限,基金經(jīng)理無法回答所有人的提問,但是通過機器閱讀理解,可以讓用戶自主查詢到詳盡的文檔和數(shù)據(jù),提升用戶體驗;
三是兒童興趣早教,可以給兒童提供用于教育應(yīng)用的通用知識問答系統(tǒng),例如兒童早教機、嬰幼兒輔導(dǎo)等環(huán)節(jié),孩子們可以在娛樂中豐富自己的知識。
楊雪峰在現(xiàn)場還以他們?yōu)槟戏胶娇仗峁┑慕鉀Q方案現(xiàn)身說法,他表示南方航空每周都會推出各種活動,每當(dāng)這時客服人員都需要解答大量多的問題,追一科技會從上千篇文檔集中篩選出最容易被咨詢的文檔,建立模型通過自動抽取功能,推薦很多問答字段,簡化企業(yè)標(biāo)注流程,并做出細(xì)致的標(biāo)注,盡可能讓用戶簡單使用,滿足高并發(fā)訪問場景。“未來這個領(lǐng)域還有很多挑戰(zhàn),尤其是金融客戶大多都是私有化部署,數(shù)據(jù)是一個閉環(huán)系統(tǒng),他們希望能夠疊加自己的數(shù)據(jù)訓(xùn)練新的模型,而讓服務(wù)商只提供產(chǎn)品邏輯即可。”
俞圓圓 杭州威佩網(wǎng)絡(luò)科技有限公司CTO
深度學(xué)習(xí)在電子競技行業(yè)中的應(yīng)用
俞圓圓在一開場就表示,傳統(tǒng)體育行業(yè)的數(shù)據(jù)分析方式并不適用于電子競技領(lǐng)域。同樣是數(shù)據(jù)搜集,傳統(tǒng)體育行業(yè)是以人工搜集和技術(shù)搜集同步進行,例如某個球員又進了進個球,需要人工根據(jù)現(xiàn)場情況進行登記,而且更多的是依賴現(xiàn)場專業(yè)人員進行解讀。而這些數(shù)據(jù)分析的手段在電子競技領(lǐng)域則行不通,例如電子競技選手往往一天可以打幾十場游戲比賽,游戲迭代快,游戲規(guī)則和邏輯多變,傳統(tǒng)數(shù)據(jù)分析很難跟得上變化節(jié)奏。除此之外,游戲里角色復(fù)雜,每個角色的裝備、團隊貢獻值、傷害力等多重指標(biāo)都需要做一個數(shù)據(jù)分析和展示。更特殊的是,電競行業(yè)參與者的主觀意識都很強,認(rèn)知差別大,很難套用傳統(tǒng)體育專家分析的模式。“在過去的電競數(shù)據(jù)分析中,很多的團隊使用的傳統(tǒng)數(shù)學(xué)模型,往往會被玩家和用戶指責(zé)不夠客觀或是不夠全面。使用深度學(xué)習(xí)的話,就可以很有效的規(guī)避這些問題。”
對比傳統(tǒng)數(shù)學(xué)模型,深度學(xué)習(xí)具有可塑性、普適性、高效性三大優(yōu)勢。俞圓圓指出,深度學(xué)習(xí)的模型可以是很多很多的building block,可以把很多問題全部變成工程化的問題,經(jīng)過訓(xùn)練后很快就可以搭建模型,而且模型很容易被移動到另外一個項目上。當(dāng)然,俞圓圓也坦言,電競行業(yè)的深度學(xué)習(xí)也有缺點,需要非常多的訓(xùn)練數(shù)據(jù),而且也不能直接學(xué)習(xí)和理解。“當(dāng)深度學(xué)習(xí)和電子競技游戲結(jié)合以后,處理大量的數(shù)據(jù)也不需要人工因素的干擾,客觀性更好,而且可以快速完整處理大批量數(shù)據(jù)。”
演講最后,俞圓圓詳細(xì)介紹了一個勝率分析項目AlphaMao,來展示他們?nèi)绾芜\用深度學(xué)習(xí)的技術(shù)和模型解決電競問題的。在半年的時間中,模型每天都在通過學(xué)習(xí)新的比賽樣本來更新自己的模型,訓(xùn)練數(shù)據(jù)來自六千萬場電競比賽。由于游戲規(guī)則更迭很快,所以他們既要學(xué)習(xí)過去的數(shù)據(jù),又要更新最新的數(shù)據(jù),而且要隨時調(diào)整提高更新數(shù)據(jù)的權(quán)重比例,最終模型擁有60%的總體準(zhǔn)確率以及高達97.6%的相對準(zhǔn)確率。
“未來我們關(guān)注的方向主要有三個。” 俞圓圓透露,他們將在模型中添加上時間數(shù)據(jù),爭取可以做到實時勝率分析,而且還將對對勝率進行分析,為玩家提供更直觀有效的建議。除此之外,他們希望深度學(xué)習(xí)模型可以輕易的移植到其他游戲中。
賈榮飛 淘寶高級算法專家
重新定義人貨場——端上智能,情景計算
賈榮飛在演講中談到,消費者在購買東西的時候,不同場景下有不同的需求,例如在公司里由于時間緊迫,人們希望更快下單,但是如果是在家里,人們則更愿意舒舒服服躺在床上慢慢瀏覽購物頁面。鑒于此,淘寶希望能夠重新定義人貨場,加大對用戶手機上信息的理解,改變電商與消費者多的交互模式,從而推動電商智能化發(fā)展。
當(dāng)越來越多的貨品通過電商銷售,如何準(zhǔn)確理解消費者的需求變得更加重要。賈榮飛認(rèn)為,智能手機時代給這一切提供了可能,它可以定位用戶的實時狀態(tài),然后淘寶通過情景計算技術(shù)對用戶實時狀態(tài)進行分析和理解,更聚焦地了解客戶此次此刻需要什么。“這比原來的推薦搜索更進一步理解用戶。”他坦言,這里也存在很多難點,一來用戶信息量很大,如何在復(fù)雜信息中抽取有效信息?二來隨著處理的數(shù)據(jù)量越來越大,電商的計算能力如何支撐更大的信息量和更復(fù)雜的模型?這是非常有挑戰(zhàn)性的課題。
據(jù)賈榮飛介紹,淘寶對于情景計算的訴求主要是希望能夠?qū)崟r處理用戶的訂單,對于單一用戶希望有更大的算力進行服務(wù),在這樣的需求下,淘寶毫不猶豫地選擇將計算力在客戶端部署為主,在云上更多的是構(gòu)建全局模型,用戶之間實現(xiàn)信息共享,整體情景計算的架構(gòu)設(shè)計“以端為主,以云為輔。”而深度學(xué)習(xí)的模型就被應(yīng)用在對用戶信息的甄別和理解上,對于判斷用戶所處環(huán)境非常有幫助。
由于這些模型都是復(fù)雜模型,而復(fù)雜模型在端上不可避免的會遇到計算能力的問題,所以淘寶就開始研究如何通過端上框架的改進來支持可計算性。賈榮飛介紹到,首先在端上會有原始數(shù)據(jù)的采集,定期獲取用戶實時狀態(tài),發(fā)送到基礎(chǔ)模型生產(chǎn)出中間數(shù)據(jù),為應(yīng)用產(chǎn)品進行服務(wù)。同時在云端,淘寶會完成模型的訓(xùn)練,再定期同步到用戶手機端,用實驗和各種參數(shù)確保用戶擁有良好的使用體驗。
“下一步我們希望在三個方向上做更多的嘗試,”賈榮飛透露,第一個是做用戶需求發(fā)現(xiàn)引擎,能夠分析出用戶在不同場景的喜好,第二個是實現(xiàn)從千人千面到千人千模,充分發(fā)揮用戶手機端的計算能力和對用戶的深入理解,在每個手機上訓(xùn)練出一個針對單一用戶更個性化的東西。最后一個是云+端的聯(lián)合學(xué)習(xí),淘寶希望把云+端的信息聯(lián)合在一起進行訓(xùn)練,取得更好的效果。
以上內(nèi)容是51CTO記者根據(jù)WOT2018全球人工智能技術(shù)峰會的《機器學(xué)習(xí)》分論壇演講內(nèi)容整理,更多關(guān)于WOT的內(nèi)容請關(guān)注51cto.com。
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】