甘穎濤:工業(yè)大數(shù)據(jù)和人工智能技術(shù)在智能制造領(lǐng)域的應(yīng)用|V課堂第45期
11月10日,江蘇省企業(yè)信息化協(xié)會總?cè)河瓉淼?5期“智造+V課堂”。本期“智造+V課堂“邀請了北京水木聯(lián)合科技有限公司總經(jīng)理甘穎濤為大家?guī)碇黝}為《工業(yè)大數(shù)據(jù)和人工智能技術(shù)在智能制造領(lǐng)域的運用》的精彩分享。
一、嘉賓簡介
甘穎濤(北京水木聯(lián)合科技有限公司總經(jīng)理)
個人簡介:
1、現(xiàn)任北京水木聯(lián)合科技有限公司總經(jīng)理;
2、曾在IBM、中國惠普、EMC等國際知名IT公司任職;
3、北京大學(xué)光華管理學(xué)院MBA;
4、北京工業(yè)大學(xué)自動控制專業(yè)學(xué)士學(xué)位;
公司簡介:
水木聯(lián)合公司是國內(nèi)領(lǐng)先的工業(yè)互聯(lián)網(wǎng)領(lǐng)域人工智能解決方案提供商,用自主研發(fā)的大數(shù)據(jù)分析平臺和算法模型為轉(zhuǎn)型發(fā)展中的制造業(yè)企業(yè)提供預(yù)測性質(zhì)量管理、安全風(fēng)險預(yù)警、設(shè)備預(yù)測性維護、精準營銷一體化等解決方案。
二、主題
演講主題
《工業(yè)大數(shù)據(jù)和人工智能技術(shù)在智能制造領(lǐng)域的應(yīng)用》
演講大綱
1)工業(yè)大數(shù)據(jù)的概念、特點和戰(zhàn)略思考
2)工業(yè)大數(shù)據(jù)商業(yè)價值實現(xiàn)路徑
3)抓住人工智能的浪潮,實現(xiàn)制造業(yè)轉(zhuǎn)型
4)解決方案和案例分享
三、原文實錄
原文實錄:
江蘇省企業(yè)信息化協(xié)會總?cè)旱念I(lǐng)導(dǎo)和朋友們大家晚上好。非常難得有這個機會能夠在群里跟大家匯報一下我們工作,大家有問題我們可以熱情的討論,那接下來我就大概一個小時左右的時間,跟大家匯報一下我們在工業(yè)大數(shù)據(jù),和人工智能技術(shù)研究和應(yīng)用方面的工作,以及我們在智能制造領(lǐng)域的一些體會心得、和實踐經(jīng)驗。大數(shù)據(jù)這個詞前一段非?;鸨蠹铱赡芙?jīng)??粗醒腚娨暸_,也聽到主持人經(jīng)常提到這個,根據(jù)大數(shù)據(jù)分析非常熱鬧,但是大數(shù)據(jù)往往是跟消費互聯(lián)網(wǎng)是緊密結(jié)合的,所以國內(nèi)目前有數(shù)十家專注做大數(shù)據(jù)的公司,也主要是針對電商,輿情數(shù)據(jù),社交平臺的數(shù)據(jù)進行數(shù)據(jù)的采集和處理,真正把大數(shù)據(jù)技術(shù)應(yīng)用在工業(yè)領(lǐng)域進行業(yè)務(wù)分析的并不多,我們是比較先進的一家,比較領(lǐng)先的一家,我們一直專注于用統(tǒng)計數(shù)學(xué)分析的方法和技術(shù),幫助客戶理解和應(yīng)用工業(yè)大數(shù)據(jù)!
其實,最近工業(yè)大數(shù)據(jù)分析的應(yīng)用也很受到投資圈的追捧,大概在去年下半年,今年的上半年和年終,大概陸續(xù)有幾家都得到了大概幾千萬到上億元的這個融資,所以說明這個市場在快速蓬勃的發(fā)展,什么是工業(yè)大數(shù)據(jù)?我想先把工業(yè)大數(shù)據(jù)的概念跟大家分享一下,工業(yè)大數(shù)據(jù)的概念首先來自于2012年美國通用電器,GE公司發(fā)布的工業(yè)互聯(lián)網(wǎng)突破機器與智慧的界限研究報告,報告中指出工業(yè)大數(shù)據(jù)是在工業(yè)領(lǐng)域相關(guān)自動化和信息化應(yīng)用中產(chǎn)生的海量數(shù)據(jù)!其實我們理解具體來講,工業(yè)大數(shù)據(jù)包括比如說設(shè)備數(shù)據(jù)、傳感器數(shù)據(jù)、儀器儀表數(shù)據(jù)等持續(xù)數(shù)據(jù),也包括了涵概設(shè)備設(shè)施的時序數(shù)據(jù),地理信息坐標的時空數(shù)據(jù),還有運營系統(tǒng)中的訂單質(zhì)量檢測數(shù)據(jù)以及第三方的天氣環(huán)境數(shù)據(jù)等。也就是說它包括了企業(yè)內(nèi)和上下游的產(chǎn)業(yè)鏈,還包括外部來自市場、用戶和環(huán)境的數(shù)據(jù)等,提法也基本可以明確我們所說的工業(yè)大數(shù)據(jù)和工信部、江蘇省經(jīng)信委提倡的兩化融合在數(shù)據(jù)層面的理解是統(tǒng)一的。從目前來看,我國制造業(yè)企業(yè)對工業(yè)大數(shù)據(jù)的采集、挖掘和利用,還處于早期階段,應(yīng)用水平的差別很大。
但是我們看一看美國的情況,麥肯錫在2012年的一份大數(shù)據(jù)報告中指出,在虛擬經(jīng)濟占主導(dǎo)地位的美國,其工業(yè)界蘊含的數(shù)據(jù)總量反而是巨大的,大家可以看一看這張圖,美國離散制造業(yè)他存儲數(shù)據(jù)的總量已經(jīng)達到了966個TB,位于美國各個行業(yè)的***位。相反美國政府以848個TB居于第三位,第三位是通訊和媒體,第四位也是制造業(yè)是流程制造業(yè),數(shù)據(jù)總量達到了694個PB,我們原來認為數(shù)據(jù)使用保有量***的銀行業(yè)只排在了第五位。
這個調(diào)查結(jié)果說明工業(yè)數(shù)據(jù)的主體也就是由機器設(shè)備所產(chǎn)生的數(shù)據(jù)量,遠遠超過其他行業(yè),以人為主產(chǎn)生的數(shù)據(jù),正是因為有了這樣巨大數(shù)據(jù)基礎(chǔ),以美國GE公司為主的制造業(yè)巨頭,提出了工業(yè)互聯(lián)網(wǎng)的概念,而工業(yè)互聯(lián)網(wǎng)的三大要素分別是智能聯(lián)網(wǎng)的機器,人與機器協(xié)同工作,以及先進的數(shù)據(jù)分析能力,目前全世界最成功的工業(yè)大數(shù)據(jù)分析和實用應(yīng)用的實力是GE公司的Predix云平臺,它在高度安全的工業(yè)集云環(huán)境中捕捉和分析海量高速運行,類型多樣各種機器產(chǎn)生的數(shù)據(jù),Predix 2014年他的全年收入是40億美元,2015年是在60億美元,2016年應(yīng)該還是有一個很快的增長。工業(yè)數(shù)據(jù)大數(shù)據(jù)的價值巨大,結(jié)合到國內(nèi)的制造業(yè)企業(yè),工業(yè)大數(shù)據(jù)具體有什么用?其實大家還是有不少困惑的,所以我想在詳細介紹工業(yè)大數(shù)據(jù)的概念,戰(zhàn)略,特點等等之前呢,先跟大家分享一個案例,給大家一些直觀的印象,這些工業(yè)大數(shù)據(jù)能怎么用?這個項目的客戶呢是一個國內(nèi)的一家大型的鋼鐵企業(yè),他們在生產(chǎn)自動化企業(yè)信息化方面已經(jīng)做了很多年的投入,SCADA系統(tǒng),MES系統(tǒng),EMS系統(tǒng),他們都已經(jīng)建立了,也就是說基本上達到了已經(jīng)達到了我們兩化融合一個基本要求的標準。因此數(shù)據(jù)基礎(chǔ)比較好,但是客戶為什么找到我們來做這么一個項目呢?其實,客戶這個鋼廠有一個厚板部,在厚板生產(chǎn)和銷售中一直有一個問題困擾他們,就是厚板的應(yīng)力殘留問題,厚板生產(chǎn)出來他們的客戶主要是造船廠,船廠對厚板的品種度要求非常高。一旦發(fā)現(xiàn)交貨交過來的厚板呢,如果里邊有殘留應(yīng)力引起變形,船廠就拒絕是無法使用的,他就會要求鋼廠退貨,或者降低產(chǎn)品的質(zhì)量等級進行折價銷售。也是就說鋼鐵行業(yè)中的這叫質(zhì)量損失,為了減少質(zhì)量損失呢,這家鋼鐵企業(yè)在完整的厚板生產(chǎn)工序后邊又加了一道冷矯工序,也就是在厚板經(jīng)過傳統(tǒng)的加熱爐、粗軋、精軋、冷卻后,又增加了一道新的工序,用冷矯機對厚板進行殘留應(yīng)力的釋放。
企業(yè)希望通過這種冷矯,釋放在加熱和軋制過程中,積攢在厚板中的內(nèi)應(yīng)力,但是,其實大家得知道這個冷矯不是必需的,它費時費力,而且影響交貨時間,給企業(yè)增加了成本,本來現(xiàn)在鋼鐵企業(yè)經(jīng)濟效益就很差,利潤就很低。如果再加上這道工序,基本上可能就從賺錢變成虧錢了。而且,在實際運用中,哪些板子要上冷矯機,也完全憑生產(chǎn)人員的經(jīng)驗判斷。其實只要生產(chǎn)過程中控制的好,是可以避免使用冷矯這道工序的,因此,客戶給我們提了一個要求,讓我們來解題。 這個題目中客戶希望我們結(jié)合厚板的生產(chǎn)信息,和內(nèi)應(yīng)力變形的這個客戶投訴的問題信息,建立厚板這個應(yīng)力殘留與否的預(yù)測模型。從而減少客戶的投訴,并以此預(yù)測的結(jié)果為依據(jù),決定厚板成品是否要進行冷矯,取代原來完全憑經(jīng)驗、憑人工判斷的這個這種情況!我們首先判斷呢根據(jù)企業(yè)的生產(chǎn)經(jīng)驗這個題是可以解的,熟悉鋼鐵生產(chǎn)領(lǐng)域?qū)<叶贾溃魏蝺?nèi)應(yīng)力其實你都是很難做到完全釋放的,只不過是釋放的大小和快慢的問題,那么這個區(qū)別就決定于生產(chǎn)過程是如何生產(chǎn)的?
所以,生產(chǎn)信息和殘留應(yīng)力引起的質(zhì)量問題投訴之間一定有相關(guān)性,接下來呢我們看了一下客戶提供給我們進行建模數(shù)據(jù)的情況,客戶提供給我們大概他們最近4個月,沒有做冷矯的1800條子板的生產(chǎn)信息,和質(zhì)量投訴信息,這1800條是沒有上冷矯機的,在這1800條子板中呢,后來我們知道被客戶發(fā)生質(zhì)量問題損益的有23條,客戶提供給我們的生產(chǎn)信息呢包括板配的加熱信息,扎制的道次,熱矯冷卻信息,厚板質(zhì)量檢測信息等100多個信息。其實這些信息拿來數(shù)據(jù)的情況并不樂觀,我們在做這個項目的時候,其實有兩個挑戰(zhàn),首先***個是如何處理不均衡性?不均衡的問題,對于1800條子板中出現(xiàn)質(zhì)量的只有23條,我們一般把出現(xiàn)質(zhì)量問題的叫正樣本,這個正副樣本的非常不平衡,需要在分析過程中生成填充數(shù)據(jù)來平衡樣本。
第二是如何處理變量的強相關(guān)性?每個子板它經(jīng)過了多道的熱加工粗扎、精扎工序,每道工序之間它從工藝上很多是強相關(guān)的。那你怎么能夠判斷出哪些變量是直接影響了他的這個內(nèi)應(yīng)力的問題?所以,要解決獨立這些變量中的相關(guān)性問題,必須用合理的算法辨識影響分析結(jié)果的獨立變量,在對業(yè)務(wù)要求和數(shù)據(jù)有了初步理解后,我們開始按照我們的大數(shù)據(jù)挖掘計量模型方法論對數(shù)據(jù)進行分析處理。首先我們把這1800條沒有經(jīng)過冷矯的子板數(shù)據(jù)進行拆分,其中70%用來做我們的模型訓(xùn)練,另外30%用來做模型驗證。用來驗證的這個30%的子板數(shù)據(jù),我們要求客戶結(jié)果先對我們保密,等我們模型建成后,再將我們模型預(yù)測的結(jié)果與實際情況進行比較驗證,我們對客戶提供的原始數(shù)據(jù)進行了清洗、加工、填充空缺值,設(shè)置默認值。同時由于有問題的厚板過少,正樣本過少,我們也采取了一些數(shù)學(xué)的方法處理。
我們也在過程中跟客戶的業(yè)務(wù)專家溝通,去理解數(shù)據(jù),建立數(shù)據(jù)的表征特征,建立分類模型,在這個項目中我們采取了隨機森林、邏輯回歸、拉鎖算法這幾個分類模型,并且把分析100次的隨機模型進行模式的比較和評價,最終確定了用來預(yù)測的模型。
***當(dāng)我們把這模型固定下來以后呢,用剩下的30%子板的數(shù)據(jù)拿出來驗證,我們把這30%子板每條板生產(chǎn)信息作為輸入數(shù)據(jù)進入模型,然后經(jīng)過計算給出明確的預(yù)測結(jié)果,判斷這條子板會不會因為有應(yīng)力風(fēng)險引起質(zhì)量問題投訴,最終我們的模型效果還是很不錯的,大家可以看看下面這張圖。從這張圖大家可以看,驗證子集一共是537條子板,我們通過我們的模型跑出來,我們預(yù)測沒有質(zhì)量風(fēng)險的是521條,實際證明也全部正確,也就意味著這521條子板根本不需要上冷矯工序,我們預(yù)測有9條子板有質(zhì)量風(fēng)險,應(yīng)該上冷矯機。事實證明其中6條最終因為沒有做冷矯,而發(fā)生了質(zhì)量投訴。
我們預(yù)測沒有風(fēng)險,但卻最終發(fā)生了質(zhì)量投訴的子板只有一條。從模型的評價曲線來看,我們可以看AOC就是叫曲線下面積這個指標,我們達到了0.9729,其實一個模型大概在0.8以上也是算是不錯的,我們做到0.97這個結(jié)果還是很令人滿意的,也就意味著如果客戶,也就意味著這個鋼鐵企業(yè)客戶最終在他的生產(chǎn)中,運用我們這個模型,根本不用憑經(jīng)驗。像原來一樣把40%的厚板成品全都上冷矯機,只需要經(jīng)過我們這個把他們生產(chǎn)信息,這個厚板生產(chǎn)過程中信息倒過來,經(jīng)過我的模型算出來,預(yù)測模型判斷出哪些會出現(xiàn)質(zhì)量問題的風(fēng)險的子板,加一道冷矯工序就可以了,就可以大大規(guī)避質(zhì)量損益的發(fā)生,可以節(jié)省大量的成本,也節(jié)約了交貨的時間。
同時,我們還給出了與殘留應(yīng)力質(zhì)量投訴相關(guān)的所有重要性的獨立變量,并將這些重要性進行了排序,那就意味著客戶,下面這張圖可以看出來,也就意味著客戶今后通過對這些變量進行合理控制,就會降低殘留應(yīng)力帶來的質(zhì)量投訴量。我剛才是跟大家分享了我們做一個實際的案例,其實就是數(shù)據(jù)分析是不是能夠幫到工業(yè)企業(yè),對這些工業(yè)大數(shù)據(jù)分析它的價值?又使用到它的價值。
所以工業(yè)大數(shù)據(jù)其實是有巨大的挖掘利用前景,因此我認為工業(yè)大數(shù)據(jù)對每個企業(yè)來說,在戰(zhàn)略層面上都要充分重視,但是戰(zhàn)略層面的考慮,其實經(jīng)過我們這一段時間的實踐,我想跟大家分享有三個方面需要考慮。首先***點,就是目標必須明確,業(yè)務(wù)充分參與,從戰(zhàn)略層面上企業(yè)建設(shè)工業(yè)大數(shù)據(jù)平臺必須業(yè)務(wù)目標明確,必須有業(yè)務(wù)部門的充分參與,咱們?nèi)豪镂抑朗怯泻芏嗥髽I(yè)的CIO,我認為大家認識到這一點更為重要,在我的職業(yè)生涯中呢,其實我跟很多的企業(yè)的CIO做過交流,有咱們制造業(yè)企業(yè)的,也有銀行運營商的電信運營商的CIO,大家共同的一個認識這么多年,就是一個優(yōu)秀的CIO其實是整個IT部門和業(yè)務(wù)部門的橋梁。這個橋梁至關(guān)重要,對于工業(yè)大數(shù)據(jù)平臺項目的上馬,企業(yè)的CIO更需要戰(zhàn)略視野和協(xié)調(diào)能力,工業(yè)大數(shù)據(jù)項目對企業(yè)來說它不是一個簡單的信息化建設(shè),也不是一個業(yè)務(wù)部門能提出復(fù)雜明確的需求,然后依托一個集成商作為一個交鑰匙的項目,企業(yè)的工業(yè)大數(shù)據(jù)通常與企業(yè)智能化轉(zhuǎn)型、制造轉(zhuǎn)型的大戰(zhàn)略是密切相關(guān)的。
其實大家看看GE就可以知道,GE這些年他在工業(yè)大數(shù)據(jù)在智能化、數(shù)字化、互聯(lián)網(wǎng)化轉(zhuǎn)型方面,做了巨大的投入,很多產(chǎn)品在設(shè)計的時候就已經(jīng)在考慮傳感器和互聯(lián)網(wǎng)化的設(shè)計,而這么大的投入,貫穿全生命周期的投入,必須是在董事會和CEO的層面的決心和支持下才可以實施的。其實大家前一段可以看到,關(guān)于GE有很多新聞,有一條就GE他賣掉了他賺錢的集中服務(wù)部門,但是,他卻堅持在產(chǎn)品智能化和服務(wù)化方面進行投資,在工業(yè)大數(shù)據(jù)的分析和應(yīng)用的領(lǐng)域方面進行投資,這種戰(zhàn)略眼光是非常有前瞻性的。
所以,從Predix成功也可以看到,執(zhí)行的效果也非常好。包括我前一段看到對GE的CEO有個采訪,他也談到了:這個決心對GE是下了很大的決心的,因為整個的投入其實也是很大。但是他們從目前來講他們的轉(zhuǎn)型他感覺是很成功的,其實在國內(nèi)大家也可以看到,在我們身邊隨著一帶一路政策的推出,像江蘇的徐工集團,像三一重工,他們這些先進的裝備制造商也開始紛紛推出自己的智能裝備的產(chǎn)品。并且,開發(fā)基于自己產(chǎn)品的工業(yè)大數(shù)據(jù)、云服務(wù)平臺,進行數(shù)字化、服務(wù)化轉(zhuǎn)型,提供主動性的、預(yù)測性的設(shè)備維護,這也是在公司整體戰(zhàn)略下、指引下實施的。所以,這是我談的***點,目標必須明確,業(yè)務(wù)充分參與。
下面我談?wù)劰I(yè)大數(shù)據(jù)項目的戰(zhàn)略第二點,企事也很重要,就談到架構(gòu)整體考慮應(yīng)用小步快跑,這一點其實我認為也是傳統(tǒng)企業(yè)在實施互聯(lián)網(wǎng)加的這個戰(zhàn)略中的一個通用的戰(zhàn)略。也就是利用互聯(lián)網(wǎng)先進的技術(shù)體系和快速迭代的應(yīng)用方式,來實現(xiàn)大工業(yè)大數(shù)據(jù)平臺的建設(shè)。很多CIO跟我講,他覺得很多工業(yè)大數(shù)據(jù)平臺,動不動投資都很大,規(guī)劃也很大,但是企業(yè)或董事會過項目的時候大家問,到底有什么效益?有什么效果?這樣雞生蛋,蛋生雞的問題其實讓CIO也很難辦。
那我覺得其實具體來講,整個企業(yè)的工業(yè)大數(shù)據(jù)的平臺的建設(shè)要分兩層考慮,***層是大數(shù)據(jù)的平臺架構(gòu),平臺架構(gòu)設(shè)計上確實要充分考慮工業(yè)大數(shù)據(jù)的特點,那么接下來我待會會詳細講進工業(yè)大數(shù)據(jù)的特點是哪些?采用這種開源的技術(shù)整體設(shè)計,第二點就是在設(shè)計整體考慮的時候,平臺之上的大數(shù)據(jù)應(yīng)用更要關(guān)注的是如何快速的將數(shù)據(jù)價值變現(xiàn),其實大家從我剛才講的鋼鐵企業(yè)實力可以看出來,其實在一個企業(yè)里邊,需要用數(shù)據(jù)分析來解決的問題,只要你去找有很多、很多。我們是不是一定要在解決實際問題,一定要想一個大的問題呢?不用,其實把很多具體業(yè)務(wù)問題都可以用數(shù)據(jù)來解決,這就是我談的大數(shù)據(jù)平臺搭建好以后,設(shè)計好以后,我們要看怎么能夠快速將數(shù)據(jù)價值變現(xiàn),這一點至關(guān)重要,然后就需要選擇有業(yè)務(wù)價值業(yè)務(wù)場景,想明白一個做一個,不要圖大,小步快跑,迅速見效產(chǎn)生效果,讓業(yè)務(wù)部門讓決策層真正看到企業(yè)所擁有數(shù)據(jù)的價值。這是我講的第二點就是工業(yè)大數(shù)據(jù)的應(yīng)用不要圖大,不要圖高端,要從解決業(yè)務(wù)的實際問題入手,而且不斷的快速迭代,小步快跑。
第三點,我想談的就是這個第三點的戰(zhàn)略要考慮的一點,就是要數(shù)據(jù)盡早收集,人才系統(tǒng)培養(yǎng),工業(yè)大數(shù)據(jù)系統(tǒng),大數(shù)據(jù)要盡早收集,即便今天的大數(shù)據(jù)平臺還沒有建好,也非常有必要把生產(chǎn)過程中的各種各樣的數(shù)據(jù)存回來,而且全面了、全十以無損的形式存儲起來。2015年GE公司將其***一批發(fā)動機的診斷數(shù)據(jù),從30年前舊系統(tǒng)遷移到了現(xiàn)在的Predix數(shù)據(jù)平臺,也就是說在目前大約有35000臺發(fā)動機會將起飛、巡航的關(guān)鍵飛行階段數(shù)據(jù)包括傳到Predix平臺,其實這些數(shù)據(jù)它的價值,它就像這些有價值的數(shù)據(jù)就像河流一樣,流動的河一樣,如果你沒有加以保留,這些數(shù)據(jù)就會悄然的溜走,它無法形成有價值的數(shù)據(jù)資產(chǎn),目前的技術(shù)其實已經(jīng)給我們提供了很多的選擇,即便暫時沒有架構(gòu),沒有平臺,也完全有辦法把數(shù)據(jù)留下來,而不讓數(shù)據(jù)流失。
我們是因為專業(yè)從事這個領(lǐng)域工作的,我們特別深有很深的體會,數(shù)據(jù)是一切的基礎(chǔ),沒有數(shù)據(jù)再先進的軟件平臺和算法都沒有用武之地,這些數(shù)據(jù)就像待開發(fā)的礦產(chǎn)資源,它現(xiàn)在只是它現(xiàn)在埋在地下你不知道怎么挖掘它價值罷了,在這之前先把這地圈下來,先把數(shù)據(jù)保留下來,如果要開發(fā)工業(yè)大數(shù)據(jù)的價值,企業(yè)還有一點在企業(yè)戰(zhàn)略上要考慮的,一定是要進行人才的培養(yǎng),其實如果我們現(xiàn)在去看歐美企業(yè)的人才構(gòu)成,我們會發(fā)現(xiàn)每個企業(yè)都有大量的數(shù)據(jù)分析員,數(shù)據(jù)分析師,數(shù)據(jù)科學(xué)家。其實這些人才你看歐洲和美國的企業(yè),這些人才不僅僅是在谷歌、Facebook這樣的互聯(lián)網(wǎng)公司,在傳統(tǒng)的制造業(yè)企業(yè)、物流公司、醫(yī)藥公司里都大有人在,我記得上次我跟南鋼的一位領(lǐng)導(dǎo)在交流的時候,領(lǐng)導(dǎo)專門提到南鋼以后要有自己的專業(yè)數(shù)據(jù)分析人才,目前現(xiàn)在南鋼的研發(fā)團隊,主要是以鋼鐵工藝專業(yè)為主。領(lǐng)導(dǎo)認為這種研發(fā)團隊肯定是不夠的,一定要引入大量的統(tǒng)計數(shù)學(xué)分析人才,從數(shù)據(jù)角度發(fā)現(xiàn)問題、解決問題,讓這些數(shù)學(xué)專家和鋼鐵工藝的專家結(jié)合在一起,來解決生產(chǎn)運營中的問題。
從國內(nèi)來看大數(shù)據(jù)分析人才的系統(tǒng)培養(yǎng),其實也剛剛開始,所以我正好利用這機會跟大家大概分享一下,在這塊人才培養(yǎng)一個現(xiàn)狀,據(jù)我了解清華和北大以前主要是在研究生和博士生的培養(yǎng)計劃,培養(yǎng)方向上面,來培養(yǎng)大數(shù)據(jù)的分析人才,而且基本上是從應(yīng)用數(shù)學(xué)專業(yè)衍生的數(shù)據(jù)分析專項。但是在最近兩三年,清華北大已經(jīng)開始建立了大數(shù)據(jù)分析本科專業(yè),上周我們還在跟北京郵電大學(xué)的老師們交流,北京郵電大學(xué)今年也成立了大數(shù)據(jù)中心,從今年9月份的新一批學(xué)生入學(xué)開始招收大數(shù)據(jù)分析的本科生,而且,教委和學(xué)校還給了一個很好的政策。讓北京郵電大學(xué)設(shè)立了一個3+1+3培養(yǎng)計劃,也就是大數(shù)據(jù)分析的專業(yè)的學(xué)生本科念三年,研究生念一年,博士念三年,本碩博連讀,之后得到大數(shù)據(jù)一個分析博士的一個培養(yǎng)計劃,我們今年也在與大學(xué)合作,正在向人保部申請設(shè)立數(shù)據(jù)分析師一個技術(shù)能力認證體系,開展相關(guān)的在職培訓(xùn)。由此可以看出,大數(shù)據(jù)分析應(yīng)用人才的培養(yǎng),是企業(yè)戰(zhàn)略轉(zhuǎn)型一個重要支點,剛才我大概結(jié)合我的工作實踐的理解,對工業(yè)大數(shù)據(jù)的概念,工業(yè)大數(shù)據(jù)項目實施的一些戰(zhàn)略思考,提了一點我的意見,那下面內(nèi)容可能比較技術(shù)一點,我想主要談一談工業(yè)大數(shù)據(jù)的特點,其實工業(yè)大數(shù)據(jù)它之所以叫大數(shù)據(jù),那從大數(shù)據(jù)的思維就是我們說的4V來看,它全都具備,它的數(shù)據(jù)規(guī)模大,處理速度快,數(shù)據(jù)來源和樣式多樣化,數(shù)據(jù)價值密度低,特點非常明顯。
但是為什么我們專門要今天來談工業(yè)大數(shù)據(jù)呢?其實,工業(yè)大數(shù)據(jù)和消費互聯(lián)網(wǎng)上的商業(yè)大數(shù)據(jù)的應(yīng)用的特點還是有很大不同,下面我簡單的介紹一下,這是兩者的研究對象不同,其實大家都知道工業(yè)領(lǐng)域是以物理系統(tǒng)為中心的,我們研究的對象是材料、工藝、設(shè)備、能源、環(huán)境等因素,研究物理動態(tài)過程中的規(guī)律和因果關(guān)系。商業(yè)大數(shù)據(jù)主要是研究人,研究人在互聯(lián)網(wǎng)上的行為,研究人的流程。理解他的行為模式,那這兩者其實有一些是有相融合趨勢的,比如說我們現(xiàn)在都熟悉的消費電子品,消費電子產(chǎn)品,還有我們比如說了解一些智能家居產(chǎn)品,那么用戶在使用的時候,整個大數(shù)據(jù)的運用貫穿產(chǎn)品的設(shè)計研發(fā)生產(chǎn)銷售和服務(wù),整個全生命周期,兩者開始融合,但是對復(fù)雜的工業(yè),比較復(fù)雜的工業(yè),比如說裝備制造,比如說我們非常熟悉的基礎(chǔ)工業(yè),兩者的差別是非常明顯的。
其次兩者的基礎(chǔ)不同,在工業(yè)領(lǐng)域其實首先大家熟悉的是不同行業(yè)存在的這種大量的中觀和微觀基理模型,所謂基理模型就是以工藝原理為基礎(chǔ),是人們經(jīng)過多年對生產(chǎn)過程的深入研究,經(jīng)過大量的在實驗室的實驗,逐漸形成對模型的認識??陀^來講這種機理模型的這種優(yōu)化和突破難度也很大,那工業(yè)數(shù)據(jù)中體現(xiàn)出的規(guī)律呢,其實也常常難以突破現(xiàn)有生產(chǎn)技術(shù)人員的認識范圍,所以才需要通過大數(shù)據(jù)分析的手段,讓大家去找到數(shù)據(jù)中的價值。但與之相比商業(yè)領(lǐng)域中,其實僅僅存在一些宏觀的理念,它可以定性描述人的一些行為偏好,經(jīng)濟活動規(guī)律。
通過一些統(tǒng)計趨勢的一些大數(shù)理論,就可以給他大數(shù)據(jù)分析帶來提升的空間。第三點就是兩者這種技術(shù)帶來驅(qū)動力不同,其實現(xiàn)在工業(yè)大數(shù)據(jù),它受感知技術(shù)受我們了解的物聯(lián)網(wǎng)技術(shù)的發(fā)展,包括我們國家現(xiàn)在提出的5G通信網(wǎng)絡(luò)技術(shù)的發(fā)展,對它都是很大的促進。但商業(yè)大數(shù)據(jù)更多的是互聯(lián)網(wǎng)的發(fā)展,它為企業(yè)帶來與客戶交互的一些新渠道,所以互聯(lián)網(wǎng)的發(fā)展極大的促進了商業(yè)大數(shù)據(jù)的發(fā)展。那么工業(yè)大數(shù)據(jù)其實它大多具有的是一些,具有時空信息的結(jié)構(gòu)化數(shù)據(jù),這也它跟商業(yè)大數(shù)據(jù)區(qū)別很大,商業(yè)大數(shù)據(jù)在互聯(lián)網(wǎng)上很多的是一些非結(jié)構(gòu)化的文本、視頻,那么所以這也是兩者在驅(qū)動力上的不同,***兩者對分析技術(shù)要求也不一樣,其實從這一點大家可以看到,對商業(yè)大數(shù)據(jù)來講,大數(shù)原理、大數(shù)原則,一些相關(guān)性法則,概率性的分析,其實就已經(jīng)可以幫助客戶做很多有針對性的這種運營的提高。
但是對工業(yè)來講還不夠,對分析結(jié)果要求精度非常高,動態(tài)性很強,實質(zhì)性高,很難接受一些概率性的預(yù)測,就好比我剛才給大家講的這個例子,我如果要預(yù)測一個厚板的會不會有殘留應(yīng)力,產(chǎn)生這種質(zhì)量的風(fēng)險?我必須要模型算出來就要告訴客戶有,還是沒有,我不能只給他一個概率。那么,這也是兩者一個很大的區(qū)別,大概講了講工業(yè)大數(shù)據(jù)和商業(yè)大數(shù)據(jù)的區(qū)別,那其實稱作工業(yè)大數(shù)據(jù),那我們在分析的過程中其實我們也經(jīng)常遇到數(shù)據(jù),工業(yè)大數(shù)據(jù)里邊一直有一個小與大的矛盾,那這里我大概跟大家也分享一下,我想這也是我們在工作中的一個獨特的體會,其實工業(yè)大數(shù)據(jù)剛才我們談了大致它一個首要的特征,這一點大家都很理解,因為動不動一個工廠的數(shù)據(jù)采集點,就可以幾千個,甚至到幾萬,幾十萬個,幾百萬個不止長期不停的不間斷的工作,在化工行業(yè)采集頻率有的可能到毫秒級,所以數(shù)據(jù)量非常、非常大。
這些數(shù)據(jù)的如果要對歷史數(shù)據(jù)進行全量分析,那么你知道,其實我們都知道企業(yè)的這種制造業(yè)企業(yè)的,產(chǎn)品壽命周期是比較長的,這些設(shè)備的折舊周期也比較長的,這樣長時間高頻采集的機器數(shù)據(jù)量是非常巨大的。可以達到數(shù)百TB到PB的存儲量,所以,另外其實大數(shù)據(jù)里邊還來自于比如說我們還要再分析的時候,還要集成來自ERP這種新系統(tǒng)的關(guān)系性數(shù)據(jù),設(shè)計研發(fā)時候產(chǎn)品圖紙、工藝文檔、加工代碼這些非結(jié)構(gòu)化數(shù)據(jù),甚至于我們在做比如說產(chǎn)品的全生命周期的分析的時候,還要去結(jié)合一些產(chǎn)品銷售在互聯(lián)網(wǎng)上的一些口碑,非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)這些,所以確實工業(yè)大數(shù)據(jù)一個特征。但是他在分析時候我們經(jīng)常感到,工業(yè)數(shù)據(jù)的不夠用,那我想舉出下面幾點,以后大家在實踐中的時候可以作為參考。
***點,就是對分析有直接意義的樣本比例通常很小。工業(yè)的運行其實是有一個常態(tài)模式的,其實工業(yè)運行的目的是希望是一個不期望干擾因素有很多,他希望他的質(zhì)量穩(wěn)定,希望工業(yè)這種自動化生產(chǎn)比較穩(wěn)定,所以它對不期望干擾因素會進行很多的壓制,造成絕大部分數(shù)據(jù),其實都是在對應(yīng)非常相似的這種環(huán)境與過程。但是你知道我們在做分析的時候,就像我們剛才談的鋼鐵企業(yè)的例子,客戶總是讓我們希望找到有沒有故障?有沒有不良率?有沒有異常行為?這就我剛才談到的其實從數(shù)據(jù)分析的層面來看,這種樣本是非常少的,有的是大量的常量和穩(wěn)態(tài)數(shù)據(jù),也就造成了樣本不平衡性不平衡程度非常高。其實,而且在工業(yè)體系還有一點不同,就是他實驗成本有的會蠻高,能做的實驗其實在做機理模型的時候很多都做到了,但是如果我們專門針對一些故障分析,質(zhì)量的不良,來做試驗的話呢,其實它的實施成本和風(fēng)險都蠻高的,所以我們在做分析的時候,我們常常會發(fā)現(xiàn)工業(yè)大數(shù)據(jù),即使數(shù)據(jù)量很多,也很難提供給我們足夠的異常的情形樣本,這是***點。
第二點,就是談到大數(shù)據(jù)它永遠是物理世界的小樣本。其實我們現(xiàn)在已經(jīng)采集了很多數(shù)據(jù),我們在很多工廠已經(jīng)實施了自動化改造,有的先進的工廠實施了MES,我們已經(jīng)采集了大量的數(shù)據(jù),但是其實這里邊一直有一個備論,備論就是說我們?nèi)绻杉臄?shù)據(jù)越多越好,那我模型用來生成訓(xùn)練模型這個基礎(chǔ)也越來越扎實,但是如果沒有模型沒有分析的結(jié)果,沒有數(shù)據(jù)價值的體現(xiàn),實施安裝大量的傳感器,做大量的智能化改造,其實對企業(yè)是一個巨大的成本,而這個成本其實企業(yè)很難在投入的時候衡量出它到底帶來多大的效果。
那所以這里邊就是我們說的,我們經(jīng)常遇到在實際的項目中,企業(yè)是采了很多數(shù)據(jù),但這個數(shù)據(jù)也很難反映企業(yè)的一個全面的生產(chǎn)現(xiàn)狀,比如說現(xiàn)場采集的生產(chǎn)檢測數(shù)據(jù),僅僅覆蓋了很小的參數(shù)綜合空間,并不是所有關(guān)鍵因素都有測量,而且測量值也不一定反映了參數(shù)系統(tǒng)的全部。在這個時候我們也有我們的辦法,這個時候其實大家群里的朋友們,其實以后在實施工業(yè)大數(shù)據(jù)項目分析的時候,也可以參考我們這個經(jīng)驗,這個時候我們提出我們要利用行業(yè)專家的先進知識,縮小搜索空間、縮小搜索范圍,所以行業(yè)專家我們其實談到的就是業(yè)務(wù)專家、工藝專家,他們有很多他們的經(jīng)驗,包括一些有經(jīng)驗的操作工人,他們對一些的問題有他的一個憑經(jīng)驗的判斷,但是這些判斷是沒有數(shù)據(jù)支撐的。但是他如果給了我們這些判斷,其實對我們來講就可以幫助我們來縮小搜索空間,尋取***代表的樣本及進行模擬訓(xùn)練,發(fā)現(xiàn)其中的問題,那***也可能我們的分析結(jié)果驗證了他們的經(jīng)驗判斷,也可能推翻了他們的經(jīng)驗判斷,但我想這些都是對企業(yè)一個很好的收獲。
第三點就是談到數(shù)據(jù)的這種價值分布,數(shù)據(jù)價值密度分布非常不均衡。就像剛才我談的,其實我們采集上很多數(shù),在工業(yè)系統(tǒng)里面有大量的常量數(shù)據(jù)、大量的穩(wěn)態(tài)數(shù)據(jù),所以我們要在這樣大量數(shù)據(jù)數(shù)據(jù)中去找到它一些差異變化量,但是在工業(yè)數(shù)據(jù)中還有很多基礎(chǔ)信息,比如說這些基礎(chǔ)信息我們談到的比如說圖紙,生產(chǎn)指標,工藝要求,操作規(guī)程,這些基礎(chǔ)信息可能保留在企業(yè)的一些慣性數(shù)據(jù)庫里邊,這些基礎(chǔ)信息可能數(shù)據(jù)量本身不大,但它的數(shù)據(jù)價值非常高。那么我們在做大數(shù)據(jù)分析模型樣本的時候,我們在建分析的寬表的時候,怎么把這些基礎(chǔ)信息和這種價值密度低的信息做匹配,這也是一個挑戰(zhàn)!
剛才大概講了三點,就是我談到工業(yè)大數(shù)據(jù),大家老說很大,但在小和大之間其實是有一個矛盾統(tǒng)一的,那么正是因為這個工業(yè)大數(shù)據(jù)有這些特點,那我們想我們在往下做的時候,工業(yè)大數(shù)據(jù)對工業(yè)領(lǐng)域的支持,對企業(yè)的幫助,它應(yīng)用渠道有哪些?
我想主要可能有三點,***個,三個渠道,***個渠道就是工業(yè)大數(shù)據(jù)能夠幫助我們,把生產(chǎn)過程中的物理過程、和我們的業(yè)務(wù)運營的過程融合,其實有些MES系統(tǒng),也能達到這樣的效果。MES系統(tǒng),但是MES系統(tǒng)更關(guān)注在企業(yè)的生產(chǎn)流程,更關(guān)注的是把企業(yè)的流程的這種規(guī)范統(tǒng)一,那我們在數(shù)據(jù)分析上就完全不受生產(chǎn)流程的限制,我可以拿來各種數(shù)據(jù)放在一起來比對分析,只要在模型建立的時候,但是我們建立模型時候其實要考慮將物理量,和經(jīng)營過程量,比如這里邊的說產(chǎn)品質(zhì)量、生產(chǎn)效率、設(shè)備可靠性關(guān)系量化。
第二,就是其實我們談到數(shù)據(jù)分析關(guān)注的應(yīng)該是知識的自動化,而不是知識的發(fā)現(xiàn)。其實我們采集了大量的數(shù)據(jù)以后,我們要將業(yè)務(wù)領(lǐng)域的知識進行系統(tǒng),通過大數(shù)據(jù)分析進行檢索和更新優(yōu)化,對于相對明確的專家知識,比如說我們說的熟練工人的經(jīng)驗,工藝專家的經(jīng)驗,借助大數(shù)據(jù)建模工具提供的這種時空模式描述,識別技術(shù),進行這種形式化的建模。就是以后用這種模型,在數(shù)據(jù)中進行持續(xù)的掃描和報警,把工人和專家的經(jīng)驗?zāi)P突瑢崿F(xiàn)這種知識領(lǐng)域的自動化。
第三,就是軟測量。在工業(yè)應(yīng)用中其實我們知道,很多測量不同過程量檢測的技術(shù)可行性,精度,頻度,成本差別都特別大。就像我們在做質(zhì)量檢測時候也發(fā)現(xiàn),其實如果我所有的產(chǎn)品都做全檢成本是很高的,實際當(dāng)我們有了一些數(shù)據(jù)情況下,我們其實可以通過大數(shù)據(jù)分析,建立我們不好測量的這些物理量,和好測量物理量之間的一些關(guān)聯(lián)關(guān)系模型,通過容易測的過程量去推斷難測的過程量,提升生產(chǎn)過程的整體的可觀可控。
以上我就跟大家簡單的介紹了一下我們在通過這一段時間的工作,對工業(yè)大數(shù)據(jù)的概念、戰(zhàn)略,它的數(shù)據(jù)特點一些理解,那下面我談另外一個話題,就是工業(yè)大數(shù)據(jù)的商業(yè)價值實現(xiàn)的路徑。大數(shù)據(jù)其實是制造業(yè)實現(xiàn)從要素驅(qū)動向創(chuàng)新驅(qū)動轉(zhuǎn)型一個有利手段,其實我們國家最近一直在談供給冊改革,說明從宏觀形式上我們要改變國家這種投資拉動,出口拉動的一個需求冊驅(qū)動的經(jīng)濟模式,轉(zhuǎn)向供給冊結(jié)構(gòu)調(diào)整驅(qū)動模式,我想大家在聽經(jīng)信委的領(lǐng)導(dǎo),聽協(xié)會的領(lǐng)導(dǎo)在跟大家介紹的時候都講過很多,那我們其實也是跟也是有親身的體會跟客戶在做溝通的時候,我們對制造業(yè)而言,在宏觀需求皮軟的大環(huán)境下,如何通供給端的創(chuàng)新實現(xiàn)轉(zhuǎn)型至關(guān)重要。其實,說句嚴重點的話,現(xiàn)在的創(chuàng)新轉(zhuǎn)型,可能無法保證這個企業(yè)像以前一樣活的有滋有味,但是可以保證企業(yè)在經(jīng)濟下行的環(huán)境中活下來。
為什么我們江蘇一直在推動兩化融合,推動智能工廠,智能車間的改造,都是這個目的。作為企業(yè)的CEO,CIO,我們更要清醒的認識,兩化融合是手段,目的是要推動企業(yè)創(chuàng)新,保證企業(yè)活下來活的好。那么我認為通過利用工業(yè)大數(shù)據(jù)企業(yè)可以在四個層面進行創(chuàng)新,大家可以看看這張圖,最下面一層其實是業(yè)務(wù)模式創(chuàng)新,具體來講其實就是要很多企業(yè)要基于互聯(lián)網(wǎng)的特點,開發(fā)出適用于互聯(lián)網(wǎng)的產(chǎn)品,智能產(chǎn)品,打破傳統(tǒng)營銷市場中的一些時空限制,開發(fā)智能聯(lián)網(wǎng)新產(chǎn)品,衍生新的智能服務(wù)。
其實我們可以看到比如說像格力,現(xiàn)在他們空調(diào)可以聯(lián)網(wǎng),比如像小米他的PM2.5的設(shè)備也可以聯(lián)網(wǎng),比如我們看像普惠發(fā)動機,像GE、像三一重工,他們的設(shè)備本身交到客戶的時候,就具備了聯(lián)網(wǎng)的功能。包括我們比如看到特斯拉,它是一個汽車呢,還是一個大的電腦呢?還是一個大的蓄電池呢?其實大家從各個角度都可以評價它,現(xiàn)在很多互聯(lián)網(wǎng)技術(shù)的發(fā)展,讓很多的產(chǎn)品本身有了很多新的定義,智能產(chǎn)品聯(lián)網(wǎng)產(chǎn)品的研發(fā),對企業(yè)來講是最直接的,而且也是我認為是目前來講創(chuàng)新需求***最廣泛一個領(lǐng)域。
工業(yè)大數(shù)據(jù)的商業(yè)價值在這個層面我覺得可以體現(xiàn)在,營銷一體化,精準營銷,設(shè)備的在線健康檢測,主動預(yù)警維護這些服務(wù)模型中。上面一層是生產(chǎn)模式的創(chuàng)新,這一層也是我們熟悉的智能工廠、智能車間所涉及的方面,通過數(shù)控機床、工業(yè)機器人的使用, MES、能管系統(tǒng)的建設(shè),建立這種生產(chǎn)過程的工業(yè)數(shù)據(jù)、設(shè)備在線數(shù)據(jù)監(jiān)測這樣的一些改造。那在這個過程中其實大數(shù)據(jù)的應(yīng)用我是覺得一定要和行業(yè)的先沿知識緊密結(jié)合,各個行業(yè)都會涌現(xiàn)出本行業(yè)的大數(shù)據(jù)應(yīng)用創(chuàng)新的代表企業(yè)。
剛才跟大家介紹的鋼鐵企業(yè)的殘留應(yīng)力、質(zhì)量投訴,殘留應(yīng)力引起變形質(zhì)量投訴這種預(yù)警模型的,可以說是在這個層面的一個大數(shù)據(jù)體系應(yīng)用,再往上一層是這種運營模式創(chuàng)新,這一層其實很多企業(yè)已經(jīng)開展了很多信息化建設(shè),它與企業(yè)的運營流程的創(chuàng)新是緊密相關(guān)的。在原有企業(yè)原有的ERP系統(tǒng),CRM系統(tǒng),物流系統(tǒng),PRM系統(tǒng)的基礎(chǔ)上,實現(xiàn)數(shù)據(jù)的全打通,提升企業(yè)整體運營效率,實現(xiàn)精益管理。
這一層以我的觀點來看,其實有很多是以傳統(tǒng)的BI的應(yīng)用為主,因為客戶是從運營的流程的優(yōu)化,運營的角度來看,大數(shù)據(jù)的價值體現(xiàn),我認為主要體現(xiàn)在兩個方面,***個是以經(jīng)營系統(tǒng)的問題為核心,引入剛才下一層的生產(chǎn)設(shè)備工化和運行作為補充的分析數(shù)據(jù)員,入這些分析,設(shè)備策展、設(shè)備工礦和運行數(shù)據(jù)的這種補充的這種分析數(shù)據(jù)員,突破以前的這種精益管理、精益生產(chǎn)的這種,只關(guān)注管理流程的局限。
第二,引入外部大數(shù)據(jù)。我們比如說就是企業(yè)采用中包中治的手段,進行產(chǎn)品研發(fā),突破企業(yè)原來過于關(guān)注企業(yè)內(nèi)部生產(chǎn)要素局限,那我想在這一層其實也有很多企業(yè)做出了,在工業(yè)大數(shù)據(jù)中做了很多新的一些嘗試。最上一層是這種決策模式的創(chuàng)新,其實決策模式在德國工業(yè)4.0的十大挑戰(zhàn)和機遇中,他特別強調(diào)整個公司轉(zhuǎn)型,必須成為CEO工作每一部分,整合的數(shù)據(jù)使用與分析,是工業(yè)互聯(lián)網(wǎng)一個核心能力。依靠數(shù)據(jù)進行決策應(yīng)該成為企業(yè)的常態(tài),依靠數(shù)據(jù)進行決策不應(yīng)該僅僅停留在戰(zhàn)略層面的決策,也包括每個具體工作、具體事物方面的決策,未來的高速運轉(zhuǎn)的企業(yè)呢,將會為每一個關(guān)鍵決策,都會定義一個數(shù)據(jù)分析模型,依據(jù)模型結(jié)果為決策提供支撐,甚至是可以做出自動的決策。所以實現(xiàn)決策創(chuàng)新的關(guān)鍵,我認為是在決策層面,引入積極學(xué)習(xí)和人工智能技術(shù),推動決策效果和效率的提升,實現(xiàn)三維價值。
我剛才大概介紹了一下我對這種商業(yè)價值實現(xiàn)路徑的,工業(yè)大數(shù)據(jù)創(chuàng)業(yè)價值實現(xiàn)路徑一個理解,接下來我想談?wù)勎医裉煅葜v題目中另外一個話題,下一個話題叫:抓住人工智能的浪潮實現(xiàn)制造業(yè)轉(zhuǎn)型,那這里指的主要的我認為是在工業(yè)決策創(chuàng)新領(lǐng)域人工智能技術(shù)的運用,談到的這人工智能技術(shù),可能并不涉及人工智能應(yīng)用的其他領(lǐng)域,因為,人工智能是很廣的,其他領(lǐng)域比如說大家熟悉的一些機器視覺、人臉識別、語音識別,這些仿生學(xué)技術(shù)的領(lǐng)域今天可能我不太涉及,如果大家看過凱文凱利的《失控》那本書,一定會記得其中有一個例子,這個例子給我的印象是非常深刻的,今天在這里跟大家也分享一下,書中寫在2002年,那個時候凱文凱利參加了谷歌一個小型聚會,那是谷歌還沒有IPO,還在一心一意的做網(wǎng)絡(luò)搜索。凱文凱利和谷歌的創(chuàng)始人拉里.佩奇隨意聊了起來,當(dāng)時凱文凱利問佩奇說,前面有雅虎搜索,硅谷還有很多搜索公司,谷歌為什么你們還要做免費的搜索呀?
其實當(dāng)時看到這一點的時候我的想法我相信跟很多人一樣,其實這個問題我當(dāng)時給出了答案,我自己想那這是谷歌的業(yè)務(wù)模式,它***免費搜索來聚集人氣,然后通過什么DSP,這些廣告拍賣的方式獲取收益。AlphaGo是一個典型的人工智能應(yīng)用,有人認為它的運作方式是靠記下人類歷史上的全部的棋譜定勢,其實這理解不對的AlphaGo它不是這樣做的,它首先經(jīng)過長期復(fù)雜訓(xùn)練,訓(xùn)練來自于人機對決和自我對決,有大量的數(shù)據(jù)對他進行訓(xùn)練。然后采用深度神經(jīng)網(wǎng)絡(luò)和蒙特卡洛樹的搜索數(shù)算法,不斷提高人工智能計算能力,而且在實戰(zhàn)中,它更是把實際下每一步棋都作為輸入條件,進入它的模型算法中繼續(xù)進行迭代。
評估整體盤面的優(yōu)略,并計算圍棋盤上每一個位置落子概率,最終確定落子在哪個位置?***有上百臺服務(wù)器在云端為AlphaGo提供計算資源,AlphaGo也僅能計算出未來的三步棋,其實把AlphaGo的訓(xùn)練和應(yīng)用模式應(yīng)用到工業(yè)領(lǐng)域中,是非常有實際意義的。我有時來個對比,我也不知道是不是恰當(dāng),但是我是這么理解的,就拿AlphaGo,原來我們以為人機對戰(zhàn)就像我們很多現(xiàn)在手機上的下棋游戲的這個算法一樣,其實它就是被棋蠱被定勢,這種方式放在工業(yè)上,好比就理解是工業(yè)領(lǐng)域的機理模型的方式。也就是基于工藝的限制,通過試驗各種可能性,根據(jù)實際生產(chǎn)的特定條件來求出自由解,這種方法其實跟剛才我說的被定勢的方法一樣的,但是目前我們給企業(yè)推薦工業(yè)大數(shù)據(jù)應(yīng)用,是要用數(shù)據(jù)分析模型的方法,就是用工業(yè)生產(chǎn)中實際產(chǎn)生的生產(chǎn)運營中的大量數(shù)據(jù),結(jié)合各種聚類分類算法,訓(xùn)練企業(yè)自有的人工智能系統(tǒng)。最近在智能制造領(lǐng)域,其實聽的最多就是工業(yè)機器人,工業(yè)機器人確實可以幫助企業(yè)實現(xiàn)人類成本大幅降低,所以很多企業(yè)我看跟很多制造業(yè)企業(yè)聊天,他們特別認可在工業(yè)機器人領(lǐng)域的投資,因為可以替代人嘛,現(xiàn)在人工成本增長太快,那么他們在這個領(lǐng)域投資,遠遠超過企業(yè)對工業(yè)大數(shù)據(jù)平臺和分析模型投資的愿望。
其實我認為這是一個誤區(qū),目前的工業(yè)機器人更多是在仿生學(xué)進行突破,目前的機器人還遠沒有人工智能,而且我認為不經(jīng)過長時間的數(shù)據(jù)訓(xùn)練也不會實現(xiàn)人類智能。開句玩笑話,現(xiàn)在機器人的人工智能思維能力,也許還介于猩猩和人之間,這種工業(yè)機器人我認為仍然只能被認為是一種智能設(shè)備,像數(shù)字機床一樣。在相當(dāng)長的時間內(nèi)人都是不可替代的,人機的高效交互協(xié)作,應(yīng)該是未來智能工廠的典型場景,而且我覺得也應(yīng)該不是未來了,應(yīng)該很快的出現(xiàn)在各位的企業(yè)里邊,工廠里邊,只不過傳統(tǒng)的工作場景都是由工人,有經(jīng)驗的操作工人,憑借經(jīng)驗、憑借工藝單,去操縱一個一個獨立的設(shè)備,但是,一個智能工廠里邊的具有人工智能一個智能工廠工作場景,應(yīng)該是人和設(shè)備,成為智能工廠里面平等的二元,他兩是平等的。人和設(shè)備都要接受后臺的人工智能系統(tǒng)給出的決策和控制指令,進行高度協(xié)作。
所以,企業(yè)應(yīng)該認識到,建設(shè)人工智能系統(tǒng)是整個企業(yè)進行決策創(chuàng)新的重要戰(zhàn)略。具體實施上我們還是建議采用架構(gòu)整體設(shè)計,大膽小步快走的方法,針對每一個問題實現(xiàn)局部,首先實現(xiàn)局部的人工智能,最終積少成多,構(gòu)建強壯穩(wěn)定的人工智能系統(tǒng),使數(shù)字化企業(yè)有一個強大的大腦,這很像人類從小長大學(xué)習(xí)知識逐漸成長過程。局部的人工智能技術(shù)的開發(fā),我們認為必須要經(jīng)過數(shù)據(jù)采集、數(shù)據(jù)建模、機器學(xué)習(xí)、多次反復(fù)迭代,最終實現(xiàn)人工智能這樣一個過程。
所以,我認為在人工智能在智能制造領(lǐng)域的實現(xiàn),應(yīng)該以工業(yè)大數(shù)據(jù)的理解和應(yīng)用為主線。我相信可能群里邊有些朋友,對我這個看法可能會不完全同意,有自己的看法,但是我這是我自己的理解,我認為應(yīng)該以工業(yè)大數(shù)據(jù)的理解和應(yīng)用為主線,我國制造業(yè)企業(yè)在這方面的人才儲備,數(shù)據(jù)儲備,模型儲備,投資規(guī)模都還處于起步的階段。首先我們企業(yè)的業(yè)務(wù)人員,工業(yè)專家不了解數(shù)據(jù)分析的方法算法,他們對數(shù)據(jù)的使用還停留在報表階段、可試化階段。
第二,缺少專業(yè)的數(shù)據(jù)分析人才。缺少專業(yè)的數(shù)據(jù)分析人才,而工業(yè)大數(shù)據(jù)如果不經(jīng)過科學(xué)的數(shù)據(jù)挖掘計量實施方法處理,你是很難看到其中的價值。
第三,缺少與行業(yè)業(yè)務(wù)結(jié)合緊密的數(shù)據(jù)分析模型資源庫。現(xiàn)在大家談大數(shù)據(jù)談的都是Hadoop,Spark這些IT技術(shù),說模型算法說的都是各種回歸,各種決策數(shù)據(jù)算法,其實企業(yè)不知道這些技術(shù)如何與企業(yè)的業(yè)務(wù)結(jié)合,解決實際問題。這是為了解決上述人工智能技術(shù),在智能制造領(lǐng)域?qū)嶋H應(yīng)用的難題,我們在這個領(lǐng)域進行了專注的產(chǎn)品研發(fā),那我想也快9點了,我再花幾分鐘時間吧,簡單介紹一下我們公司的,我們的公司產(chǎn)品和解決方案。
我們公司的名字叫北京水木聯(lián)合科技有限公司,英文是TangMIX,“Tang”我們起唐朝的唐,有中國特色,而且我們的產(chǎn)品也都是全都自主研發(fā)的,我們目前有幾個核心產(chǎn)品,一個是我們專門為工業(yè)大數(shù)據(jù)優(yōu)化的一個大數(shù)據(jù)分析平臺,叫“數(shù)笈云”,我們給大家發(fā)一下我們界面,“數(shù)笈云”集成了我們專門為工業(yè)數(shù)據(jù)采集開發(fā)的一個數(shù)據(jù)適配器,它完成多種工業(yè)協(xié)議與“數(shù)笈云”直接的協(xié)議和接口轉(zhuǎn)換。
數(shù)據(jù)到了“數(shù)笈云”之后,我們提供一系列的認證、加密、安全、分布式計算、數(shù)據(jù)預(yù)處理功能。這層其實我們有一個核心技術(shù),我們這個核心技術(shù)就是對物理系統(tǒng)的一個抽象規(guī)范,無論你是哪個品牌、哪個型號的設(shè)備,在進入“數(shù)笈云”的時候,我們已經(jīng)利用我們的抽象規(guī)范,或者IT的語言,叫語音命名規(guī)范,對物理系統(tǒng)進行了抽象,這樣就可以方便進行一下步,數(shù)學(xué)模型的通用調(diào)用。這一步非常重要,因為工業(yè)領(lǐng)域和互聯(lián)網(wǎng)的一個重要差別,我覺得就是封閉,工業(yè)領(lǐng)域的大廠家各有各的規(guī)矩,大家互不,互不相通,如果要相通可能就通過OPC連一連,但實現(xiàn)工業(yè)互聯(lián)網(wǎng)的***步,就是要在數(shù)據(jù)準備階段,打破物理系統(tǒng)的封閉。
這一步在技術(shù)上我們是用標簽庫實現(xiàn)的,目前“數(shù)笈云”中的物理系統(tǒng)抽象規(guī)范,是我們自己和行業(yè)專家在定義。我們準備在將來把這部分開源出來。
第二個產(chǎn)品是人工智能引擎叫功夫云。這一部分抽象規(guī)范目前是我們自己在和行業(yè)專家在定義,我們準備將來把這部分開源出來,提供給大家不斷補充,形成共同的標準,這樣每個行業(yè)都有這種物理系統(tǒng)的定義,比如說,一個鍋爐有哪些參數(shù)?我們該怎么定義它?一個典型的通用設(shè)備,一個變頻風(fēng)機,該用哪些參數(shù)去來定義一個風(fēng)機?
可能大家的叫法,不同的控制系統(tǒng),不同的設(shè)備型號,大家叫法不一樣,但是在“數(shù)笈云”上,我們用標簽的方式,我們有建立一個大家共同認可統(tǒng)一的一個抽象規(guī)范,這樣我們的模型就可以直接去調(diào)用。這個產(chǎn)品的用戶可以是企業(yè)的業(yè)務(wù)人員,工藝專家,也可以是專業(yè)的數(shù)據(jù)分析人員,功夫云這個產(chǎn)品它的設(shè)計研發(fā)是依據(jù)我們的大數(shù)據(jù)挖掘計量模型實施方法論進行設(shè)計研發(fā)的,這個方法論分為六步,我給大家看一看這個圖,這六步從數(shù)據(jù)的準備和差異分析,模型規(guī)范要求,探索性數(shù)據(jù)分析,模型細分,確立最終模型,最終到模型驗證生成,因為今天時間有限,我在這里就不展開了,大家有問題可以微信私信我,或者給我打電話,我給大家詳細講解。
我們現(xiàn)在正在不斷提高這個方法論在功夫云中的自動迭代的效率,它背后采用的機器學(xué)習(xí)的算法,可以幫助客戶迅速完成數(shù)據(jù)的準備,算法的選擇,和模型的生成,很多的工作是自動形成,自動實現(xiàn)的,其實這也是跟很多的一些做數(shù)據(jù)分析咨詢的一些企業(yè)差別,在那個我們把很多的重復(fù)性的,初級的數(shù)據(jù)準備的活動,比如像我剛才談到常量的排篩查,數(shù)據(jù)的前空值的補充,數(shù)據(jù)的統(tǒng)計分布特征的選擇,針對什么樣的分布的特征數(shù)據(jù)采用什么樣的算法?
我們都已經(jīng)做自動化的實現(xiàn)了,但這里邊也離不開業(yè)務(wù)專家我們在業(yè)務(wù)上一些理解,我們把很多的數(shù)據(jù)能夠最快的速度形成寬表,然后數(shù)據(jù)科學(xué)家來做***的模型的調(diào)試,一旦模型生成在功夫云上你可以將模型用刀客技術(shù)封裝成一個工業(yè)APP,這個APP干嘛用呢?它可以在線對模型所有的自變量的實時數(shù)據(jù),進行實時監(jiān)測和計算,輸出預(yù)測結(jié)果。那么依托這兩個核心產(chǎn)品,我們開發(fā)了預(yù)測性質(zhì)量管理,安全風(fēng)險預(yù)警,設(shè)備預(yù)測性維護,精準營銷一體化四個解決方案。
這就是我們大概我們的產(chǎn)品的一個解決方案情況,下邊我用***的用結(jié)束前一點時間,我給大家分享一下我們在建筑陶瓷行業(yè)一個案例。企業(yè)是佛山一個建筑陶瓷企業(yè),是國內(nèi)一個知名品牌,我們和他們一起拿了一條窯,做一個工業(yè)大數(shù)據(jù)分析應(yīng)用的示范項目,這個項目的目標是進行瓷磚生產(chǎn)過程中變形品的副品率的預(yù)測,因為我看好像大家有提問,那我這樣我先講完,然后咱們一起來解答。
這個項目的目標是進行瓷磚生產(chǎn)過程中變形品副品率的預(yù)測,結(jié)合生產(chǎn)過程數(shù)據(jù),建立瓷磚變形品副品率的一個預(yù)測模型,同時分析生產(chǎn)過程中設(shè)備數(shù)據(jù)對副品率的影響,客戶目前的變形品副品率是在10%到30%之間波動,尤其而且在新產(chǎn)品生產(chǎn)的時候,副品率的波動會更大,但是企業(yè)通過傳統(tǒng)的工藝調(diào)整,也幾乎沒有什么更好的辦法去穩(wěn)定他的副品率。那通過業(yè)務(wù)的考察,業(yè)務(wù)的理解和考察數(shù)據(jù),我們定義數(shù)據(jù)模型輸出的一個結(jié)果,就是我們說的目標變量,預(yù)測每天每個產(chǎn)品生產(chǎn)批次的變形副品率,這是目標變量,那自變量來自于什么?
來自于陶器壓機,干燥爐、燒制爐工序的一些生產(chǎn)數(shù)據(jù),那這里邊包括了,這里邊包括了壓機工礦的參數(shù),風(fēng)機頻率、電流、電表的功率因數(shù),熱電溫度值,這樣近千個采集點,采集頻率是秒計。另外還有一些自變量是企業(yè)一些質(zhì)量檢驗數(shù)據(jù),工藝要求和訂單數(shù)據(jù),企業(yè)為這個項目前面做了一些前期數(shù)據(jù)采集的一些前期改造,后來等我們拿到數(shù)據(jù)采集到數(shù)據(jù)運營以后,我們發(fā)現(xiàn)其實這個項目我們發(fā)現(xiàn)有這樣兩個主要的挑戰(zhàn)。
一是由于質(zhì)量數(shù)據(jù),按照生產(chǎn)批次進行每小時抽檢,所以質(zhì)量數(shù)據(jù)的數(shù)據(jù)量,遠遠小于設(shè)備數(shù)據(jù),數(shù)據(jù)很不平衡。我想這個我剛才在介紹工業(yè)大數(shù)據(jù)的一個特點的時候,大于小的矛盾統(tǒng)一的時候,其實反反復(fù)復(fù)提到,那我想各位以后在做工業(yè)大數(shù)據(jù)分析項目的時候,這個一定要注意到這一點。
第二,就是設(shè)備中的記錄的設(shè)備參數(shù)多達500多個,那么這些數(shù)據(jù)進行聚合后,它的變量更多。需要從海量設(shè)備參數(shù)中選取變形副品率相關(guān)的設(shè)備參數(shù),我們在功夫云上實施了這個項目,最終我們是采用了拉鎖算法,和邏輯回歸算法,在近千個自變量中,找到了20幾個左右的獨立變量,建立了這些變量與變形副品率的預(yù)測模型,預(yù)測結(jié)果與實際值的均方跟差小于0.08??蛻暨€是能接受的比較滿意,同時我們通過跟客戶業(yè)務(wù)人員溝通,在這20多個獨立變量中,我們確定了11個變量作為關(guān)鍵變量。
那這個關(guān)鍵變量然后我們根據(jù)數(shù)據(jù)分布,按照期望的副品率界定了這些變量的一個正常范圍,也就是說一旦這個模型在線使用的時候,一旦實時采界值超過這個范圍,監(jiān)測模型就會報警,就會提示變形副品率有突破目標值的風(fēng)險。
這是我們給客戶做的這個就是模型生成以后,然后模型工業(yè)APP,在線來使用的時候一個界面,大家可以看到下邊儀表盤就是我們確定一個11關(guān)鍵變量,那么這11個關(guān)鍵變量,我們會為它設(shè)定了界定值,那么,這個界定值的依據(jù),是由企業(yè)希望達到的變形品的副品率的控制要求來提出的。那客戶也還是比較滿意,這個項目得到了客戶的認可,目前正在進行二期的實施,我想今天很榮幸有機會在咱們協(xié)會總?cè)豪?,給大家介紹了,給大家匯報了我們對于工業(yè)大數(shù)據(jù),很人工智能技術(shù),在智能制造領(lǐng)域的應(yīng)用體會,謝謝。