學霸君首席科學家陳銳鋒:借力技術(shù)削減知識孤島,實現(xiàn)教學增效
原創(chuàng)【51CTO.com原創(chuàng)稿件】學習壓力大、教育資源分配失衡的中國教育,衍生出數(shù)萬在線教育類應(yīng)用。隨著應(yīng)用數(shù)量的遞增,教育內(nèi)容和方式在總量上也水漲船高,但其中免費應(yīng)用占比多,因缺乏內(nèi)容支撐導(dǎo)致同質(zhì)化的問題越來越嚴重。學霸君首席科學家陳銳鋒在專訪中表示,公司定位在成立之初就很明確,教師和學生是最重要的合作伙伴,學霸君不會替代老師,只會借力 ABCD 對抗知識孤島,實現(xiàn) EEE。
那 ABCD 是什么?EEE 又是什么呢?陳銳鋒把學霸君的技術(shù)面歸納為ABCDEEE:
- A=AI。
- B=Big Data。
- C=Cloud。
- D= Delivery。
- EEE=Educational Efficiency Enhancement。
這些因素是為了增強教學效率,并沒有直接 Education。也就是說,ABCD 不論如何開拓,都不能替代教育過程中教師這個環(huán)節(jié),從開發(fā)拍照搜題軟件,到線上一對一輔導(dǎo),再到智慧教育平臺,學霸君做的一切都是圍繞這個觀點進行。
打通知識痛點,把知識輔導(dǎo)變成知識圖譜結(jié)構(gòu)
學霸君一系列產(chǎn)品的核心目的是打通知識痛點,把知識輔導(dǎo)變成知識圖譜結(jié)構(gòu),供老師和學生教學使用。想要實現(xiàn)這個目的,就要觀測學生所看的各種數(shù)據(jù),如書籍、試卷等。這些數(shù)據(jù)都是成框架體系的,但很多學生并不知情或不關(guān)注,只是無奈陷入題海圍攻。框架體系就像人的神經(jīng)網(wǎng)絡(luò),可以串起每一塊肌肉,每一塊骨頭的運動?;蛟S有人會說,書的大綱不就是框架體系嗎。其實不然,還有更深層次的大綱并沒有體現(xiàn)。
在學習過程中,框架的價值是非常重要的,如果理不清整個思路,隨機游走的效率非常低,就像在沙漠中找綠洲,沒有 GPS,成功尋到的機會非常渺茫。
如何構(gòu)建這個框架呢?這就要靠人工智能、大數(shù)據(jù)收集分析、云計算服務(wù)和針對性內(nèi)容推送,也就是前面提到的 ABCD!
大規(guī)模收集行為、知識等學習數(shù)據(jù)
2013 年,學霸君在思考采用什么方式,才能洞悉學生學什么,不懂什么?無論選擇何種方式,數(shù)據(jù)都是基石,所以首先要做的事情是大規(guī)模收集數(shù)據(jù)。
閱卷系統(tǒng)是傳統(tǒng)收集數(shù)據(jù)的方式,但存在邊界限制,不僅難覆蓋全國范圍的學生、推廣成本也很高,學霸君是通過拍照答疑場景來獲取數(shù)據(jù)的。
具體實現(xiàn)是團隊采用拍照上傳的方式,讓每個用戶主動地告知后臺服務(wù)器自己什么地方不懂,每一個圖片的上傳,代表了用戶的一個能力缺失點。同時,文字識別技術(shù)的采用,將圖片轉(zhuǎn)化成為可關(guān)聯(lián)分析的重要內(nèi)容。
第二步,在識別的基礎(chǔ)上,系統(tǒng)采用自然語言處理技術(shù)對識別后的結(jié)果進行分析和加工,將原始的識別文本打上相應(yīng)的知識點標簽,這就使數(shù)據(jù)能關(guān)聯(lián)到同一個知識點下的考題,實現(xiàn)初步的推薦。
第三步,知識點標簽大規(guī)模形成之后,教研老師們結(jié)合數(shù)據(jù)挖掘的支撐,將離散的題目梳理、聚合成關(guān)聯(lián)的結(jié)構(gòu),并抽取出知識圖譜。
經(jīng)歷了這幾個步驟,目前數(shù)據(jù)加工團隊已形成了結(jié)合識別、自動標簽和關(guān)聯(lián)分析的處理流程。
中國還有一個非常特殊的數(shù)據(jù)產(chǎn)生機制,那就是考試。考試環(huán)境帶來了世界上其他國家都沒有的高量級數(shù)據(jù),即海量題庫。
題庫內(nèi)除客觀題,還有大量的主觀題,而且每道題都有相應(yīng)的答案。這些題目是由眾多中國老師做好標注的數(shù)據(jù),每個答案是這道題的數(shù)據(jù)標記。
這個海量題庫使得我國在教育領(lǐng)域的智能分析有可能形成區(qū)別歐美國家的特色技術(shù),因為它還被中國上億的學生應(yīng)用,行為也關(guān)聯(lián)在其中。
除了上述行為數(shù)據(jù)、知識數(shù)據(jù)之外,還有一些社會數(shù)據(jù)。比如說學生跟家長的關(guān)聯(lián),家長跟老師的關(guān)聯(lián),老師跟學生的關(guān)聯(lián)等等。
針對海量數(shù)據(jù)進行智能分析
我們對行為、知識的數(shù)據(jù)進行量化,為每個知識點配置相應(yīng)的權(quán)重、難度和考試頻次,為人工智能要做的事情做積累。
分析出高頻題目,重點學習
假設(shè)構(gòu)建一個有幾千知識點的知識樹,通過分析,就可從中判斷出近百個高頻知識點。學生只需要覆蓋到最高頻的題目,就可以獲得相對較好的成績,考上一所不錯的大學,同時又對重要的知識有一個更強的認知。
具體實現(xiàn)可通過大數(shù)據(jù)平臺,對題庫中的題目進行題目畫像,分析出相應(yīng)知識點和難度。再結(jié)合學生的行為對學生進行用戶畫像。
最后對題目和學生進行關(guān)聯(lián)分析,不僅能夠提取出歷年高考的高頻考點,還能針對每一個學生提供個性化的學習方案。
那么反過來說,是不是一定要刷海量題庫?答案是不一定的。之所以去盲目的刷海量題庫,是因為不知道哪些是重點。
當知道內(nèi)容重點的情況下,學生只需要刷 50%,甚至 40% 的基本題,就可以獲得好的分數(shù),且知識框架更為牢固。所以說,在不需要題海戰(zhàn)術(shù)的情況下,學生就可以更大的產(chǎn)能去覆蓋更好的空間。
搭建圖譜化題庫,實現(xiàn)精準知識搜取
梳理數(shù)據(jù),利用深度學習、機器學習等技術(shù)手段搭建題庫,再針對數(shù)學、化學、物理、生物這些主要學科搭建知識圖譜,能夠有效的組織 k12 領(lǐng)域(幼兒園到高中階段)的各種知識的結(jié)構(gòu)化。
有了這個特殊的題庫,當學生在搜索某個知識點時,雖然行為看起來很微觀,但實際打開之后,是更宏觀的世界,如下圖:
宏觀的世界就像是地圖,把每棟樓比作一道題,重新深入學習,把知識點較近的題目聚攏到一起,偏離較遠的排斥開,映射成一張類似于地圖的結(jié)構(gòu)。這樣做有什么好處呢?陳銳鋒把學習過程類比成騎摩拜單車,騎過路線等同于做作業(yè)、考試學習的內(nèi)容。當學生做某一道題,拍過或者閱讀過某道題,就會把位置記錄下來,就像摩拜記錄在某個地方取車還車一樣。
同時還可以記錄學生對錯的數(shù)據(jù),基于錯題分析,進行個人畫像,如下圖:
當對一個學生有一定的數(shù)據(jù)積累以后,就可以更清晰地勾勒他的學習軌跡。這樣一來,就很好地避免了千人一面的問題。也就是把電商常用的千人千面或出行常用的技術(shù)用到教育領(lǐng)域。
還有一個效果是對學生做某些題目的對錯情況進行分析,可對這個學生進行歸類,歸到已有學生群體中的某一類。如這個學生幾何好,就為他排除幾何題,推薦代數(shù)題。因為不同的知識點,不同的板塊的學習內(nèi)容,對學生抽象思維的能力要求各有不同;如男生在創(chuàng)新、沒有邊界的方向上會比較強,而女生在嚴謹性、嚴密性和架構(gòu)性上會更強一點。
構(gòu)建學習場景為教學做支撐
在大規(guī)模收集數(shù)據(jù),利用智能手段進行分析搭建題庫之后,下面要做的就是構(gòu)建學習場景,為教學做支撐。
場景一:遇到問題,拍照搜題,實時得到解答
記憶不可以移植,所以老師一講,學生就懂這種理想的狀態(tài)很少見。一般來說,課堂授課猶如撥號上網(wǎng)會產(chǎn)生丟包,老師講了很多,學生收集到的只是整個網(wǎng)絡(luò)里面的一些節(jié)點。學生以為聽懂了,但這其中的關(guān)聯(lián)和關(guān)系并沒有記憶在大腦里,所以就需要拍照搜題這一功能。大腦,對于我們來說就是一個黑盒,理論來講對于不可觀不可控的黑盒系統(tǒng),需要通過它外圍的情況去捕捉有用的數(shù)據(jù)。
想要知道一個學生不懂什么,就要觀測他經(jīng)常關(guān)注哪些,做什么樣的題目出現(xiàn)了問題,這些可以直觀反映出他不懂的內(nèi)容并進行標識。拍照搜題,就是一個天然的收集學生不懂問題的通道。這里涉及到眾多的識別技術(shù),如下圖:
圖中依次是對印刷體拍攝、手寫體拍攝、手寫單字聯(lián)機、復(fù)雜手寫體聯(lián)機的識別,智能識別引擎在這里發(fā)揮著作用。
對于印刷體的識別,使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,進行版面分析,將圖像切分,之后分別識別出每一個字。對于手寫體的識別,將在下面講到。
場景二:根據(jù)作業(yè)情況有針對性的刷題和推薦練習
在 C 端,學生完成作業(yè)之后,拍照上傳幾分鐘就可以知道所有題目的對錯,系統(tǒng)會自動給出評判,根據(jù)結(jié)果給出自適應(yīng)練習,做到今日事今日畢。
如下圖,是學習數(shù)據(jù)識別與收集的流程:
學生手寫的解題答案,首選通過卷積層神經(jīng)網(wǎng)絡(luò)進行初步計算,之后通過循環(huán)神經(jīng)網(wǎng)絡(luò)形成有梯度的數(shù)據(jù)結(jié)構(gòu),最后到達解碼層進行解碼。
針對學生的手寫筆跡,首先采用卷積神經(jīng)網(wǎng)絡(luò)對圖像進行多次卷積下采樣,實現(xiàn)手寫筆跡的行分割,之后對每一行結(jié)合非極大抑制方法進行筆畫分割,從而把每一行的筆跡都轉(zhuǎn)化為序列識別問題。再通過多層循環(huán)神經(jīng)網(wǎng)絡(luò)解碼輸出高精度的識別結(jié)果。
在 B 端,如果每個班級的學生都把作業(yè)上傳,由系統(tǒng)進行評改之后,映射到知識圖譜、行為圖譜中,老師就可以掌握每個學生的學習情況。
傳統(tǒng)教學中,就算是特級老師也沒有辦法記憶每個學生的每個細節(jié),沒法形成閉環(huán),因為相關(guān)數(shù)據(jù)不進系統(tǒng),需要老師去完成閉環(huán)銜接的環(huán)節(jié)。
這時老師就變成這個環(huán)節(jié)里面的一個瓶頸,從某種程度來說,既弱化了老師的價值,又使得學生的需求得不到及時響應(yīng)。
老師最大的價值應(yīng)該是育人,去引導(dǎo),而不是幫每個學生去記憶哪個題存在問題。而采用這樣的方式后,節(jié)省人力的同時還可以把這些相關(guān)數(shù)據(jù)都沉淀下來,形成閉環(huán)。
場景三:學生可以進行自我評測和練習
學霸君基于大數(shù)據(jù)與智能分析對 8000 萬題庫進行了梳理,提供給學生做自適應(yīng)的自我評測。然后把評測結(jié)果反饋給學生的同時有針對性地推薦練習題。
目前實現(xiàn)的效果是綜合學生能力、題目難度等屬性,與 IRT 模型相組合,提升預(yù)測學生答題對錯的精度,并為學生跨知識點推送題目、規(guī)劃學習路徑。
關(guān)于未來
當問及對未來教育方面的暢想,陳銳鋒回答:“未來希望學習過程更輕松一點,把學習變成一個愉快的事情,把反復(fù)的遇到瓶頸并且得不到解答的痛苦減到最小,有問題可以得到及時的解答。想了解的,通過無論是軟件資源,還是遠程的老師資源,得到一些支持服務(wù),使學生在信息的獲取上得到及時響應(yīng)。當然,這需要有大量的數(shù)據(jù)沉淀,真正了解學生背后想了解什么,才能做到個性化的推送所需要的內(nèi)容知識。”
做到這些還需要面臨很多的挑戰(zhàn):
更深度層次,更智能化的,更能抓住細節(jié)的一個分析框架。如,是不是能夠分析學生手寫的節(jié)奏,進而分析他的性格,像比較好動、比較拖延等性格行為,且從性格行為上給予梳理。因為有時候,學生的行為不僅僅是知識,也可以影響學習效率。
能否擁有一個更全的數(shù)據(jù)。因為無論是做題庫,做內(nèi)容,做文庫,做其他相應(yīng)的學習視頻,數(shù)據(jù)量雖然很大,但只是覆蓋了其中一部分,我們還想覆蓋得更全。
理論層次上有更體系化的梳理。中國現(xiàn)在的 AI+ 教育或是教育 +AI,實際上是沒有一個非常成型的理論體系,希望能夠把這兩個模塊放在一塊,產(chǎn)生行之有效的理論方向,能夠指導(dǎo)去做后面的事情。
新加坡國立大學博士,2013 年入職學霸君,擔任技術(shù)研究負責人職務(wù),組建智能計算團隊,主攻文字識別、圖像算法和數(shù)據(jù)挖掘方向。帶領(lǐng)團隊在國內(nèi)率先開創(chuàng)同時適應(yīng)自然場景、復(fù)雜版式圖像拍照識別引擎,為搜題及 1V1 實時答疑業(yè)務(wù)奠定了技術(shù)基礎(chǔ)。同時,將基于深度學習的文本挖掘技術(shù)引入產(chǎn)品,實現(xiàn)高效而智能化的知識導(dǎo)航。
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】