學(xué)生作文評(píng)分的新趨勢:教師與AI的合作模式
隨著技術(shù)的進(jìn)步,一個(gè)長期存在的問題是它將如何改變或取代人類傳統(tǒng)的工作。從超市的自助結(jié)賬到AI在醫(yī)學(xué)掃描中檢測嚴(yán)重疾病的能力,所有領(lǐng)域的工作者都發(fā)現(xiàn)自己正在與可以完成他們工作部分的工具一起工作。由于疫情加速了AI工具在課堂上的普及,且這種趨勢并未放緩,教學(xué)已經(jīng)成為另一個(gè)與AI等工具共享專業(yè)工作的領(lǐng)域。
我們對(duì)人工智能在教學(xué)中的特定應(yīng)用產(chǎn)生了濃厚的興趣,那就是評(píng)估學(xué)生的學(xué)習(xí)成果。打分和給學(xué)生作業(yè)反饋往往耗費(fèi)教師大量的時(shí)間,這使得許多教師無法布置更重要的寫作任務(wù),同時(shí)學(xué)生也常常需要等待很長時(shí)間才能得到成績和反饋。在這種情況下,如果AI能幫助評(píng)估學(xué)生的作業(yè),無疑能大大節(jié)省時(shí)間,提高學(xué)習(xí)效率。但是,我們也在思考一個(gè)問題,那就是AI打分和反饋系統(tǒng)是否真的能像真正的教師那樣有效地幫助學(xué)生呢?
教師會(huì)詢問:"你想表達(dá)什么?我不太理解。"而AI更多的是試圖糾正寫作的過程和格式——解決已經(jīng)出現(xiàn)的問題,而不是嘗試?yán)斫鈱W(xué)生想要表達(dá)的真正含義。
我們最近做了一項(xiàng)AI平臺(tái)的評(píng)估,這個(gè)平臺(tái)讓中學(xué)生可以編寫、提交和修改回應(yīng)設(shè)定作文題的文章。每當(dāng)學(xué)生提交文章時(shí),他們都會(huì)立即獲得AI根據(jù)他們的掌握程度(1-4分)在四個(gè)寫作領(lǐng)域(論點(diǎn)和重點(diǎn),支持和證據(jù),組織結(jié)構(gòu),語言和風(fēng)格)給出的得分和建議,幫助他們改進(jìn)文章。
為了比較AI評(píng)分和反饋與實(shí)際教師的評(píng)分和反饋,我們邀請(qǐng)了16位在2021-2022學(xué)年使用過這個(gè)平臺(tái)的中學(xué)寫作老師進(jìn)行一次面對(duì)面會(huì)議。在確保他們對(duì)評(píng)分標(biāo)準(zhǔn)有準(zhǔn)確理解和運(yùn)用后,我們讓每位教師評(píng)估10篇非他們學(xué)生的隨機(jī)文章,并給出反饋。這樣,我們得到了160篇由教師評(píng)估的文章,以便我們與AI的評(píng)分和反饋進(jìn)行比較。
教師的分?jǐn)?shù)與AI給出的分?jǐn)?shù)相似還是不同?
平均而言,我們發(fā)現(xiàn)教師給文章的分?jǐn)?shù)比人工智能低。無論在哪個(gè)方面,教師和AI之間都存在顯著差異,除了在主張和焦點(diǎn)方面??傮w來看,在四個(gè)維度(最低4分,最高16分)的總分方面,教師對(duì)這160篇文章的平均分?jǐn)?shù)是7.6,而AI對(duì)同一組文章的平均分?jǐn)?shù)是8.8。具體來說,在主張和焦點(diǎn)以及支持和證據(jù)方面,教師和AI傾向于對(duì)高分(4分)和低分(1分)的文章達(dá)成一致,但在中間分?jǐn)?shù)上存在差異。教師更有可能給文章打2分,而AI更有可能給文章打3分。另一方面,在組織和語言風(fēng)格方面,教師更有可能給文章打1分或2分,而AI的評(píng)分分布在1到4之間,有更多的文章得到3分甚至4分。
教師的書面評(píng)論與AI給出的評(píng)論相似還是不同?
在我們與16位教師的會(huì)議中,我們給他們機(jī)會(huì)討論他們?cè)?0篇文章上給出的分?jǐn)?shù)和反饋。在具體談?wù)撨@些文章之前,我們聽到了一個(gè)常見的觀察:去年當(dāng)他們?cè)谡n堂上使用這個(gè)評(píng)分程序時(shí),大多數(shù)學(xué)生需要幫助來理解和解釋AI給出的評(píng)論。舉個(gè)例子,很多時(shí)候,學(xué)生們讀到一條評(píng)論卻不知道該如何改進(jìn)自己的寫作。因此,根據(jù)老師們的說法,一個(gè)明顯的改變是現(xiàn)在他們能夠用更適合學(xué)生理解能力水平的語言來表達(dá)評(píng)論。
"在我們的討論中,我們反思了AI在評(píng)論和反饋方面的友好程度。現(xiàn)在的孩子們習(xí)慣了直接而真實(shí)的反饋。他們并不總是需要安撫自尊,而是希望解決問題。所以,并不總是需要夸夸其談,而是需要直截了當(dāng)"。
另一個(gè)我們發(fā)現(xiàn)的差異是教師們更注重整篇文章的質(zhì)量——流暢性、語調(diào)、是否只是簡單總結(jié)還是建立了論點(diǎn),證據(jù)是否與論點(diǎn)相符,以及整體是否連貫。教師們解釋說,他們?cè)陉P(guān)注主張和焦點(diǎn)以及支持和證據(jù)這兩個(gè)方面時(shí)更傾向于給文章打2分,這是因?yàn)樗麄兡軌蚩吹秸恼隆@是許多AI無法真正做到的,因?yàn)樵S多AI是在句子級(jí)別上進(jìn)行訓(xùn)練,而不是針對(duì)整篇文章提供訓(xùn)練。
教師對(duì)組織結(jié)構(gòu)進(jìn)行更嚴(yán)格的評(píng)估是因?yàn)樗麄兣cAI有所不同,他們可以理解整篇文章的順序和流程。舉個(gè)例子,教師們分享說,AI可能會(huì)找到過渡詞或建議學(xué)生使用更多過渡詞,并將其作為良好結(jié)構(gòu)的論證,但教師可以看到過渡是否真正流暢,或者只是被插入到一組無關(guān)聯(lián)的句子中。在語言和風(fēng)格方面,教師們?cè)俅沃赋隽薃I更容易受到擾亂的問題,例如通過使用看似復(fù)雜的詞匯——這可能會(huì)給AI留下深刻印象,但教師們會(huì)看出那只是一串不能構(gòu)成句子或表達(dá)思想的詞語。
AI能幫助教師打分嗎?
評(píng)估學(xué)生作業(yè)在教學(xué)中是非常重要且耗時(shí)的一部分,特別是當(dāng)學(xué)生在學(xué)習(xí)寫作時(shí)。學(xué)生需要經(jīng)常練習(xí)和及時(shí)反饋,以成為自信和熟練的作家。然而,大多數(shù)教師缺乏規(guī)劃和評(píng)分的時(shí)間,而且他們要教的學(xué)生太多,以至于無法安排常規(guī)或長篇寫作任務(wù),還要在自己的職業(yè)生涯中保持工作和生活的平衡。
AI在減輕教師負(fù)擔(dān)方面非常重要。盡管我們初步研究發(fā)現(xiàn)教師和AI在評(píng)估方面有些差異,但我們相信,如果AI系統(tǒng)能像教師一樣全面地看待學(xué)生的文章,并以適應(yīng)學(xué)生成長和具體情境的方式給出反饋,讓學(xué)生能夠獨(dú)立應(yīng)對(duì)這些意見,那么AI確實(shí)有助于教師評(píng)分。我們認(rèn)為改進(jìn)AI在這些方面非常有價(jià)值,不僅可以減輕教師的評(píng)分負(fù)擔(dān),還可以確保學(xué)生有更多寫作機(jī)會(huì),并及時(shí)獲得有益的反饋,提升他們作為作家的發(fā)展。