數(shù)據(jù)分析 | 最適合學習英語的Netflix電影和電視劇有哪些?
截至2020年,Netflix上約有3712部電影和1845部電視節(jié)目。如果你正在學習英語,可供選擇的內(nèi)容很多,但你可能沒那么多時間去看完。因此,我用數(shù)據(jù)科學技能來分析Netflix上前1500部電影和電視節(jié)目的劇本。經(jīng)過大量的處理,我找到了Netflix上最好的英語學習內(nèi)容。這樣做的目的是為了給你提供很多好的選擇,讓你可以找到你喜歡的電影或電視節(jié)目,同時對學習英語也有好處,而不是強迫你看不喜歡的電視節(jié)目,因為你的老師和朋友堅持'它有助于大家學習英語'。
為了找到Netflix上最好的電影和電視節(jié)目,我比較了臺本對話中使用的詞匯。讓我們找到哪些是最好的電視節(jié)目和電影。
Netflix上詞匯最簡單的電視節(jié)目
Netflix上的美國和英國電視節(jié)目都是為母語為英語的人制作的。這就是為什么如果英語不是你的母語,你在理解某些場景中的對話時可能會遇到一些困難。我根據(jù)詞匯量的難易程度對Netflix目錄上的500個一流電視節(jié)目(223部Netflix原創(chuàng)節(jié)目)進行了排名。
《老友記》詞匯簡單,被認為是學習英語最好的電視節(jié)目之一。然而,這部電視劇在Netflix目錄中只排在第78位,這意味著還有77部電視劇和《老友記》一樣好——甚至更好!-可以在Netflix上學習英語并享受樂趣。例如,根據(jù)我的調(diào)查結果,電視劇《去他*的世界》(排名13)或《13個原因》(排名40)在其劇集中的詞匯量甚至更簡單。
你可以在下面的框中搜索電視節(jié)目名。你會發(fā)現(xiàn)他們的排名和詞匯覆蓋率。排名前十的電視節(jié)目在整個Netflix劇集列表中詞匯最簡單。
如果你正在尋找適合你英語水平的電視節(jié)目,那么我有一個好消息要告訴你, 我對所有節(jié)目的英語詞匯量水平進行了排名(初級、中級、高級)。最靠右的節(jié)目在每個級別上使用的詞匯量更多。覆蓋率越高,你就越容易理解電視劇中的情節(jié)。
按詞匯覆蓋率排名的Netflix劇集
每個級別代表1000個最常見的英語單詞。所有的電影都有所有級別的排名。1級代表 "初級水平",3級代表 "中級水平"。一集的覆蓋率越高,越容易理解其詞匯量。
- 黃色代表Lvl 1
- 紅色代表Lvl 1+2
- 藍色代表Lvl 1+2+3
這些是在Netflix目錄中發(fā)現(xiàn)的電視節(jié)目。可能有些你喜歡的電視節(jié)目不在Netflix上,但不要擔心,我已經(jīng)分析了其中一些電視節(jié)目,如《權力的游戲》或《辛普森一家》。此外,Netflix目錄在你的國家可能略有不同。這就是為什么我只列出了一個最有可能在全球范圍內(nèi)提供的Netflix原著。
Learn English with Game of Thrones: The Best Episodes
以下是學習英語的十大Netflix原創(chuàng)節(jié)目
- 妖靈(Jinn)
- 愛情起床號(Good Morning Call)
- 魚妖怪談(Tidelands)
- Easy
- 黑色夏天(Black Summer)
- 夏日時光 (Summertime)
- Baby
- 上層男孩(Top Boy)
- 血統(tǒng)(Bloodline)
- 去他*的世界(The End Of The F*ing World)
按詞匯覆蓋率排名的Netflix電影
如果你比較喜歡看電影,那么Netflix也有很好的電影來學習英語。我把Netflix上最受歡迎的950部電影(173部Netflix原創(chuàng)電影)按照詞匯量的難度進行了排名。排名前100的熱門電影有《蒙上你的眼 》(30)、《蜘蛛俠:平行宇宙》(84)和《當幸福來敲門》(81)。
通過下面的方框播放,看看還有哪些電影排在前100名。你還可以發(fā)現(xiàn)你喜歡的電影的排名和詞匯覆蓋率。
你可以在下面找到適合你英語水平的電影。最右邊的電影有更多的初級、中級和高級詞匯。但這些都是在 Netflix 目錄中找到的排名靠前的電影,你不會在 Netflix 上找到像《哈利波特》、《阿凡達》、《玩具總動員》這樣的電影,但如果你還想看這類電影,你應該看看我的另一篇文章,我分析了3000部最受歡迎的電影。你可以在這里找到它。
Netflix 的電影排行榜(根據(jù)詞匯量)
每一級代表 1000 個最常見的英語單詞。所有的電影都按等級排列。第 1 級代表“初級水平”,第 3 級代表“中級水平”。一集節(jié)目的收視率越高,詞匯就越容易理解。
我還列出了 Netflix 在世界范圍內(nèi)最可能提供的原創(chuàng)電影列表,以防 Netflix 的目錄在你的國家不一樣。
以下是Netflix十大最適合學英語的原創(chuàng)電影:
- In The Tall Grass (2019)-在高草中
- A Secret Love (2020)-隱秘的愛
- Under The Riccione Sun (2020)
- Dangerous Lies (2020)-危險的謊言
- Bird Box (2018)-蒙上你的眼
- Who Would You Take To A Deserted Island (2019)
- Earthquake Bird (2019)
- Love Wedding Repeat (2020)
- Paddleton (2019)
- 6 Balloons (2018)-六個氣球
在向英語學習者展示 Netflix 上最好的內(nèi)容之前,讓我們比較一下最好的和可能最差的內(nèi)容,僅針對詞匯量難度來說。
Netflix 詞匯最易懂和最難懂的原創(chuàng)劇
以下圖片顯示了排名前十和后十的網(wǎng)飛原創(chuàng)電影在英語詞匯難度上的差別。正如你所看到的,在過去的 10 年中,使用的詞匯更加困難。例如,你只需要知道最常見的 1000 個英語單詞就能理解電影《 蒙上你的眼 》中 94,5% 的單詞,但你需要至少3000個單詞來涵蓋電影《Spelling The Dream 》中 94.5% 的對話。這額外的 2000 個單詞可能就是你不懂的原因——即使你的英語水平已經(jīng)很高了!
數(shù)據(jù)集
為了進行分析,我使用了 3 個主要數(shù)據(jù)集,它們由文本、Netflix 目錄和 Netflix 原創(chuàng)列表組成。我在谷歌上搜索,直到我找到了大量用于分析的轉錄本。我用目錄來匹配 Netflix 上的字幕。你可以在 Kaggle 上找到 Netflix 的目錄數(shù)據(jù)集。從 2019 年開始,Netflix 上就可以看到它的內(nèi)容,所以可能有些電影或電視節(jié)目現(xiàn)在還不能在 Netflix 上看到。最后,我在這里找到了一份截至 2020 年的 Netflix 原創(chuàng)劇集列表,這對分析很有幫助。
方法
我用 Python 做了所有這些分析,這是我準備數(shù)據(jù)的方式:
Tokenization:為了分析文字記錄中的詞匯,我將字符說的所有單詞標記化。Python中有許多用于標記化的工具,但是我使用 CountVectorizer,因為它將收集的轉錄本轉換為標記計數(shù)的數(shù)據(jù)格式,從而簡化了分析。在分析了 3000 部電影的文章中,我進一步解釋了 CountVectorizer 是如何工作的。
詞形還原(Lemmatization):在標記化之后,我必須找到每個標記的基本形式。您可以通過使用象 lemmizing 這樣的技術來實現(xiàn)這一點,您可以在 NLTK 庫中找到這些技術。不過,我使用了類似的單詞族列表,而且還根據(jù)單詞出現(xiàn)的頻率給出了每個單詞的難度水平。到 2020 年,有 29 個單詞家族列表,你可以在這里找到。這些列表是對與語言學和英語作為第二語言學習相關的研究論文進行評估的。
數(shù)據(jù)清理:我刪除了在電影或片段中聽不到的單詞,比如場景描述和講話者的名字。我還排除了對話中超過 3.5% 的單詞與單詞家族列表不匹配的抄本(它們可能是異常值或被破壞的數(shù)據(jù))。
所有的代碼都可以在 Github 上找到!
關于分析和結果
我用來對電視節(jié)目中的詞匯進行分類的單詞表,大部分都來自語料庫。詞匯水平是根據(jù)一個詞在語料庫中被發(fā)現(xiàn)的頻率來確定的,即這些文本中最常見的詞被標注為 1 級。盡管之前的研究已經(jīng)證明了該列表是可靠的,但對于具有多種含義的單詞,它并不那么準確。例如,單詞 “draw” 在列表中被標記為第 1 級。之所以會出現(xiàn)這種情況,是因為這個詞通常指“拍照”,但如果它的意思是“拿出武器來攻擊某人”或“得出結論”,那么它就不屬于第一級。
我花了幾個星期的時間尋找、清理、處理數(shù)據(jù),然后弄清楚得到的結果。然而,研究結果并不完美。關于電影的研究結果可能比電視節(jié)目更準確。電影的文字記錄是獨一無二的,但電視節(jié)目播出的劇集不同,這增加了每部電視節(jié)目的文字記錄數(shù)量。這就是為什么我收集了每個節(jié)目 3 到 10 集的樣本,以獲得該電視節(jié)目平均每集涵蓋的詞匯。
總的來說,調(diào)查結果揭示了很多適合每個詞匯水平的內(nèi)容,但其中一些還是讓我吃驚。比如,《行尸走肉》排在第 62 位,這讓我很吃驚。我不是那個電視節(jié)目的粉絲,但我不認為一個有僵尸的虛構節(jié)目在對話中使用簡單的詞匯。在查看了文字記錄后,我證實了《行尸走肉》中對詞匯的需求在整集都有很多起伏。也就是說,有些情節(jié)可能比其他情節(jié)更難理解。
本文轉自雷鋒網(wǎng),如需轉載請至雷鋒網(wǎng)官網(wǎng)申請授權。