用于數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的GitHub存儲(chǔ)庫(kù)和Reddit主題(5月)
GitHub和Reddit都是比較有趣的平臺(tái),在這里,我不僅學(xué)習(xí)了數(shù)據(jù)科學(xué)的一些***應(yīng)用,而且還了解數(shù)據(jù)科學(xué)家們是如何編程的。
一直以來(lái),GitHub都是開(kāi)發(fā)人員之間進(jìn)行協(xié)作的***平臺(tái),并且,我們也看到了數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)社區(qū)以同樣的熱情來(lái)改善它。
而Reddit仍然是一個(gè)很好的數(shù)據(jù)科學(xué)領(lǐng)域知識(shí)和見(jiàn)解的來(lái)源。人們?cè)谶@個(gè)平臺(tái)上共享代碼、數(shù)據(jù)科學(xué)新聞、尋求幫助和意見(jiàn)、發(fā)表研究論文等。
這篇文章總結(jié)了Reddit平臺(tái)上5月份的一些關(guān)于數(shù)據(jù)科學(xué)的討論,其中包括數(shù)據(jù)科學(xué)家在未來(lái)3年的作用以及有史以來(lái)***的機(jī)器學(xué)習(xí)論文集。在GitHub社區(qū)中,英特爾開(kāi)放了其NLP架構(gòu)庫(kù),微軟推出ML.NET以支持Dot Net開(kāi)發(fā)者進(jìn)行機(jī)器學(xué)習(xí)等。
讓我們來(lái)看看GitHub上的***存儲(chǔ)庫(kù)以及Reddit上個(gè)月發(fā)生的有趣討論吧。下面是之前四個(gè)月較為流行的GitHub存儲(chǔ)庫(kù)和***Reddit討論(從四月起):
ML.NET
https://github.com/dotnet/machinelearning?spm=a2c4e.11153940.blogcont603064.13.33f65291LqhERf

ML.NET是一個(gè)開(kāi)源機(jī)器學(xué)習(xí)框架。不需要任何構(gòu)建機(jī)器學(xué)習(xí)模型的經(jīng)驗(yàn),機(jī)器學(xué)習(xí)和.NET開(kāi)發(fā)人員就可以輕松使用.NET開(kāi)發(fā)自己的模型。這是預(yù)發(fā)行版本,包含了基本的分類和回歸算法。
ML.NET最初由Microsoft創(chuàng)建的,并且已用于各種產(chǎn)品,如Windows,Excel,Access,Bing等。此版本還捆綁了用于各種模型訓(xùn)練任務(wù)的.NET API。
NLP Architect
https://github.com/NervanaSystems/nlp-architect?spm=a2c4e.11153940.blogcont603064.14.33f65291LqhERf

NLP Architect是一個(gè)開(kāi)源Python庫(kù),由英特爾實(shí)驗(yàn)室的研究人員開(kāi)發(fā)和開(kāi)源,旨在幫助數(shù)據(jù)科學(xué)家夠探索自然語(yǔ)言處理(NLP)和自然語(yǔ)言理解(NLU)領(lǐng)域***進(jìn)的深度學(xué)習(xí)技術(shù)。
這個(gè)庫(kù)中我最喜歡的組件之一就是可視化組件,可視化組件很整潔的顯示了模型的注釋。更多NLP Architect的信息請(qǐng)點(diǎn)擊https://www.analyticsvidhya.com/blog/2018/05/nlp-architect-an-awesome-open-source-nlp-python-library-from-intel-ai-lab-with-github-link/?spm=a2c4e.11153940.blogcont603064.15.33f65291LqhERf。
Amazon Scraper
https://github.com/tducret/amazon-scraper-python?spm=a2c4e.11153940.blogcont603064.16.33f65291LqhERf
Python包可以讓開(kāi)發(fā)人員在亞馬遜上搜索和提取產(chǎn)品信息。你需要分析哪些產(chǎn)品,只需使用該包即可,而不再需要編碼來(lái)確定。只需輸入想要搜索的關(guān)鍵字和***產(chǎn)品數(shù)量(可選),就可以輸出CSV格式,然后進(jìn)行分析。
PIGO – Face Detection in Go
https://github.com/esimov/pigo?spm=a2c4e.11153940.blogcont603064.17.33f65291LqhERf

Pigo是基于《基于像素強(qiáng)度比較的對(duì)象檢測(cè)》論文、用Go語(yǔ)言開(kāi)發(fā)的人臉檢測(cè)庫(kù)。Pigo庫(kù)的主要特點(diǎn)如下:
- 處理速度快。
- 在檢測(cè)前不需要做圖像預(yù)處理。
- 不需要計(jì)算積分圖像,圖像金字塔,HOG金字塔或其他類似的數(shù)據(jù)結(jié)構(gòu)。
人臉檢測(cè)基于以二進(jìn)制文件數(shù)據(jù)樹(shù)結(jié)構(gòu)編碼的像素強(qiáng)度比較
RL-Adventure-2: Policy Gradients
https://github.com/higgsfield/RL-Adventure-2?spm=a2c4e.11153940.blogcont603064.18.33f65291LqhERf
這是所有強(qiáng)化學(xué)習(xí)(RL)愛(ài)好者所喜歡的庫(kù)。深度學(xué)習(xí)推動(dòng)了強(qiáng)化學(xué)習(xí)編寫(xiě)了一個(gè)人工智能機(jī)器人以人類專家級(jí)技能來(lái)玩Atari游戲。 該存儲(chǔ)庫(kù)涵蓋了策略梯度算法的新擴(kuò)展,這是目前解決強(qiáng)化學(xué)習(xí)問(wèn)題***的默認(rèn)選擇之一。 這些擴(kuò)展縮短了訓(xùn)練時(shí)間、優(yōu)化了強(qiáng)化學(xué)習(xí)的整體表現(xiàn)。
Reddit討論
實(shí)時(shí)手勢(shì)姿態(tài)估計(jì)
https://www.reddit.com/r/MachineLearning/comments/8n04hp/p_realtime_multihand_pose_estimation_demo/?spm=a2c4e.11153940.blogcont603064.19.33f65291OiQ7QC

這個(gè)視頻引起了數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)發(fā)燒友的廣泛關(guān)注,我希望你能看完這個(gè)視頻,然后你就會(huì)很好地了解這項(xiàng)技術(shù)是如何實(shí)施的。
你會(huì)選擇哪篇研究論文來(lái)證明機(jī)器學(xué)習(xí)是***的?
https://www.reddit.com/r/MachineLearning/comments/8kbmyn/d_if_you_had_to_show_one_paper_to_someone_to_show/?spm=a2c4e.11153940.blogcont603064.20.33f65291OiQ7QC
如果你是一個(gè)機(jī)器學(xué)習(xí)菜鳥(niǎo),又或者是正在尋找一些用來(lái)閱讀或參考的研究論文,這是一個(gè)很好的話題。這個(gè)話題中列舉了一些優(yōu)秀的機(jī)器學(xué)習(xí)研究論文,每個(gè)數(shù)據(jù)科學(xué)家都將從中受益匪淺。該討論包括從基本機(jī)器學(xué)習(xí)概念(如高斯模型)到高級(jí)概念(如神經(jīng)藝術(shù)風(fēng)格轉(zhuǎn)換),使用簡(jiǎn)單功能的增強(qiáng)級(jí)聯(lián)等快速對(duì)象檢測(cè)等論文。這是一個(gè)必讀話題。
目前,我們對(duì)泛化有什么了解? 對(duì)于泛化,我們接下來(lái)應(yīng)該提什么問(wèn)題?
https://www.reddit.com/r/MachineLearning/comments/8mpxmm/d_what_do_we_currently_know_about_generalization/?spm=a2c4e.11153940.blogcont603064.21.33f65291OiQ7QC
深度學(xué)習(xí)中的泛化一直都是一個(gè)爭(zhēng)議不斷的話題。正如作者所說(shuō)的那樣,我們?nèi)匀恍枰诓簧賵?chǎng)景中努力實(shí)現(xiàn)泛化。這個(gè)話題圍繞目前泛化現(xiàn)狀進(jìn)行了深入探討,以及它為什么在深度和強(qiáng)化學(xué)習(xí)中很難理解。這個(gè)話題帖子很長(zhǎng),如果你是這個(gè)領(lǐng)域的菜鳥(niǎo),對(duì)于你來(lái)說(shuō)可能會(huì)有點(diǎn)復(fù)雜。不過(guò),我建議無(wú)論如何都要閱讀這個(gè)話題,因?yàn)檫@個(gè)話題中包含了一些經(jīng)驗(yàn)豐富和知識(shí)淵博的數(shù)據(jù)科學(xué)家的看法。
醫(yī)療行業(yè)的機(jī)器學(xué)習(xí)狀況
https://www.reddit.com/r/MachineLearning/comments/8mqh2r/d_machine_learning_deployed_in_health_care_and/?spm=a2c4e.11153940.blogcont603064.22.33f65291OiQ7QC
該話題專門(mén)研究了醫(yī)療行業(yè)的機(jī)器學(xué)習(xí)現(xiàn)狀。醫(yī)療領(lǐng)域數(shù)據(jù)科學(xué)家分享了他們工作中的經(jīng)驗(yàn)和觀點(diǎn)。想要查看任何生命科學(xué)領(lǐng)域機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的任何信息,請(qǐng)參閱該話題!
數(shù)據(jù)科學(xué)家3年后潛在的職業(yè)發(fā)展方向
https://www.reddit.com/r/datascience/comments/8m0zev/what_are_the_potential_career_paths_for_data/?spm=a2c4e.11153940.blogcont603064.23.33f65291OiQ7QC
這是大多數(shù)人在進(jìn)入該領(lǐng)域之前非常關(guān)心的一個(gè)問(wèn)題。隨著自動(dòng)化機(jī)器學(xué)習(xí)工具的迅速采用,公司在幾年內(nèi)會(huì)需要數(shù)據(jù)科學(xué)家嗎?本話題收集了數(shù)據(jù)科學(xué)中不同人員對(duì)未來(lái)幾年內(nèi)的職業(yè)發(fā)展方向的看法。想要尋求職業(yè)方向的指導(dǎo),請(qǐng)查看這一話題!