數(shù)據(jù)科學(xué),數(shù)據(jù)工程和技術(shù)的未來(lái)
2020年即將結(jié)束,我們想花一點(diǎn)時(shí)間反思技術(shù)的所有變化,并展望未來(lái)的發(fā)展趨勢(shì)。
無(wú)論您是在關(guān)注初創(chuàng)企業(yè)及其首次公開(kāi)募股,技術(shù)的改進(jìn),還是您對(duì)亞馬遜re:Invent的關(guān)注,我們都見(jiàn)證了一年的公司繼續(xù)努力突破界限。
AWS的SageMaker Data Wrangler是2020年個(gè)人最喜歡的公告,旨在加快機(jī)器學(xué)習(xí)和AI應(yīng)用程序的數(shù)據(jù)準(zhǔn)備。這似乎是朝著擁有更流暢的機(jī)器學(xué)習(xí)管道的方向邁出的一大步,希望這將使不專(zhuān)注于技術(shù)的公司更容易使用機(jī)器學(xué)習(xí)。
但是2020年即將結(jié)束,因此,我們邀請(qǐng)了來(lái)自技術(shù)領(lǐng)域的各個(gè)方面的人們提供他們對(duì)2021年期望的見(jiàn)解-無(wú)論是新興的初創(chuàng)公司,技術(shù)還是最佳實(shí)踐。
讓我們看看他們?cè)趺凑f(shuō)。
1. Sam Cannon,F(xiàn)acebook,數(shù)據(jù)科學(xué)家
> Photo from LinkedIn.
我感覺(jué)自然語(yǔ)言處理(NLP)當(dāng)前正在以不可思議的速度發(fā)展,這同時(shí)令人興奮和沮喪。一旦建立了不錯(cuò)的文本分類(lèi)或分布式詞表示聚類(lèi)的管道,就會(huì)出現(xiàn)一個(gè)新模型,該模型的性能優(yōu)于我昨天使用的模型。
話雖這么說(shuō),我對(duì)NLP的發(fā)展方向感到非常興奮,特別是在針對(duì)復(fù)雜NLP任務(wù)的開(kāi)源解決方案方面。我在這個(gè)領(lǐng)域最喜歡的公司之一,也是我個(gè)人的開(kāi)放源碼晴雨表,即最先進(jìn)的NLP,就是Hugging Face。Hugging Face通過(guò)使復(fù)雜的NLP模型和任務(wù)民主化而遵循"解決NLP"的信條,由于缺乏計(jì)算能力或?qū)I(yè)知識(shí),許多人通常無(wú)法使用這些模型和任務(wù)。
他們已經(jīng)提供了需要最少用戶輸入的簡(jiǎn)單情緒分析解決方案。在此基礎(chǔ)上,我認(rèn)為2021年將迎來(lái)一系列可與一行代碼一起使用的預(yù)打包SOTA NLP模型。雖然無(wú)法預(yù)測(cè)2021年在這個(gè)領(lǐng)域中將真正實(shí)現(xiàn)什么,但我相信,至少,開(kāi)箱即用的NLP模型將比以往更多的人從他們的自然語(yǔ)言數(shù)據(jù)中獲得洞察力—這就是2021年我在我們領(lǐng)域最期待的東西。
2. 凱瑟琳·陶(Catherine Tao),數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)科學(xué)家
> Photo from LinkedIn.
我很高興看到2021年的云技術(shù)將在技術(shù)領(lǐng)域進(jìn)行創(chuàng)新。截至目前,云是存儲(chǔ)公司數(shù)據(jù)的空間。這樣做存在一些挑戰(zhàn),例如可伸縮性,效率,數(shù)據(jù)流等等。
我想看看如何改善云計(jì)算以平衡技術(shù)企業(yè)所面臨的一些主要問(wèn)題。許多公司都在努力將AI引入其業(yè)務(wù)中,這導(dǎo)致某些公司在技術(shù)行業(yè)落后。通過(guò)創(chuàng)新云計(jì)算,更多的公司應(yīng)該能夠在其公司中實(shí)施人工智能,并以更高的生產(chǎn)率部署項(xiàng)目/產(chǎn)品。
3. Riley Kinser,地形,產(chǎn)品負(fù)責(zé)人
> Photo from LinkedIn.
展望2021年(對(duì)于商業(yè)房地產(chǎn)來(lái)說(shuō),希望是光明的一年!),我的主要重點(diǎn)是成為地理和地理地圖繪制新工具的專(zhuān)家。我的主要路線圖目標(biāo)之一是將我們?cè)赥errain的見(jiàn)解轉(zhuǎn)化為易于為最終用戶解釋的地圖。
當(dāng)今行業(yè)中的許多示例都是使用ArcGIS來(lái)完成的,ArcGIS是一種較舊的但成熟的數(shù)據(jù)映射工具。我相信可能會(huì)有更好的工具,這為我們的客戶提供了一個(gè)對(duì)舊經(jīng)典的新認(rèn)識(shí)的機(jī)會(huì)。我感興趣的兩個(gè)工具是Uber開(kāi)發(fā)的開(kāi)源項(xiàng)目:H3和kepler.gl。我看到的H3的主要優(yōu)勢(shì)之一是能夠根據(jù)縮放將世界細(xì)分為大小不同的六邊形。
這解決了我們確定的早期問(wèn)題之一,即不同的用戶喜歡對(duì)都市圈內(nèi)的社區(qū),子市場(chǎng)或城市的邊界采取不同的觀點(diǎn)。這也使我們能夠更好地在全球范圍內(nèi)開(kāi)發(fā)難以獲取邊界數(shù)據(jù)的地圖。
另一方面,kepler.gl很有趣,因?yàn)樗鄬?duì)容易為最終用戶或MVP在線開(kāi)發(fā)和托管。Uber開(kāi)發(fā)了Kepler.gl,使用戶可以在內(nèi)部(技術(shù)和非技術(shù))并快速開(kāi)發(fā)可共享的地圖,以可視化地理空間數(shù)據(jù)中的想法。kepler.gl支持的其他有趣的事情之一是能夠輕松地可視化時(shí)間序列中的地理數(shù)據(jù)的功能。我希望從kepler.gl成為我們的MVP,然后在我們開(kāi)始收集用戶反饋時(shí)探索H3。
4. Chris Zeoli,Base10合作伙伴,負(fù)責(zé)人
> Photo from LinkedIn.
盡管我對(duì)許多趨勢(shì)感到非常興奮,但電子商務(wù)(尤其是Shopify及其相關(guān)工具的興起)和遠(yuǎn)程醫(yī)療是我最激動(dòng)的兩個(gè)領(lǐng)域。我已經(jīng)撰寫(xiě)了有關(guān)Shopify生態(tài)系統(tǒng)的文章,并且該公司繼續(xù)達(dá)到新的高度,為200萬(wàn)以上的商家提供了超過(guò)$ 100B的GMV。
我對(duì)與Facebook / instagram,TikTok,支付寶,Affirm和Pinterest等新的合作伙伴關(guān)系感到特別興奮,因?yàn)镾hopify成為跨消費(fèi)者所在的主要網(wǎng)絡(luò)進(jìn)行商務(wù)交易的基礎(chǔ)架構(gòu)。它的軟件以及第三方生態(tài)系統(tǒng)在蓬勃發(fā)展中令人興奮。有趣的是,電子商務(wù)的傳統(tǒng)領(lǐng)域(服裝和時(shí)尚,CPG產(chǎn)品,保健和保健等)繼續(xù)增長(zhǎng),而食品/雜貨等較新的類(lèi)別可以通過(guò)Shopify等平臺(tái)自動(dòng)上線。
遠(yuǎn)程醫(yī)療和新的數(shù)字醫(yī)療經(jīng)驗(yàn)也讓我感到非常興奮。從COVID來(lái)看,很明顯,就我們的經(jīng)濟(jì)"基本"而言,醫(yī)療保健是最重要的。該類(lèi)別占GDP的20%(并且還在增長(zhǎng)),幾乎沒(méi)有突破性成果,也沒(méi)有FAANG規(guī)模的公司。我可以想象,五年內(nèi),至少會(huì)有一個(gè)主要參與者(并且還期望看到Apple,Google和Amazon繼續(xù)推動(dòng)醫(yī)療保健發(fā)展)。2020年對(duì)于遠(yuǎn)程醫(yī)療來(lái)說(shuō)是重要的一年,Teladoc收購(gòu)了Livongo并創(chuàng)建了數(shù)字醫(yī)療領(lǐng)域最強(qiáng)大的品牌,但其企業(yè)價(jià)值總和超過(guò)$ 30B,并且$ 1.5B的ARR增長(zhǎng)> 100%。
我很高興看到嶄新的數(shù)字化健康體驗(yàn)浪潮,可以滿足人類(lèi)在照顧自己方面最基本的需求。
5. Jun Kim,F(xiàn)acebook,數(shù)據(jù)工程師
> Photo from LinkedIn.
即將到來(lái)的2021年最令我興奮的技術(shù)是期待已久的Apache Airflow 2.0版本。自2015年首次發(fā)布以來(lái),Apache Airflow一直是數(shù)據(jù)工程中最受歡迎的工作流管理系統(tǒng)之一(如果不是最受歡迎的話)。
它的巨大成功可以歸因于以下事實(shí):它允許將工作流編寫(xiě)為代碼,簡(jiǎn)單但有效的GUI,并且在構(gòu)造數(shù)據(jù)管道方面具有通用的靈活性。借助新的2.0版本,每個(gè)人都喜歡的工作流管理系統(tǒng)將變得更好。Airflow 2.0將具有許多令人印象深刻的附加功能,包括完全受支持的綜合REST API,TaskFlow API和任務(wù)組。它還提供了許多改進(jìn),包括簡(jiǎn)化的Kubernetes Executor,低延遲的調(diào)度程序以及更加直觀的GUI。
我很高興嘗試新的和改進(jìn)的Airflow。
6. Michael Mirandi,土星Cloud.io,戰(zhàn)略主管
> Photo from LinkedIn.
我很高興在2021年看到幾種技術(shù)趨勢(shì),但無(wú)非就是GPU計(jì)算在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)中的日益普及。這種轉(zhuǎn)變是由性能優(yōu)先驅(qū)動(dòng)的,以及通過(guò)開(kāi)源項(xiàng)目RAPIDS使得易于使用成為可能。如果您不熟悉RAPIDS,則用戶可以使用RAPIDS在NVIDIA硬件上執(zhí)行Python代碼(免責(zé)聲明:NVIDIA贊助了該項(xiàng)目)。
該團(tuán)隊(duì)于今年早些時(shí)候發(fā)布了行業(yè)標(biāo)準(zhǔn)的大數(shù)據(jù)分析基準(zhǔn)測(cè)試結(jié)果,其表現(xiàn)要高出近20倍!有趣的是,這些基準(zhǔn)測(cè)試不僅展示了GPU計(jì)算對(duì)數(shù)據(jù)科學(xué)工作負(fù)載的強(qiáng)大功能,而且還展示了其加速傳統(tǒng)數(shù)據(jù)工程ETL工作的能力。這會(huì)導(dǎo)致更廣泛地采用Python嗎?我愿意打賭,特別是隨著一批新的數(shù)據(jù)科學(xué)初創(chuàng)公司最近發(fā)布了分布式GPU計(jì)算平臺(tái),這是一種能夠以前所未有的速度啟動(dòng)云中GPU集群的功能。
2021年及以后的技術(shù)
到2021年,無(wú)論是預(yù)打包的SOTA NLP模型是否可以與一行代碼一起使用,自然語(yǔ)言查詢還是對(duì)Airflow等框架進(jìn)行改進(jìn),都將有很多期待。
小型和大型科技公司似乎都繼續(xù)前進(jìn),即使所有Zoom疲勞了。
我們希望2021年不僅能帶來(lái)技術(shù)上的進(jìn)步,而且也將是我們?cè)谀軌蛱嵘腥说哪芰Φ念I(lǐng)域取得進(jìn)步的一年。
感謝您的閱讀和新年的好運(yùn)!