突破邊界:數(shù)據(jù)科學(xué)、數(shù)據(jù)工程和技術(shù)的未來(lái)
本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)
不管是關(guān)注初創(chuàng)公司和它們的IPO進(jìn)程,關(guān)注科技的進(jìn)步,還是關(guān)注亞馬遜的re:Invent,你都會(huì)看到,這一年有很多公司在不斷嘗試突破邊界。
我個(gè)人最喜歡的2020年公告是AWS的SageMaker Data Wrangler,它旨在加快機(jī)器學(xué)習(xí)和人工智能應(yīng)用的數(shù)據(jù)準(zhǔn)備。這是一個(gè)偉大的舉措,將有更多的流體機(jī)器學(xué)習(xí)管道,有望進(jìn)一步使機(jī)器學(xué)習(xí)更容易接近的公司,不專注于技術(shù)。
我們采訪了來(lái)自不同科技領(lǐng)域的人們,請(qǐng)他們談?wù)剬?duì)2021年的期待,受訪者都來(lái)自具有代表性的創(chuàng)業(yè)公司和技術(shù)最佳實(shí)踐企業(yè)??纯此麄兌颊f(shuō)了什么吧!
1.山姆·坎農(nóng),F(xiàn)acebook數(shù)據(jù)科學(xué)家
我覺(jué)得自然語(yǔ)言處理目前正以不可思議的速度發(fā)展,這令人既興奮又沮喪。一旦為文本分類或分布式詞表示聚類建立了一個(gè)像樣的管道,新的模型就會(huì)出現(xiàn),它的性能會(huì)超過(guò)昨天使用的模型。
我對(duì)NLP的發(fā)展方向感到非常興奮,尤其是針對(duì)復(fù)雜的NLP任務(wù)的開源解決方案。在這個(gè)領(lǐng)域中,我最喜歡的公司之一是Hugging Face,它也是我個(gè)人對(duì)開放源碼、最先進(jìn)的NLP的晴雨表。
Hugging Face遵循了solv[ing] NLP的信條,將復(fù)雜的NLP模型和任務(wù)民主化,而這些模型和任務(wù)通常由于缺乏計(jì)算能力或?qū)I(yè)知識(shí)而不可能被許多人使用。
它們已經(jīng)提供了簡(jiǎn)單的情感分析解決方案,只需要最少的用戶輸入。在此基礎(chǔ)上,我認(rèn)為2021年將迎來(lái)一波預(yù)先打包的SOTA NLP模型,這些模型只需要一行代碼就可以使用。
在2021,我相信至少開箱即用的NLP模型將允許更多的人從他們的自然語(yǔ)言數(shù)據(jù)中獲得的見解,這就是我在2021年最期待的方面。
2.凱瑟琳·陶,數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)科學(xué)家
我很興奮地看到云計(jì)算在2021年將如何在技術(shù)領(lǐng)域創(chuàng)新。云是公司存儲(chǔ)數(shù)據(jù)的空間,這方面尚存在一些挑戰(zhàn),比如可擴(kuò)展性、效率、數(shù)據(jù)流等等。
我想看看2021會(huì)如何改善云計(jì)算以平衡技術(shù)企業(yè)所面臨的一些主要問(wèn)題。許多公司都在努力將AI引入其業(yè)務(wù)中,通過(guò)創(chuàng)新云計(jì)算,更多的公司應(yīng)該能夠在其公司中實(shí)施人工智能,并以更高的生產(chǎn)率部署項(xiàng)目/產(chǎn)品。
3.賴?yán)?middot;金瑟,Terrain,產(chǎn)品主管
展望2021年,我的關(guān)注重點(diǎn)是地理地圖繪制新工具。我的主要目標(biāo)之一是將我們?cè)赥errain的見解轉(zhuǎn)化為易于為最終用戶解釋的地圖。
當(dāng)今行業(yè)中的許多示例都是使用ArcGIS來(lái)完成的,ArcGIS是一種較舊的但成熟的數(shù)據(jù)映射工具。我相信可能會(huì)有更好的工具,為客戶提供一個(gè)對(duì)舊經(jīng)典的新認(rèn)識(shí)的機(jī)會(huì)。我感興趣的兩個(gè)工具是Uber開發(fā)的開源項(xiàng)目:H3和kepler.gl。
H3的主要優(yōu)勢(shì)之一是能夠根據(jù)縮放將世界細(xì)分為大小不同的六邊形。這解決了我們發(fā)現(xiàn)的早期問(wèn)題之一,即不同的用戶喜歡對(duì)都市圈內(nèi)的社區(qū),子市場(chǎng)或城市的邊界采取不同的觀點(diǎn)。這也使我們能夠更好地在國(guó)際范圍內(nèi)開發(fā)地圖,從而難以獲取邊界數(shù)據(jù)。
kepler.gl也很有趣,因?yàn)樗菀诪樽罱K用戶或MVP在線開發(fā)和托管。Uber開發(fā)了Kepler.gl,允許用戶在內(nèi)部(技術(shù)和非技術(shù))快速開發(fā)可共享的地圖,以可視化地理空間數(shù)據(jù)中的想法。
kepler.gl能夠輕松地可視化時(shí)間序列中的地理數(shù)據(jù)的功能。希望從kepler.gl成為我們的MVP,然后在開始收集用戶反饋時(shí)探索H3。
4.克里斯·杰奧里,Base10合作伙伴,負(fù)責(zé)人
電子商務(wù)(尤其是Shopify及其相關(guān)工具的興起)和遠(yuǎn)程醫(yī)療是我最感興趣的兩個(gè)領(lǐng)域。我寫過(guò)關(guān)于Shopify生態(tài)系統(tǒng)的文章,該公司繼續(xù)達(dá)到新的高度,為200萬(wàn)以上的商家提供了超過(guò)100B美元的GMV。
我對(duì)與Facebook、instagram、TikTok、支付寶、Affirm和Pinterest等新的合作伙伴關(guān)系感到特別興奮,因?yàn)镾hopify成為跨消費(fèi)者所在的主要網(wǎng)絡(luò),以及進(jìn)行商務(wù)交易的基礎(chǔ)架構(gòu)。
電子商務(wù)的傳統(tǒng)領(lǐng)域(服裝和時(shí)尚,CPG產(chǎn)品,保健和保健等)繼續(xù)增長(zhǎng),而食品/雜貨等較新的類別可以通過(guò)Shopify等平臺(tái)自動(dòng)上線。
遠(yuǎn)程醫(yī)療和新的數(shù)字醫(yī)療經(jīng)驗(yàn)也讓我感到興奮。從COVID來(lái)看,很明顯,就經(jīng)濟(jì)“基礎(chǔ)”而言,醫(yī)療保健是最重要的。該類別占GDP的20%(并且還在增長(zhǎng)),幾乎沒(méi)有突破性成果,也沒(méi)有FAANG規(guī)模的公司。
我可以想象,五年內(nèi),至少會(huì)有一個(gè)巨頭出現(xiàn)(并且還期望看到Apple,Google和Amazon繼續(xù)推動(dòng)醫(yī)療保健發(fā)展)。2020年對(duì)于遠(yuǎn)程醫(yī)療來(lái)說(shuō)是重要的一年,Teladoc收購(gòu)了Livongo,并以$30B +的企業(yè)價(jià)值和超過(guò)$1.5B的ARR增長(zhǎng)大于100%,創(chuàng)建了數(shù)字醫(yī)療領(lǐng)域最強(qiáng)大的品牌。
很高興看到嶄新的數(shù)字化健康體驗(yàn)浪潮。
5.金俊, Facebook數(shù)據(jù)工程師
即將到來(lái)的2021年最令我興奮的技術(shù)是Apache Airflow 2.0版本。自2015年首次發(fā)布以來(lái),Apache Airflow一直是數(shù)據(jù)工程中最受歡迎的工作流管理系統(tǒng)之一。
它的巨大成功可以歸因于:它允許將工作流編寫為代碼,簡(jiǎn)單但有效的GUI,并且在構(gòu)造數(shù)據(jù)管道方面具有通用的靈活性。借助新的2.0版本,工作流管理系統(tǒng)將變得更好。
Airflow 2.0將具有許多令人印象深刻的附加功能,包括完全受支持的綜合REST API,TaskFlow API和任務(wù)組。它還提供了許多改進(jìn),包括簡(jiǎn)化的KubernetesExecutor,低延遲的調(diào)度程序以及更加直觀的GUI。
6.邁克爾·米蘭迪,土星云戰(zhàn)略主管
我很希望在2021年看到幾種技術(shù)趨勢(shì),包括GPU計(jì)算在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)中的日益普及。這種轉(zhuǎn)變是由性能優(yōu)先驅(qū)動(dòng)的,以及通過(guò)開源項(xiàng)目RAPIDS使得易于使用成為可能。如果你不熟悉RAPIDS,可以使用RAPIDS在NVIDIA硬件上執(zhí)行Python代碼。
該團(tuán)隊(duì)于今年早些時(shí)候發(fā)布了行業(yè)標(biāo)準(zhǔn)的大數(shù)據(jù)分析基準(zhǔn)測(cè)試結(jié)果,其表現(xiàn)要高出近20倍!有趣的是,這些基準(zhǔn)測(cè)試不僅展示了GPU計(jì)算對(duì)數(shù)據(jù)科學(xué)工作負(fù)載的強(qiáng)大功能,而且還展示了其加速傳統(tǒng)數(shù)據(jù)工程ETL工作的能力。
這會(huì)導(dǎo)致更廣泛地采用Python嗎?我愿意打賭,特別是隨著一批新的數(shù)據(jù)科學(xué)初創(chuàng)公司最近發(fā)布了分布式GPU計(jì)算平臺(tái),這是一種能夠以前所未有的速度啟動(dòng)云中GPU集群的功能。
我期待著2021年能出現(xiàn)更多有趣的技術(shù)突破。