收藏!你必須知道的數據科學界大佬,都在這里
是什么讓數據科學成為一個性感的行業(yè)?當把海量數據注入到新興行業(yè)中,并隨之而涌現的大量令人興奮的新技術。
如今,數據科學不再是純抽象領域的代名詞,而是隨處可見。
從大型產業(yè)到學術研究,無不體現出社會對該專業(yè)領域知識需求的增長。如:語音識別、計算機視覺中的物體識別、機器人和自動駕駛、生物信息學、神經科學、系外行星的發(fā)現和對宇宙起源的理解、以及組建廉價且成功的棒球隊。
數據科學從本質上看涵蓋了多學科,所以對其更準確的概括應該是知識提取的過程?;旧暇褪侵赋晒φ{試工具進行更高效的信息采集、存儲、數據處理和合成。
美國計算機科學家和圖靈獎獲得者吉姆·格雷(Jim Gray)認為,繼經驗主義、理論主義及計算模式的思潮過后,數據科學一躍成為“第四范式”。用格雷的話說,信息技術改變了一切。不知不覺中我們已步入第四次工業(yè)革命,數據科學連同機器學習與分布式計算一直處于前沿領域,日后的信息技術只會更加普及。
話又說回來了,數據科學到底是什么?在上述例子中,數據科學家就是整個企業(yè)的核心。他/她必須將應用領域的知識與統(tǒng)計專業(yè)知識相結合,并用計算機代碼來實現他們。身處發(fā)展如此之快的領域,那么誰又是真正值得信賴的專家?
下面是一些該領域最具權威的領軍人物,他們憑借自己的思想和行動致力于信息技術的普及。沒有這些人,帶動數字世界發(fā)展的科技巨頭也就不會在人工智能或機器學習方面取得巨大成就。
吳恩達(Andrew Ng,美籍華裔)
人工智能研究的進步呈現出了前所未有的快,得益于更多的人加入到了研究隊伍中,
人數比以往任何時候都要多。我很看好這個趨勢,我們需要不斷招賢納士!
——吳恩達(@AndrewNg)2019年3月18日
吳恩達是AI和機器學習領域最具權威的專家之一,與他人共同創(chuàng)建并指導了谷歌大腦(Google Brain)研究項目,曾是百度的副總裁和首席科學家,帶領了人工智能研發(fā)團隊。此外,吳恩達也是教育事業(yè)的先鋒者,其聯合創(chuàng)辦的 Coursera課程平臺深受大眾喜愛。而且提起深度學習近年來的變革,人們總會把吳恩達比作催化劑。
李飛飛(美籍華人)
在國會山的時候,我跟議會的成員、參議員還有Stanford HAI的人聊了聊以人為本的人工智能??吹搅艘痪浞浅:玫脑?,是對人工智能的展望,“人工智能將會讓人類之間的聯系更加緊密”
——李飛飛(@drfeifei),2019年6月12日
身為斯坦福大學的計算機科學教授,李飛飛目前也是以人為本人工智能研究院的聯合主任。她曾是斯坦福人工智能實驗室的負責人(2013-2018),被公認為是人工智能、機器學習、計算機視覺和認知神經科學領域的引領者。李飛飛為 ImageNet虛擬數據庫項目付出了很多,這也是她最大的成就之一,該數據庫主要用于創(chuàng)建視覺識別軟件。可以說深度學習變革的進展離不開她在此項目中所作的努力。
Alon Halevy
這句很短的話是我之前寫的:搜索的難度會越來越大,因為數據因人產生同時也為人所用。感謝HaixunWang鼓勵我寫下這些話!
——Alon Halevy(@AlonHalevy)2019年5月3日
Halevy是一名以色列裔美國計算機科學家,也是數據集成領域的領先研究員。他從2005年到2015年擔任谷歌的研究科學家,負責谷歌數據融合表(Google Fusion Tables),隨后成為技術招聘部門的主管。他還當過華盛頓大學的計算機科學教授。
Halevy是斯隆獎得主,于2000年榮獲了美國“青年科學家總統(tǒng)獎(PECASE)”。2006年度的時候,獲得了十年一度的VLDB Endowment獎。他也是Nimble技術公司(現更名為Actuate企業(yè))和Transformic Inc公司的創(chuàng)始人。Halevy于1993年在斯坦福大學獲得了博士學位。
Ben Lorica
發(fā)博:人工智能和機器學習會通過整個組織進行再訓練,因此,企業(yè)有必要對員工進行全面性的訓練。
——Ben Lorica(@bigdata),2019年6月26日
Lorica是奧萊利媒體公司( O’ReillyMedia)的首席數據科學家,同時是年度人工智能大會以及Strata數據大會的項目負責人。他的研究方向是商業(yè)智能、數據挖掘和機器學習。Lorica在推特上十分活躍,也是一位高產的作家,其出版的書籍會定期在O’ReillyMedia的博客上發(fā)布。
Bernard Marr
影響我們每天生活的關鍵因素就是快速發(fā)展的技術產業(yè)。Statista公司發(fā)布的一份報告顯示,預計全球自動化市場的營業(yè)額將在2020年超過500億美元。
——Bernard Marr(@BernardMarr),2019年7月10日
Marr是個未來主義者,他的書在世界各地都非常暢銷,演講也十分受歡迎。很多政府和各大企業(yè)都會邀請他來當人工智能和數據數據科學的顧問。Marr的終極目標是讓世界更好地運用數據。
Chris Surdak
在教條延續(xù)幾個世紀以后的今天,分形傳達的信息令人不可思議——所有復雜甚至既存的法則都難免留有數學的印記。機器人流程自動化(RPA)、機器加工(Machining)以及人工智能的普及一旦為人們所接受,就不再是晦澀難懂的東西了。
——Chris Surdak(@CSurdak),2019年5月9日
Surdak聲稱自己就是個“大數據”。他是一位作家,也是名火箭專家,同時還是技術策略與大數據的專家(這并不見怪)。現在的Surdak沒事寫寫書,經營著自己的顧問公司,以前他在惠普、戴爾、花旗銀行都從事過。他一直致力于研究如何最大化利用數字經濟的潛力。
DJ Patil
數據科學是團隊活動。
——DJ Patil(@dpatil),2019年6月15日
2015年至2017年,DJ Patil是美國首席數學家。2008年他與臉書早期的數學科學負責人Jeff Hammerbacher共同命名了“數據科學家”一詞的現代版本,這在當時也引起不少關注。目前Patil在Devoted Health公司擔任技術總監(jiān),之前是RelateIQ(被Salesforce收購)的產品副總裁、Color Labs的首席產品官以及LinkedIn的數據產品負責人和首席科學家。擔任國家第一任首席數據科學家期間,他還成立了新的醫(yī)療項目,有精準醫(yī)學計劃、“癌癥Moonshot”倡議;此外也進行了新一輪的刑事司法改革,通過了數據驅動司法和警察數據提議。帕蒂爾在2016年榮獲國防部杰出公共服務獎章。
Doug Cutting
之前在紅木城??怂箘≡簠⒓舆^兩場活動,真的覺得今天這場慶祝Cloudera和 Hortonworks兩公司的合并更有意思,是有在向觀眾傳達信息的,而且放了“桶頭”的搖滾樂。
——Doug Cutting(@cutting)2019年1月10日
Doug Cutting創(chuàng)立了搜索索引器 Adobe Lucene和網絡爬蟲(或蜘蛛)Nutch,二者是通用開源軟件平臺必不可少的組件,不僅如此,還將通用開源軟件(如Linux 和MySQL)的性能提升到了垂直搜索層面。Cutting畢業(yè)于斯坦福大學,在施樂帕羅奧多研究中心(Xerox PARC)從事Scatter/Gather算法和計算風格方面的研究工作。他曾是搜索引擎Excite的一位首席設計師,是Apple’s V-Twin 文本搜索框架的主要構思者,之后創(chuàng)建了 Lucene。
Dean Abbott
毋庸置疑,科學和藝術對高效的機器學習來說缺一不可,因為數學就是文字。機器學習哪有什么常識啊,所有的“知識”都是輸進去的數據!
——Dean Abbott特(@DeanAbbott),2019年6月7日
Abbott是SmarterHQ的聯合創(chuàng)始人,這是一家專注于研發(fā)個性化人工智能的公司,他在里面也擔任著首席數據科學家的角色。Abbott寫了很多有關數據科學的書,比如《應用預測分析——專業(yè)數據分析師需了解的原則和技巧》(Applied Predictive Analytics: Principles and Techniques for the ProfessionalData Analyst)感興趣的話可以看看他的博客,上面還有更多個人成就。
Hadley Wickham
- a <- factor(c("character","in", "the", "streets"))
- b <- factor(c("integer","in", "the", 'sheets'))
- c(a, b)
- #> [1] 1 2 4 3 2 1 4 3#rstats
——Hadley Wickham(@hadleywickham)2019年7月9日
大家可能不知道這個,但其實Wickham的成就隨處可見。統(tǒng)計語言中經常會用到他創(chuàng)建的許多包(package),全世界下載量最多的三個R包都是他的。簡言之,他就是R方面的專家,而且寫的書也跟這方面有關,如《數據科學中的R》(Rfor Data Science)。平日里若不是研發(fā)統(tǒng)計模型,那Wickham一定是在出席各個大數據會議,宣傳自己的想法。
Hilary Mason
肯定有很多人不認同,但我依然喜歡發(fā)郵件,我覺得它對維持人與人間的關系有著不可小覷的作用,因為它真的有在提高人們溝通的效率。不過我說的也不一定對。
——Hilary Mason(@hmason),2019年6月11日
Mason是數據產業(yè)領域的領軍人物之一,跟許多組織開展合作,將數據科學更好地融入到傳統(tǒng)經濟領域中。之前她是Bit.ly.公司的首席科學家,最近忙于自己人工智能企業(yè)(Fast Forward實驗室)的建立。Mason還有一個角色,就是HackNY的聯合創(chuàng)辦人,該組織專注于培養(yǎng)未來的計算機科學家和計算機工程師。
Ilya Sutskever
機器學習非常神奇,核心概念并不多,沒有過分地違反常理,并且在正確的引領下,該領域前沿的大致方向也是正確的!
——Ilya Sutskever(@Ilya Sutskever)2019年5月17日
Sutskever目前是OpenAI的首席科學家,該人工智能初創(chuàng)公司由伊隆·馬斯克成立。Sutskever研究的是人工智能的風險計算以及如何應對。在整個職業(yè)生涯中,他為深度學習做出了巨大貢獻。同時,他也是AlexNet神經網絡的聯合發(fā)明者。在多倫多大學獲得了計算機科學博士學位。2015年,Sutskever榮登《麻省理工科技評論》35 Innovators Under 35。
Jake Porway
今天要講數據科學建立的操作和服務于SXSW社會影響力的人工智能,我非常激動。加入330對話吧!
——Jake Porway(@jakeporway)2019年3月8日
Porway是DataKing的創(chuàng)始人兼高級總監(jiān),這是一支由代碼人和統(tǒng)計學家組成的跨學科隊伍,他們的共同目標就是普及人工智能和數據科學。Porway最近在紐約時報的搜索和研發(fā)實驗室擔任數據科學家。曾獲得了哥倫比亞大學的計算機本科學位和加州大學洛杉磯分校的統(tǒng)計學碩士和博士學位。
John Myles White
統(tǒng)計實在是太難了,但那些不相信它的人(比如心理學家)很有可能傳遞錯誤的信息。事實證明的確如此,而且這個問題一直存在。
——John Myles White(@johnmyleswhite),2019年6月30日
John Myles White目前是臉書的數據科學家,平日也會通過Julia編程語言的搞一些開發(fā)。他專攻的對象是機器學習和統(tǒng)計(尤其是R)。除去全職開發(fā)員的身份,懷特也寫各種各樣的書,比如“黑客看的機器學習”、用于網頁優(yōu)化的Bandit 算法。
Kira Radinsky
我為自己的學生感到非常驕傲,他們寫出了一個自動化公式1!可以在以色列的高速公路上開!
——Kira Radinsky(@KiraRadinsky),2018年10月19日
Radinsky是eBay的數據科學總監(jiān),也是eBay以色列分部的首席科學家。她曾是SalesPredict公司的首席技術官,該公司后來被eBay收購。Radinsky把所有的熱情都投在了預測數據挖掘上。她是數據科學界燃起的一顆新星,登上過福布斯30Under30榜單。
Kenneth Cukier
人工智能取得的成就當然有其他令人振奮人心的實例,只不過是通過間接或二階效應體現。在醫(yī)療診斷上,人工智能的應用或許只適用于人類——但卻降低了輻射的應用,對病人的安全保障和就醫(yī)環(huán)境來說是一次巨大的進步。
——Kenneth Cukier(@kncukier),2019年6月20日
Cukier是經濟學人的數據專家,同時也是一位高產的作家,出版的《大數據:一場能夠改變我們生活、工作和思考的變革》(Big Data: A Revolution That WillTransform How We Live, Work, and Think)。他的時間大部分都用在了討論人工智能和大數據的未來上。Cukier在TED(這是他參加的為數不多的公開講話)上說過這樣一句話“大數據是更好的數據”。
Kirk Borne
沉浸式創(chuàng)新的下一代前沿領域——VR和AR將結合數據科學、人工智能、創(chuàng)造性能、機器學習以及設計和設計思維為訓練和計劃提供穩(wěn)定的環(huán)境。
——Kirk Borne(@KirkDBorne)2019年7月10日
Borne是一名數據科學家,被譽為當今世上最具影響力的人物之一。他研究人工智能和大數據,因此又被IPFC喻為數據科學領域的“排行第一的數字影響者”。你不僅能在世界各地的會議上看到他的演講,這個人在天文方面也能侃侃而談。之前他在NASA的哈勃太空望遠鏡數據團隊工作過一段時間。
Marck Vaisman
能在下周紐約市舉辦的DominoRev峰會上講話,我很激動!到時候會分享我從商從政以及學術方面的有關數據科學的經驗,也希望從更多在場的優(yōu)秀數據科學領導者身上學到更多的東西。
——Marck Vaisman(@wahalulu),2019年5月14日
Vaisman是喬治敦大學和喬治華盛頓大學的兼職教授,給研究生教授大數據的課程,也是微軟公司的技術解決專員。因為是做數據科學的,他會幫助顧客操作Azure云端,云端也將運用于數據科學、高級分析和人工智能的處理。Vaisman是R的編程者和倡導者,在2010年啟動了統(tǒng)計編程哥倫比亞地區(qū)項目,同時也是數據社區(qū)哥倫比亞地區(qū)的聯合創(chuàng)始人,組織的成立推動了該地區(qū)數據科學和分析的發(fā)展。
Monica Rogati
我并不覺得數據科學家一抓一大把,但我相信想成為數據科學家但不切實際的人有很多。“我是個打籃球的,但不想做枯燥的訓練,只想扣籃,像電視上一樣。NBA我來了!”
——Monica Rogati(@mrogati)2019年2月14日
Rogati是Data Collective (DCVC)的股權合伙人,也是CrowdFlower的科學顧問。2013年至2015年間,她是Jawbone的數據副總裁。曾經也是LinkedIn的高級數據科學家,在這里用五年的時間創(chuàng)建了最初的工作匹配系統(tǒng),也為LinkedIn建立了首個機器學習模型——“可能認識的人”推薦功能。2014年,Rogati被《財富》(Fortune)評為“大數據全明星”,同年,Fast Company授予她“百位最具創(chuàng)造力商業(yè)人物之一”的榮譽稱號。她獲得了卡內基梅隆大學的計算機科學博士學位。
Lukas Biewald
深度學習班上有位同學(@thegautam)借助GPT-2模型生成網站域名,效果太棒了。
——Lukas Biewald(@l2k),2019年6月24日
Biewald是Weights&Biases公司的創(chuàng)始人,該公司主要創(chuàng)建適合機器學習的開發(fā)工具。早在2007年,他是FigureEight Inc.互聯網公司的聯合創(chuàng)辦者,該公司當時是收集用于機器學習的訓練數據。在那之前,Biewald曾是Powerset的高級科學家和經理,Powerset是一家自然語言搜集技術公司,隨后被微軟收購。
自2005年至2006年間,他帶領Yahoo! JAPAN的搜索團隊,專注于研發(fā)統(tǒng)計機器學習,提高國際市場的網頁搜索功能排名。Biewald擁有斯坦福大學的數學本科學位和計算機科學碩士學位,在2010年因創(chuàng)建GiveWorkiPhone應用程序榮獲Netexplorateur獎,該程序讓用戶只需通過簡單的操作就能足不出戶地幫助難民和發(fā)展中國家的人。Inc.雜志上說的30位30歲以下的商業(yè)精英就有他的名字。
Nando de Freitas
劍橋大學的研究員研發(fā)了一款可以識別、篩選生菜的機器人,并且不會破壞生菜。
——Nando de Freitas(@NandoDF),2019年7月8日
Freitas是英國一家人工智能公司DeepMind的首席科學家,該公司是創(chuàng)建神經網絡的,在2004年被谷歌收購。目前他是牛津大學計算機科學系的教授,研究機器學習領域中的神經網絡、貝葉斯推斷(Bayesian inference)和深度學習,憑借機器學習方面的工作他還獲得過多項獎項。
Peter Skomoroch
很多合法的初創(chuàng)企業(yè)都會因為社會中的各種聲音迷失了方向。我們是不是需要給人工智能初創(chuàng)企業(yè)來幾場顧客報告?通過一些基礎操作或者瞥一眼某位機器學習資深人士的融資演講稿,可以了解很多商業(yè)案例的。
——Peter Skomoroch(@peteskomoroch),2019年6月25日
Skomoroch是LinkedIn的首席研究科學家,提供了“技能”及其他一些數據驅動的服務。他建立了數據整理(Data Wrangling),進行數據挖掘,提供預測分析咨詢服務。在加入LinkedIn之前,他曾擔任過Juice Analytics的高級分析總監(jiān)、AOL Search的高級研究工程師,也是麻省理工學院Lincoln 實驗室的研究人員。Skomoroch獲得了布蘭戴斯大學的數學物理學士學位。
Sebastian Thrun
谷歌眼鏡的問世、Focalsbynorth智能眼鏡的發(fā)布(我驚了!),當然還有我在Magicleap公司的第一周都非常棒,這個公司果然名不虛傳。Focals可能是最贊的AR體驗了,我迫不及待想看更多的Leap應用程序!
——SebastianThrun (@SebastianThrun)2019年4月24日
Thrun創(chuàng)立了Google X,自此在數據科學領域一舉成名。該項目旨在研究未來技術和潛在領域。Magicleap之所以能夠相繼推出自動駕駛汽車、谷歌眼鏡等就是拜GoogleX所賜。目前Thrun在斯坦福大學做研究,他也是Udacity的創(chuàng)始人。
Wes McKinney
蟻群算法(Ant colonies)跟C++構建系統(tǒng)有許多共同點。
——Wes McKinney(@wesmckinn),2019年3月15日
McKinney是Pandas數據庫的創(chuàng)始人,致力于開發(fā)Python編碼語言。他著的書不僅跟數據庫有關,還拓展了很多Python領域的知識,經常是全球大大小小數據會議的重要人物。貌似只有數據專家才能關注他的推特,不過他的見解十分重要。
Yann LeCun(法裔美國計算機科學家)
常識植根于語言一直是一個誤解。恕我直言,常識來源于你對世界的認知,
相比語言它跟直觀物理(IntuitivePhysics)有著更多千絲萬縷的聯系。
不過這個世界少不了人與人的溝通,語言也就成為了其中的一部分。
——Yann LeCun(@ylecun)2019年7月9日