谷歌把打敗99%程序員的AutoML集成到Kaggle平臺!
以后參加Kaggle競賽,可以直接派出AutoML自動訓練AI怪獸參賽了。谷歌今天宣布,將Cloud AutoML服務深度集成到Kaggle平臺,雖然是付費服務,但提供了一攬子免費試用和補貼方案。
谷歌宣布,將用于訓練機器學習算法的Cloud AutoML服務集成到數(shù)據(jù)科學平臺Kaggle中。
Cloud AutoML是一個基于云的工具包,提供一個拖放界面來訓練AI模型。使用AutoML,任何人都可以創(chuàng)建定制的機器學習模型,只需極少的工作量和機器學習專業(yè)知識。
Kaggle是一個供數(shù)據(jù)科學家和其他機器學習愛好者探索、分析和分享他們的工作的在線社區(qū),被谷歌于2017年收購。Kaggle也是全球最大的機器學習及數(shù)據(jù)科學競賽平臺,就在今天,谷歌宣布Kaggle社區(qū)最近達到了一個新的里程碑,用戶數(shù)突破了350萬。
谷歌表示,通過將Cloud AutoML與Kaggle整合在一起,它正在推進其使命,即“通過為他們提供在該領域領先所需的技能和工具,使我們的數(shù)據(jù)科學家社區(qū)更加強大”。
Cloud AutoML允許用戶從軟件開發(fā)工具包或基于web的用戶界面獲取數(shù)據(jù),設置一些參數(shù),然后根據(jù)這些數(shù)據(jù)訓練模型;經(jīng)過訓練的模型隨后可以直接部署到谷歌的云基礎架構上。
新的集成將使Kaggle用戶能夠在Jupyter Notebooks中直接使用 Cloud AutoML SDK,這是數(shù)據(jù)科學家用來創(chuàng)建和共享包含實時代碼、公式、可視化和敘述性文本的開源web應用程序。
Kaggle產(chǎn)品經(jīng)理Devvret Rishi說:“今天發(fā)布的重點是使我們的社區(qū)能夠在Kaggle Notebooks上直接使用SDK。”
Cloud AutoML是一項付費服務,不過它為初學者提供了免費試用方案。谷歌還為用戶全年提供谷歌云平臺(GCP)積分,以幫助補貼在Kaggle上使用AutoML的成本,并且,所有注冊GCP的新Google帳戶都將獲得$ 300的補貼。
今年6月,谷歌還將BigQuery數(shù)據(jù)倉庫服務和Kaggle集成在一起。該集成允許BigQuery用戶使用快速SQL查詢,在SQL中訓練機器學習模型,并在Kaggle的Jupyter筆記本環(huán)境中進行分析,稱為Kaggle Kernels。
根據(jù)谷歌的說法,這種方法的好處在于,用戶無需實際移動或下載數(shù)據(jù)來查詢數(shù)據(jù)或對其進行機器學習。一旦用戶的Google Cloud帳戶鏈接到內(nèi)核筆記本或腳本,就可以使用BigQuery API客戶端庫直接在筆記本中撰寫查詢,針對BigQuery運行查詢,并使用數(shù)據(jù)進行幾乎任何類型的分析。
AutoML有多強:Kaggle競賽擊敗99%人類程序員
AutoML在今年早些時候就引起了人們的關注,它在Cloud Next '19的Kaggle Days舉行的機器學習競賽中一度脫穎而出,只是在最后時刻才被一組數(shù)據(jù)科學家以微弱優(yōu)勢淘汰。
今年4月,在長達8個半小時的Kaggle Days數(shù)據(jù)處理挑戰(zhàn)上,有一個團隊非常特別:這個由3名谷歌研究員組成的小組不打算自己上場,而是用一款名為AutoML的AI軟件參與競賽。
其他200多名參與者來自Kaggle平臺的頂級梯隊,他們組成多個小組,任務是“從一家匿名汽車零部件制造商那里得到數(shù)據(jù),通過這些數(shù)據(jù),他們要預測工廠產(chǎn)出中的不良批次”。
谷歌研究員Quoc Le與同事Ming Chen和Lu Yifeng Lu一起領導了AutoML項目
現(xiàn)場掛著一塊大屏幕,上面是比賽即時排行榜,參賽的程序員就在這塊大屏幕的陰影下辛勤工作。程序員們通過向網(wǎng)站提交代碼進行測試來衡量他們在比賽中的成果,分數(shù)會實時顯示在屏幕上。
對于AI可能取代頂尖程序員這一點,Kaggle.com上排名第一的“大師”Vladimir Iglovikov表示懷疑,在場的大多數(shù)人也都認為,AI軟件不可能與世界頂尖的數(shù)據(jù)科學家的創(chuàng)造力相媲美。
然而,比賽進行幾個小時后,讓人震驚的結果出現(xiàn)了,AutoML提交了第1個自動生成的代碼,在排行榜上名列第2,領先了絕大多數(shù)小組。但這對于谷歌團隊來說一點都不奇怪,該軟件是3年前他們花巨資開發(fā)的,一開始的目的就是要替代自己的部分工作。
領導了谷歌AutoML開發(fā)的AI研究員Quoc Le感到興奮。他和團隊在過去的幾場Kaggle比賽中測試了AutoML,通常都需要花費幾個月而不是幾個小時。他們認為在現(xiàn)場比賽中AutoML能取得前10%的成績就算是成功了。
到了下午3:30,AutoML的勝利似乎已成定局,最接近它的人類團隊也落后很遠。當選手們在下午5:30集合查看最終比分時,歡呼聲爆發(fā)了:AutoML 排名第二。
AutoML贏了99%的頂尖人類程序員。
而且在競賽中,使用AutoML的團隊只需要付出較少的精力,就能迅速獲得出色的性能,并且無需領域專業(yè)知識或監(jiān)督。在數(shù)據(jù)準備上花費時間很少,而在特征工程、模型選擇和超參數(shù)調(diào)參上幾乎不用花什么時間。
此外,在另一個IEEE的競賽中,AutoML的時間效率的優(yōu)勢更加突出,數(shù)千團隊花了幾周的時間,才能在排行榜上大幅超越AutoML的基準水平。
上圖為該賽事前四周的提交分數(shù)(個人得分),與比賽開始時發(fā)布的AutoML Tables基準分數(shù)(綠線)。藍點虛線表示每日提交分數(shù)的90%分位水平。AutoML Tables基準在比賽的前兩周中都超過了這一水平
AutoML的簡單性和有效性為存在數(shù)據(jù)科學問題需求的人群(這些人不一定具有深厚的數(shù)據(jù)科學背景)提供了創(chuàng)建性能強大的模型的可能。
大酬賓:Kaggle用戶使用AutoML,每個關聯(lián)賬號補貼300刀
Cloud AutoML可幫助用戶針對各種任務集(視覺,語言到結構化數(shù)據(jù))構建自定義機器學習模型。每種應用的實際用法各不相同,但所有方法都遵循從SDK或Web UI提取數(shù)據(jù)的一般模式,用戶可以調(diào)節(jié)設置,并輸出訓練好的模型。今天的重點是,我們的社區(qū)已經(jīng)能夠直接在Kaggle Notebook中使用SDK。
簡單上手:如何在Kaggle平臺上使用AutoML
Kaggle與AutoML的集成遵循了我們先前將BigQuery引入Kaggle Notebook的腳步。
首先,只需關聯(lián)用戶的GCP帳戶并授權訪問要使用的云服務,同時啟用云存儲將使AutoML輕松訪問您的數(shù)據(jù)。
關聯(lián)Google帳戶后,需要仔細檢查云帳戶是否已準備就緒。為此,請確保已為GCP項目啟用了機器學習API和結算設置。AutoML是一項付費服務,為了使更多的Kagglers可以使用AutoML,我們計劃在全年內(nèi)提供GCP積分,以補貼使用該服務的費用,所有注冊G谷歌云平臺的新帳戶都將獲得300美元的額度。
用戶可以使用Kaggle Notebook中的內(nèi)置客戶端SDK,也可以使用云控制臺中的Web界面輕松運行AutoML。要在Notebook中使用AutoML,請查看幫助文檔或教程。要了解有關自動機器學習的主題及其改善數(shù)據(jù)科學工作流程的更多信息,請觀看我們的講解視頻。
現(xiàn)在,AutoML已經(jīng)深度集成到Kaggle競賽平臺,相信今后的Kaggle競賽,派出AutoML參賽的程序員會越來越多。