亞馬遜云科技陳曉建:面向未來云原生數(shù)據(jù)基礎(chǔ)設(shè)施的四大要素
原創(chuàng)總計5萬多客戶和合作伙伴參加線下活動,超過30萬人參與線上會議,亞馬遜云科技第11屆re:Invent峰會落下帷幕。每年的re:Invent全球大會都會發(fā)布許多重磅的新服務(wù)、功能和應(yīng)用,來支持遍及全球各地、來自千行百業(yè)的客戶進行不斷的創(chuàng)新和重塑。亞馬遜云科技始終致力于通過技術(shù)的不斷創(chuàng)新,讓全球包括中國的客戶能凌云馭勢、重塑未來。
近日,亞馬遜云科技正式開啟2022 re:Invent中國巡展活動,展示2022 re:Invent全球大會的最新產(chǎn)品和技術(shù)、前沿趨勢以及最佳實踐。
數(shù)據(jù)爆炸不是未來,而是現(xiàn)實。分析人士預(yù)測,未來五年產(chǎn)生的數(shù)據(jù)量將會是數(shù)字時代開始以來的兩倍多。如何管理海量數(shù)據(jù),挖掘數(shù)據(jù)價值,對每個組織來說都是巨大的挑戰(zhàn)。亞馬遜云科技通過提供端到端的全面數(shù)據(jù)解決方案,幫助客戶打造從數(shù)據(jù)的攝入,數(shù)據(jù)存儲與查詢,到數(shù)據(jù)分析,商業(yè)智能,再到人工智能與機器學(xué)習(xí)創(chuàng)新,并通過安全合規(guī)的方式進行集團內(nèi)或公司之間的共享和輸出。
亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建提到,構(gòu)建端到端數(shù)據(jù)戰(zhàn)略的三個核心為:建立面向未來的云原生數(shù)據(jù)基礎(chǔ)設(shè)施;實現(xiàn)高效、跨組織的數(shù)據(jù)一體化融合;借助教育和工具,使數(shù)據(jù)普惠化。
其中,一個面向未來的云原生數(shù)據(jù)基礎(chǔ)設(shè)施應(yīng)該有四個核心要素:面對不同類型的工作負載,提供合適的工具;在大規(guī)模運行的情況下仍然保持高性能;通過智能化手段和工具為客戶降低運營復(fù)雜性,有效提升工作效率;提供最高級別的可靠性和安全性,來保護數(shù)據(jù)存儲。
亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建
用合適的數(shù)據(jù)庫工具應(yīng)對所有類型的工作負載
在工具方面,亞馬遜云科技擁有最完整的數(shù)據(jù)庫,包括關(guān)系數(shù)據(jù)庫(如 Amazon Aurora)和 8 個專用數(shù)據(jù)庫(如Amazon DynamoDB)為應(yīng)用程序提供數(shù)據(jù)工作負載支持。同時,亞馬遜云科技為分析工作負載提供最全面的服務(wù),例如使用 Amazon Redshift 的 SQL 分析、使用 Amazon EMR 的大數(shù)據(jù)分析、使用 Amazon QuickSight 的商業(yè)智能以及使用 Amazon OpenSearch 的交互式日志分析。此外,亞馬遜云科技還提供一系列廣泛的功能來支持機器學(xué)習(xí)工作負載,包括 PyTorch 和 TensorFlow 等深度學(xué)習(xí)框架、可以更輕松地創(chuàng)建 ML 模型的 Amazon SageMaker 等服務(wù),以及具有內(nèi)置機器學(xué)習(xí)功能的 AI 服務(wù),例如Amazon Transcribe 和Amazon Polly。
在本次大會上,亞馬遜云科技宣布推出了適用于 Apache Spark 的 Amazon Athena,讓用戶使用Athena來調(diào)用Spark,在短短一秒內(nèi)即可開始 在Apache Spark運行交互式數(shù)據(jù)分析任務(wù),用戶無需準(zhǔn)備基礎(chǔ)架構(gòu)配置。同時,客戶還只需為使用的資源付費。
亞馬遜云科技還宣布了針對 Apache Spark 的新 Amazon Redshift 集成預(yù)覽,通過這一功能,客戶可以通過Amazon EMR 或者Amazon Glue這樣的Spark引擎來消費Amazon Redshift中的數(shù)據(jù)。與現(xiàn)有的 Amazon Redshift-Spark連接器相比,這種集成使Spark引擎對Amazon Redshift的數(shù)據(jù)抽取速度提高了10倍。
除了發(fā)布新特性,亞馬遜云科技也在持續(xù)優(yōu)化性能??蛻粼?Amazon EMR、Amazon Glue、Amazon SageMaker、Amazon Redshift 和Amazon Athena 上運行經(jīng)過優(yōu)化的Spark runtime,可以獲得比開源版本 Spark 快 3 倍的性能。
在大規(guī)模的情況下保持高性能
Amazon Aurora的自動擴展功能可以將每個數(shù)據(jù)庫實例可自動擴展到最大128TB,而只有其他傳統(tǒng)企業(yè)級數(shù)據(jù)庫大概1/10的 使用成本;DynamoDB在2022年的Amazon Prime Day期間每秒處理超過一億次的請求;上萬個Amazon Redshift用戶每天都會處理超過EB級別的數(shù)據(jù)總量,它也具備超過其他的云數(shù)倉約5倍的更好的性價比,同時,在高并發(fā)和低延時的場景下,比如報表和dashboard的應(yīng)用,Amazon Redshift的性價比是其他方案的7倍。
在這些強大能力的基礎(chǔ)上,本次re:Invent再次發(fā)布了多項數(shù)據(jù)庫新特性,包括:Amazon DocumentDB Elastic Clusters,將Amazon DocumentDB集群彈性擴展到支撐百萬級讀寫每秒和PB級存儲容量的規(guī)模;Amazon RDS寫優(yōu)化,將數(shù)據(jù)寫入吞吐量最高提升兩倍;Amazon RDS讀優(yōu)化,將數(shù)據(jù)查詢性能最高提升50%。
消除繁重的工作
亞馬遜云科技通過自動化和機器學(xué)習(xí)的內(nèi)置智能來減少手動任務(wù)。Amazon SageMaker支持新的地理空間機器學(xué)習(xí)功能Geospatial ML,客戶只需單擊幾下即可從Amazon SageMaker訪問不同的數(shù)據(jù)源上的地理 空間數(shù)據(jù)。內(nèi)置可視化工具使您能夠使用 3D加速圖形在交互式地圖上分析數(shù)據(jù)和探索模型預(yù)測。本次大會還發(fā)布了Amazon OpenSearch Serveless,補上了分析服務(wù)Serverless化的最后一塊拼圖。
可靠性和安全性
本次大會新發(fā)布了Amazon RDS藍/綠部署。為客戶開辟一個測試環(huán)境進行補丁或者新配置的測試,當(dāng)測試成功之后快速將測試環(huán)境切換為生產(chǎn)環(huán)境。這樣的功能極大地節(jié)省了數(shù)據(jù)庫團隊運維中的操作壓力,同時提升運維效率,保證數(shù)據(jù)零損失。
新發(fā)布的Amazon Redshift Multi-AZ多可用區(qū)功能,實現(xiàn)了Amazon Redshift的跨可用區(qū)容災(zāi)。這樣的功能與Amazon Redshift本來具備的自動備份和恢復(fù)功 能相結(jié)合,為客戶的關(guān)鍵分析負載加上了雙保險。
連接數(shù)據(jù)的能力與云原生數(shù)據(jù)基礎(chǔ)設(shè)施一樣重要。亞馬遜云科技提出“零ETL”的未來:無需再次手動構(gòu)建數(shù)據(jù)管道。亞馬遜云科技在本次大會上發(fā)布了多項全新的集成功能,幫助客戶實現(xiàn)“Zero-ETL”(零ETL)。例如,Amazon Aurora 將首次支持與 Amazon Redshift 的 Zero-ETL(提取、轉(zhuǎn)換和加載)集成,將事務(wù)數(shù)據(jù)與分析功能結(jié)合在一起,消除了在 Aurora 和 Redshift 之間構(gòu)建和管理自定義數(shù)據(jù)管道的所有工作。用戶不必構(gòu)建和維護復(fù)雜的數(shù)據(jù)管道來執(zhí)行提取、轉(zhuǎn)換和加載(ETL)操作。又如:亞馬遜云科技打造出 Amazon DataZone,用于分類、發(fā)現(xiàn)、共享和管理數(shù)據(jù)的數(shù)據(jù)管理服務(wù),可以集成 Redshift、Athena 和 QuickSight,以及對第三方數(shù)據(jù)源提供 API 接口,可實現(xiàn)細粒度數(shù)據(jù)管理,其中包含由機器學(xué)習(xí)填充的數(shù)據(jù)目錄,易于使用業(yè)務(wù)術(shù)語進行搜索。