自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<label id="wwgb5"></label>

<cite id="wwgb5"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

Blaze RangePartitioning 算子 Native 實現(xiàn)全解析原創(chuàng)

發(fā)布于 2025-2-21 16:36

瀏覽

0收藏

引言：本文將全面且深入地解析 Blaze RangePartitioning 算子的 Native 實現(xiàn)過程。相較于原生 Spark，RangePartitioning 的 Native 實現(xiàn)在執(zhí)行時間上達到了 30%的顯著下降，同時在資源開銷方面節(jié)省了高達 76%。這一改進大幅降低了運行成本，展現(xiàn)了 Native 實現(xiàn)帶來的巨大優(yōu)勢。

一、算子描述

RangePartitioning 是 shuffle partitioning 的一種分區(qū)類型。它通過根據(jù)數(shù)據(jù)的值范圍將數(shù)據(jù)劃分成多個分區(qū)。每個分區(qū)包含特定范圍內(nèi)的值，通常用于處理有序的數(shù)據(jù)集，能夠根據(jù)數(shù)據(jù)值進行動態(tài)劃分。

RangePartitioning 的基本思想是：先對數(shù)據(jù)采樣找到劃分標志 bounds，根據(jù) bounds 將數(shù)據(jù)劃分成多個近似大小的區(qū)間，然后將數(shù)據(jù)按所屬區(qū)間寫入對應 partition，用于 order by 全排序場景。

二、實現(xiàn)方案

RangePartitioning 實現(xiàn)主要包含采樣和 partition 劃分兩個部分。

步驟一：首先需要獲取每個 partition 對應的區(qū)間劃分范圍 bounds，所以會先對全量數(shù)據(jù)進行采樣，算出 partitionNum - 1 個區(qū)間分割點 bounds。具體流程如下：

1、在 driver 端基于 InternalRow 進行數(shù)據(jù)采樣：

通過 spark.sql.execution.rangeExchange.sampleSizePerPartition 參數(shù)控制每個分區(qū)平均采樣數(shù)量，設置一個稍微過采樣一點的采樣數(shù) sampleSizePerPartition。
對每個分區(qū)采用蓄水池采樣（Reservoir Sampling）算法進行采樣。
對采樣結果評估，記錄采樣不均衡的分區(qū)重新采樣（某個分區(qū)數(shù)據(jù)量過多，按照 sampleSizePerPartition 均值采樣會出現(xiàn)樣本數(shù)少于實際應采樣數(shù)量，即采樣不均衡的情況）。
計算每個樣本的權重 weight，通過 sumWeights/numReducer = step 找到每個邊界的步長，類似于直方圖劃分邊界找出 numReducer-1 個分割點 bounds。

2、由于采樣數(shù)據(jù)量可能不足導致 bounds 較少，需要重新設置 partitionNum=bounds.len + 1。因此會出現(xiàn) RangePartitioning 的實際 partition num 與設置數(shù)量不同的情況。

3、定義 rangepartition 的序列化方式，主要包括三個參數(shù)：SortExpr、numPartitions、Bounds。進而轉成 native 算子進行后續(xù)處理。

Blaze RangePartitioning 算子 Native 實現(xiàn)全解析-AI.x社區(qū)

步驟二：在 native 端需要再計算一次全量數(shù)據(jù)，將數(shù)據(jù)按分割點 bounds 寫入對應的 partition。具體流程如下：

1、將 bounds 和 input 數(shù)據(jù)都轉成可直接比較的 arrow-row 類型。

2、針對每個 batch，對將數(shù)據(jù)與 bounds 進行比較并確定所在 partition id：

如果 bounds.len<=128，直接進行比較。
如果 bounds.len>128，進行二分查找提速。

Blaze RangePartitioning 算子 Native 實現(xiàn)全解析-AI.x社區(qū)

三、優(yōu)化效果

通過構造 sql 語句測試加速效果：

sql 測試例子

11.8GB 數(shù)據(jù)量：

insert overwrite table blaze_t.like_lineitem select * from tpch_parquet_1000.lineitem order by l_quantity

復制代碼

實現(xiàn) Native RangePartitioning

執(zhí)行計劃：

Blaze RangePartitioning 算子 Native 實現(xiàn)全解析-AI.x社區(qū)

sql 時間 1073.516 s

Stage Total Time Across All Tasks: 8.9h

沒有實現(xiàn) Native RangePartitioning，會回退到 spark 的 RangePartitioning

Blaze RangePartitioning 算子 Native 實現(xiàn)全解析-AI.x社區(qū)

sql 時間 1357.814 s

Stage Total Time Across All Tasks 38.1h

Blaze RangePartitioning 算子 Native 實現(xiàn)全解析-AI.x社區(qū)

多個不同 sql 測試取均值

Stage 時間提升：76.94%

四、總結

多次測試取均值，RangePartitioning 實現(xiàn) native 相比舊版執(zhí)行時間下降 30%，資源開銷節(jié)約 70%
由于采樣結果可能較少導致 bounds 小于 partition num-1，RangePartitioning 可能實際執(zhí)行的 partition num 與設置不同。

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

深度探索：LLaMa-3 網(wǎng)絡安全能力全解析

戀戀青鳥 ? 2052瀏覽 ? 0回復
LangChain百萬代碼全解析：這個模型胃口很大！

ermulong ? 2071瀏覽 ? 0回復
大模型開發(fā)之算子

AI探索時代 ? 7957瀏覽 ? 0回復
小白也能讀懂的GraphRAG知識圖譜全流程解析，多圖預警！

AI博物院 ? 6289瀏覽 ? 0回復
4種革新性AI Agent工作流設計模式全解析

大語言模型論文跟蹤 ? 2475瀏覽 ? 0回復
從零開始掌握OpenCV：Python圖像處理最詳細入門教程（實戰(zhàn)代碼全解析）

唐克 ? 3748瀏覽 ? 0回復
LangChain生態(tài)全解析， LangGraph、LangFlow、LangSmith

AI科技論談 ? 7538瀏覽 ? 0回復
探秘大語言模型數(shù)據(jù)合成能力：AgoraBench基準測試全解析

十一月雨_55 ? 2181瀏覽 ? 0回復
基于 Gemini AI 實現(xiàn)音頻和視頻解析

丟翅膀的魚 ? 2486瀏覽 ? 0回復
深入解析變分自編碼器（VAE）：理論、數(shù)學原理、實現(xiàn)與應用

唐克 ? 3274瀏覽 ? 0回復
五分鐘讀懂Manus平替：深度解析OpenManus 如何重新定義Multi Agent?

AI博物院 ? 3861瀏覽 ? 0回復
一文讀懂AI智能體：概念、特性、類型與應用全解析

Halo咯咯 ? 2865瀏覽 ? 0回復
LocalAPI.ai升級，功能亮點全解析

V0ne ? 1224瀏覽 ? 0回復
MCP 全解析，手把手教你基于 MCP 開發(fā) Agent

玄姐聊AGI ? 8501瀏覽 ? 0回復
DeepSeek 部署全解析：三種方案對比與云端部署的顯著優(yōu)勢

AI算力補給站 ? 1172瀏覽 ? 0回復
企業(yè)級RAG全解析：實現(xiàn)精準、安全、高效智能客服

云原生AI百寶箱 ? 990瀏覽 ? 0回復
MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā)

玄姐聊AGI ? 7118瀏覽 ? 0回復
MCP 架構設計演進：從 Local MCP Server 到 Remote MCP Server 開源架構設計實現(xiàn)

玄姐聊AGI ? 3557瀏覽 ? 0回復
MCP協(xié)議深度解析

Halo咯咯 ? 1597瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

業(yè)內(nèi)首次! 全面復現(xiàn)DeepSeek-R1-Zero 數(shù)學、代碼能力，訓練步數(shù)僅需R1-Zero 1/10 6天前發(fā)布
新加坡見！快手11篇論文入選人工智能領域頂會ICLR 2025 6天前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：動效資源交付的突破：Vision 平臺準入準出方案

下一篇：秒開率從 18% 到 64%，我們對小程序模擬器做了什么？

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="nijzy"><i id="nijzy"></i></blockquote>}

<p id="nijzy"><li id="nijzy"></li></p>