自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

聊聊一種讀取億級Doris數據庫的方法

數據庫 其他數據庫
如果數據量比較大,超過千萬,甚至過億,單節(jié)點讀取會遇到超時以及時效過低的問題??梢允褂胹park.read.jdbc分布式多節(jié)點并發(fā)讀取。spark讀取支持兩種方式。
  1. 工作中,常常需要將線上doris同步至集市。讀取doris數據同讀取常規(guī)mysql基本相同。如果數據行小于千萬,比較簡單的方式直接單節(jié)點連接、讀取和存儲。Python示例如下:
def get_data(sql,host='',port=2000,user='',password='',db=''):
    # 支持doris
    import pymysql
    connect = pymysql.connect(host=host,port=port,user=user,password=password,db=db,charset='utf8')
    cursor = connect.cursor()
    cursor.execute('SET query_timeout = 216000;') #單位秒
    cursor.execute(sql)
    result = cursor.fetchall()
    for row in result:
        pass # 存儲格式可以自行控制 
    cursor.close()
    connect.close()
    return result
  1. 如果數據量比較大,超過千萬,甚至過億,單節(jié)點讀取會遇到超時以及時效過低的問題??梢允褂胹park.read.jdbc分布式多節(jié)點并發(fā)讀取。spark讀取支持兩種方式。

主要參數介紹:

read.jdbc(url=url,table=remote_table,column='item_sku_id',numPartitions=50,lowerBound=lowerBound, upperBound=upperBound,properties=prop)

url:格式如'jdbc:mysql://**.jd.com:2000/數據庫名?useUnicode=true&characterEncoding=UTF-8&autoReconnect=true&failOverReadOnly=false&zeroDateTimeBehavior=convertToNull&useSSL=false&serverTimezone=Asia/Shanghai'

table:可以是表名,也可以是查詢sql(也即支持條件查詢),如果是sql,格式如"(SELECT count(*) sku FROM rule_price_result where dt='2023-05-10') AS tmp"

numPartitions:控制并發(fā)節(jié)點個數

lowerBound+upperBound和properties二選一,控制每個節(jié)點讀取的數據范圍。

lowerBound+upperBound方式:指定讀取最低和最高值,spark會結合分區(qū)個數和最低最高邊界機械做分割。

如果數據分布有傾斜,可以通過predicates列表自行控制范圍。

作者:京東零售 趙奇猛

來源:京東云開發(fā)者社區(qū)

責任編輯:武曉燕 來源: 今日頭條
相關推薦

2011-04-06 10:09:56

MySQL數據庫安裝

2018-09-27 16:15:10

區(qū)塊鏈數據庫

2012-03-14 11:46:30

ibmdw

2012-03-19 10:45:44

ibmdw

2021-06-11 00:11:23

GPS數據協議

2023-03-30 22:32:21

2018-12-14 14:30:12

安全檢測布式系測試

2011-07-04 17:53:48

快速測試

2022-04-20 08:00:00

深度學習數據集Hub

2020-05-19 17:07:09

Spark測試數據計算

2010-03-26 13:34:47

CentOS安裝

2023-01-26 00:18:53

云原生數據庫云資源

2021-10-28 19:28:04

數據庫開發(fā)Spring

2023-01-06 08:31:53

數據庫基準測試

2024-10-12 15:29:56

2019-12-31 14:21:00

數據挖掘關系網絡數據

2018-02-08 08:11:41

2022-09-23 07:44:48

時序數據庫物聯網

2019-03-05 10:16:54

數據分區(qū)表SQLserver

2022-09-22 07:50:12

數據庫運營商日檢
點贊
收藏

51CTO技術棧公眾號