自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

SQL 優(yōu)化的“最后一公里”,謹(jǐn)慎操作 NULL 值

數(shù)據(jù)庫 其他數(shù)據(jù)庫
NULL 值作為一種特殊的存在,無論它出現(xiàn)在哪種運(yùn)算中,都可能導(dǎo)致意料之外的結(jié)果。因此在數(shù)據(jù)處理之前,我們通常需要對(duì) NULL 值進(jìn)行篩選和處理,以避免出現(xiàn)潛在的問題。

在SQL優(yōu)化中,謹(jǐn)慎操作NULL值至關(guān)重要。NULL值作為特殊的標(biāo)記,表示數(shù)據(jù)缺失或未知,其在數(shù)據(jù)庫中的處理需特別小心,稍有不慎就可能引發(fā)一系列問題。

一、NULL值帶來的影響

(一)對(duì)查詢性能的影響

1. 索引失效:當(dāng)在索引列上進(jìn)行NULL值判斷時(shí),索引可能會(huì)失效,導(dǎo)致數(shù)據(jù)庫引擎放棄使用索引而進(jìn)行全表掃描。這將極大地降低查詢效率,尤其是在大數(shù)據(jù)量的表中,全表掃描的時(shí)間成本非常高。

2. 增加計(jì)算復(fù)雜性:NULL值的存在會(huì)使查詢的計(jì)算變得更加復(fù)雜。在進(jìn)行聚合計(jì)算、排序等操作時(shí),需要額外的處理來排除或考慮NULL值,這會(huì)增加數(shù)據(jù)庫的計(jì)算量和處理時(shí)間。例如,在使用SUM、AVG等聚合函數(shù)時(shí),如果列中存在NULL值,這些值將被忽略,但計(jì)算過程仍需要考慮其存在,從而影響計(jì)算結(jié)果的準(zhǔn)確性和性能。

(二)對(duì)數(shù)據(jù)準(zhǔn)確性的影響

1. 意外結(jié)果:如果在查詢中沒有正確處理NULL值,可能會(huì)導(dǎo)致意外的結(jié)果。例如,在比較操作中使用NULL值時(shí),除了NULL與NULL相等之外,其他與NULL的比較結(jié)果都是未知的,這可能導(dǎo)致查詢結(jié)果不符合預(yù)期[^3^]。

2. 數(shù)據(jù)一致性問題:在一些復(fù)雜的業(yè)務(wù)邏輯中,如果對(duì)NULL值的處理不當(dāng),可能會(huì)導(dǎo)致數(shù)據(jù)的不一致性。例如,在多表連接查詢中,如果某個(gè)連接條件涉及的列為NULL,可能會(huì)導(dǎo)致連接結(jié)果不正確,進(jìn)而影響到整個(gè)查詢的數(shù)據(jù)準(zhǔn)確性。

二、解決方案

1. 合理設(shè)計(jì)表結(jié)構(gòu):在創(chuàng)建表時(shí),盡量避免將字段設(shè)置為允許NULL值,除非確實(shí)有明確的業(yè)務(wù)需求。對(duì)于一些關(guān)鍵字段,如主鍵、外鍵等,應(yīng)確保其不為NULL,以保證數(shù)據(jù)的完整性和一致性。

2. 使用默認(rèn)值:為可能為NULL的字段設(shè)置合理的默認(rèn)值,這樣可以避免插入NULL值,同時(shí)也能保證數(shù)據(jù)的完整性。

3. 謹(jǐn)慎處理查詢中的NULL值:在編寫SQL查詢語句時(shí),要充分考慮NULL值的影響,避免直接對(duì)NULL值進(jìn)行判斷和計(jì)算??梢允褂肐S NULL、IS NOT NULL等運(yùn)算符來顯式地處理NULL值,或者使用COALESCE、NULLIF等函數(shù)來替換NULL值為指定的值。

三、謹(jǐn)慎操作NULL值

大多數(shù)編程語言都包含布爾數(shù)據(jù),該類型數(shù)據(jù)僅有兩個(gè)值 TRUE 和 FALSE。這種邏輯體系被稱為二值邏輯,即任何事物要么是真(TRUE),要么是假(FALSE)。然而在 SQL中,如下圖所示,存在第三個(gè)值—未知,也就是 UNKNOWN,因此 SQL 的邏輯體系被 稱為三值邏輯。UNKNOWN 在我們的日常生活中有著相當(dāng)廣泛的應(yīng)用,例 如在填寫問卷時(shí),如果用戶不愿透露某些信息,相應(yīng)的錄入項(xiàng)就會(huì)缺失。在公司組織結(jié)構(gòu)中,也可能出現(xiàn)某些職位(如董事長或總經(jīng)理)沒有上級(jí)領(lǐng)導(dǎo)的情況。為了在 SQL 中表示這類情況,我們需要設(shè)定一個(gè)特殊的標(biāo)記。這個(gè)標(biāo)記在 SQL 中既不是 一個(gè)具體的值,也不是一個(gè)變量,它就是 NULL。在數(shù)據(jù)表中,NULL 通常顯示為一個(gè)空字段,表示數(shù)據(jù)項(xiàng)的值未知,不確定是否存在,或者根本就沒有 相應(yīng)的數(shù)據(jù)。

圖片圖片

圖 三值邏輯示意

在大多數(shù)編程語言中,嘗試訪問 NULL 值通常會(huì)導(dǎo)致錯(cuò)誤。然而在 SQL 中,這不會(huì)引發(fā)錯(cuò)誤,但會(huì)影響運(yùn)算結(jié)果。例如在下面所示的查詢語句中,對(duì) NULL 值進(jìn)行減法操作會(huì)返回 NULL,這可能會(huì)影響我們的最終計(jì)算結(jié)果。

SELECT 1 - NULL;
-- 返回 NULL

當(dāng)我們使用比較運(yùn)算符(如 =、<>、<、> 等)將 NULL 與其他值進(jìn)行比較時(shí),結(jié)果既不是真(TRUE)也不是假(FALSE),而是未知(UNKNOWN)。這是因?yàn)?NULL 代表的是未知,它可能代表任何值。正如以下所示的查詢語句中,無論是將 NULL 與數(shù)值比較,還 是將兩個(gè) NULL 值相比較,返回的結(jié)果都是 NULL。這是因?yàn)?NULL 與任何值都不等同, 即使是兩個(gè) NULL 之間也不相等。因此不能斷言兩個(gè)未知的值是相同的,同樣也不能斷言 它們是不同的。

SELECT NULL = 0;
SELECT NULL <> 0; 
SELECT NULL <= 0; 
SELECT NULL = NULL; 
SELECT NULL != NULL;
-- 都返回 NULL

需要注意的是,在 SQL 中,WHERE、HAVING 以及 CASE WHEN 子句僅返回邏輯運(yùn)算結(jié)果為真的數(shù)據(jù)記錄,而不會(huì)返回結(jié)果為假或未知的記錄。這可能會(huì)在使用過程中引起一些混淆。下面以一個(gè)例子來說明。假設(shè)有一個(gè)存儲(chǔ)用戶 id、用戶姓名和用戶年齡的臨時(shí) 用戶表 tmp_user,數(shù)據(jù)抽樣如下所示。

SELECT *
FROM tmp_user; 
-- user_id name age 
123 bob 15
345 ac 17 
348 NULL NULL

當(dāng)執(zhí)行以下的查詢語句,即過濾 age 不為空、不為 15 的記錄。

SELECT `name`
FROM tmp_user 
WHERE age NOT IN (NULL, 15);

我們發(fā)現(xiàn)結(jié)果返回空集,因?yàn)槭褂玫氖堑戎当容^,所以如果 NOT IN 碰到了 NULL 值,也不會(huì)有任何返回。當(dāng)函數(shù)或表達(dá)式的參數(shù)中包含 NULL 值時(shí),其結(jié)果通常也是 NULL。例如,在嘗試計(jì)算 NULL 值的絕對(duì)值(使用 ABS 函數(shù))時(shí)將返回 NULL。對(duì) NULL 值進(jìn)行加、減、乘、除等數(shù)值運(yùn)算,結(jié)果也將是 NULL。這種處理 NULL 值的方式需要在進(jìn)行數(shù)據(jù)分析和處理時(shí)特別注意,以避免出現(xiàn)意外的空結(jié)果集。

-- 都返回 NULL
SELECT ABS(NULL);
SELECT 1 + NULL;

而在使用聚合函數(shù)(如 SUM、COUNT、AVG 等)時(shí),這些函數(shù)通常會(huì)在計(jì)算之前排除 NULL 值。以下面的查詢語句為例,假設(shè)我們要統(tǒng)計(jì)用戶臨時(shí)表中年齡的分布,包括求和、計(jì)算平均值、計(jì)數(shù)等操作。

SELECT SUM(age)
,AVG(age)
,COUNT(age)
,COUNT(*)
FROM tmp_user; 
-- 返回結(jié)果
32 16.0 2 3

可以看到,COUNT(*) 總是返回?cái)?shù)據(jù)的行數(shù),不受空值的影響,而 SUM、COUNT、AVG 都只計(jì)算 age 列不為空的數(shù)據(jù)。 

而 在 SQL 的 分 組 聚 合 操 作 中, 總 是 將 所 有 的 NULL 值 分 到 同 一 個(gè) 組, 包 括DISTINCT、GROUP BY 以及窗口函數(shù)中的 PARTITION BY。當(dāng) NULL 較多時(shí),會(huì)導(dǎo)致潛在的數(shù)據(jù)傾斜風(fēng)險(xiǎn),從而拖慢任務(wù)執(zhí)行速度。在連接操作時(shí),連接鍵中存在 NULL,判定NULL = NULL 不成立,NULL <> NULL 也不成立,因此可能會(huì)導(dǎo)致返回的結(jié)果集與預(yù)期不符。 

而在排序操作中,SQL 標(biāo)準(zhǔn)沒有定義 NULL 值的排序順序,但是為 ORDER BY 定義了Nulls First 和 Nulls Last 選項(xiàng),用于明確指定空值排在其他數(shù)據(jù)之前或者之后。例如 Spark默認(rèn)將 NULL 作為最小值,升序時(shí)排在最前,而 Oracle 和 PostgreSQL 則默認(rèn)將 NULL 作為最大值,升序時(shí)排在最后。

-- Spark SQL 
SELECT age 
FROM tmp_user 
ORDER BY age ASC; 
-- age 列,可以看到 NULL 升序排最前
NULL 
15 
17

NULL 值作為一種特殊的存在,無論它出現(xiàn)在哪種運(yùn)算中,都可能導(dǎo)致意料之外的結(jié)果。因此在數(shù)據(jù)處理之前,我們通常需要對(duì) NULL 值進(jìn)行篩選和處理,以避免出現(xiàn)潛在的問題。

責(zé)任編輯:武曉燕 來源: 數(shù)倉寶貝庫
相關(guān)推薦

2015-04-23 10:30:42

華為

2022-07-29 09:03:17

AIOPS運(yùn)維工具

2022-07-26 07:35:30

數(shù)據(jù)庫HTAP系統(tǒng)

2015-12-11 10:46:01

2011-12-25 20:54:57

移動(dòng)支付

2012-09-24 15:07:09

云ERP恩信科技云應(yīng)用

2022-04-19 08:09:11

PON光纖網(wǎng)絡(luò)

2023-12-12 08:31:44

智能運(yùn)維場景

2017-02-21 12:30:21

數(shù)據(jù)中心智能終端網(wǎng)絡(luò)

2017-02-21 13:30:42

數(shù)據(jù)網(wǎng)絡(luò)終端

2015-11-03 13:55:44

物聯(lián)網(wǎng)最后一公里

2017-09-04 16:49:25

2014-09-28 10:00:38

2009-09-07 11:47:22

無線交換機(jī)

2017-11-22 17:41:17

商業(yè)智能企業(yè)數(shù)據(jù)

2012-04-24 10:29:10

VDSL2光接入

2019-12-16 09:33:08

浪潮

2018-01-12 05:13:35

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)