七個不可不知的SQL知識點
SQL與數(shù)據(jù)科學
SQL指的是結構化查詢語言,旨在管理關系型數(shù)據(jù)庫。SQL在數(shù)據(jù)科學中應用廣泛,屬于必備技能。以下列出了SQL的特點:
- 廣泛使用:雖然它已經(jīng)有了大約40年的歷史,但在大多數(shù)關系型數(shù)據(jù)庫系統(tǒng)中用于查詢,并已成為實驗數(shù)據(jù)的標準工具。
- 簡化對數(shù)據(jù)的理解:SQL在瀏覽數(shù)據(jù)庫內(nèi)容時非常方便。它能讓你有效地理解細節(jié)。
- 易于學習:它是新手的完美起點,具有簡單的類英語語法,只需幾行代碼即可提取有價值的見解。
- 能夠處理海量數(shù)據(jù):SQL可以使你以有組織的方式管理大量數(shù)據(jù),是數(shù)據(jù)科學應用的理想選擇。
- 與其他編程語言和應用程序的兼容性:將SQL與Python、C++、R等語言集成非常方便。它還支持商業(yè)智能和數(shù)據(jù)可視化工具,如Power BI和Tableau,使開發(fā)過程更加容易。
7個SQL知識點
1)基本命令
掌握基本命令的知識是終身學習的基礎。否則,你只會記憶事實,而不了解它們?nèi)绾闻浜?。以下是一些最常用的SQL命令:
- SELECT和FROM:從指定的表中檢索數(shù)據(jù)的屬性。
- SELECT DISTINCT:它消除重 復的行并只顯示唯一的記錄。
- WHERE:它過濾記錄并只顯示滿足給定條件的記錄。
- AND、OR、NOT:當條件不為True時不執(zhí)行查詢。而AND和OR用于應用多個條件。
- ORDER BY:它按升序或降序?qū)?shù)據(jù)進行排序。
- GROUP BY:它對相同的數(shù)據(jù)分組。
- HAVING:對由Group By聚合的數(shù)據(jù)可以在此進一步篩選。
- 聚合函數(shù):聚合函數(shù),如COUNT()、MAX()、MIN()、AVG()和SUM(),用于對給定的數(shù)據(jù)執(zhí)行操作。
讓我們以Employee表為例,應用這些命令:
ID | Name | Department | Salary ($) | Gender |
1 | Julia | Admin | 20000 | F |
2 | Jasmine | Admin | 15000 | F |
3 | John | IT | 20000 | M |
4 | Mark | Admin | 17000 | M |
現(xiàn)在,我們想要獲取在Admin部門工作的女性的平均工資。
SELECT Department,
AVG(Salary)
FROM Employees
WHERE Gender="F"
GROUP BY Department
HAVING Department = "Admin";
輸出:
Admin | 17500.0
2)Case When
Case When是SQL中一種非常強大和靈活的語句,用于編寫復雜的條件語句。它提供了IF.THEN.ELSE語句的功能。讓我們來看一下它的語法:
CASE expression
WHEN value_1 THEN result_1
WHEN value_2 THEN result_2
...
WHEN value_n THEN result_n
ELSE result
END
它按順序執(zhí)行語句,并在條件為True時返回值。如果沒有滿足條件的情況,將執(zhí)行ELSE塊,如果沒有ELSE塊,則返回NULL。
假設我們有一個學生數(shù)據(jù)庫,我們想根據(jù)他們的成績對他們進行分級??梢允褂靡韵耂QL語句:
SELECT student_name,
marks,
CASE
WHEN marks >= 85 THEN 'A'
WHEN marks >= 75
AND marks < 85 THEN 'B+'
WHEN marks >= 65
AND marks < 75 THEN 'B'
WHEN marks >= 55
AND marks < 65 THEN 'C'
WHEN marks >= 45
AND marks < 55 THEN 'D'
ELSE 'F'
END AS grading
FROM Students;
3)子查詢
作為一名數(shù)據(jù)科學家,子查詢的知識是必不可少的,因為他們需要處理不同的表格,并且一個查詢的結果可能會再次用于限制主查詢中的數(shù)據(jù)。它也被稱為嵌套查詢或內(nèi)部查詢。子查詢必須用括號括起來,在主查詢之前執(zhí)行。如果它返回多行,則稱為多行子查詢,并且必須使用多行運算符。
假設保險公司推出了一項新政策,取消那些年齡超過80歲的人的保險??梢允褂萌缦滤镜淖硬樵兺瓿桑?/p>
DELETE
FROM INSURANCE_CUSTOMERS
WHERE AGE IN
(SELECT AGE
FROM INSURANCE_CUSTOMERS
WHERE AGE > 80 );
內(nèi)部子查詢選擇了所有80歲以上的客戶,然后對該組執(zhí)行Delete操作。
4)連接
SQL連接是用于基于多個表格之間的邏輯關系將它們中的行組合在一起。SQL連接的4種類型如下所示:
- 內(nèi)部連接(Inner Join):內(nèi)部連接僅顯示滿足給定條件的兩個表格中的行。它可以在集合術語中稱為交集。
SELECT Student.Name
FROM Student
INNER JOIN Sports ON Student.ID = Sports.ID;
它返回那些已在體育部門注冊的學生。注意:Sports ID與學生的注冊ID相同。
- 左連接(Left Join):它返回左表格中的所有記錄,而只顯示右表格中的匹配記錄。
SELECT Student.Name
FROM Student
LEFT JOIN Sports ON Student.ID = Sports.ID;
- 右連接(Right Join):它與左連接作用正好相反。
SELECT Student.Name
FROM Student
RIGHT JOIN Sports ON Student.ID = Sports.ID;
- 完全連接(Full Join):它包含來自兩個表格的所有行,如果它沒有相應的匹配條目,則顯示NULL值。
SELECT Student.Name
FROM Student
FULL JOIN Sports ON Student.ID = Sports.ID;
5)存儲過程
存儲過程允許我們在數(shù)據(jù)庫中存儲多個SQL語句以便日后使用。它提供了可重用性,還可以在調(diào)用時接受參數(shù)值。它可以增強性能,并且更容易進行任何修改。
CREATE PROCEDURE SelectStudents @Major nvarchar(30),
@Grade char(1) AS
SELECT *
FROM Students
WHERE Major = @Major
AND Grade = @Grade GO;
EXEC SelectStudents @Major = 'Data Science',
@Grade = 'A';
此存儲過程允許我們提取不同專業(yè)的學生,并根據(jù)其成績進行篩選。例如,我們要提取所有專業(yè)為數(shù)據(jù)科學且成績?yōu)锳的學生。請注意,CREATE PROCEDURE就像函數(shù)聲明一樣,需要使用EXEC進行調(diào)用以便執(zhí)行。
6)字符串格式化
我們都知道原始數(shù)據(jù)需要進行清洗,以提高整體生產(chǎn)力,從而做出高質(zhì)量的決策。字符串格式化在這種情況下起著重要作用,它涉及到對字符串的操作,以去除不相關的內(nèi)容。SQL提供了大量的字符串函數(shù)來轉(zhuǎn)換和處理字符串。其中最常用的五個函數(shù)如下:
- CONCAT:用于將兩個或多個字符串相加。
SELECT CONCAT(Name, ' has a major of ', Major)
FROM Students
WHERE student_Id = 37;
- SUBSTR:返回字符串的一部分,并在其參數(shù)中提供子字符串的起始位置和長度。
SELECT student_name,admission_date,
SUBSTR(admission_date, 4, 2) AS day
FROM Students
從admission_date中提取出來的day列將以單獨的形式出現(xiàn),。
- TRIM:TRIM的主要作用是從字符串的開頭、結尾或兩者中刪除字符(如果指定了)。必須指定前導、后導或兩者,然后是指定要刪除的字符,再接著是要從中刪除的字符串。
SELECT age,
TRIM(trailing ' years' FROM age)
FROM Students
它將26 years更改為26。
- INSERT:允許我們在給定字符串中的指定位置插入字符串。必須指定要寫入的新子字符串的位置和長度。請注意,此新字符串將覆蓋先前的文本。
SELECT INSERT("OldWebsite.com", 1, 9, "NewWebsite");
它將被更新為NewWebsite.com。
- COALESCE:主要是用使用者定義的值替換空值,這在數(shù)據(jù)科學中經(jīng)常需要。
SELECT COALESCE (NULL, NULL, 10, 'John’')
這將返回10。
7)窗口函數(shù)
窗口函數(shù)類似于聚合函數(shù),但在計算后不會使行合并為單個行。相反,行保留其各自的標識。它們分為三個主要類別:
- 聚合函數(shù):它從數(shù)值列中顯示聚合值,如AVG()、COUNT()、MAX()、MIN()、SUM()等。
SELECT name,
AVG(salary) over (PARTITION BY department)
FROM Employees;
它顯示了Employee表中不同部門的平均工資。
- 值函數(shù):使用值窗口函數(shù)為每個分區(qū)分配一些值。一些常用的值函數(shù)有LAG()、LEAD()、FIRST_VALUE()、LAST_VALUE()和NTH_VALUE()。
SELECT
bank_branch, month, income,
LAG(income,1) OVER (
PARTITION BY bank_branch
ORDER BY month
) income_next_month
FROM Bank;
我們將銀行不同分支機構的本月收入與上月進行比較。
- 排名函數(shù):它們可根據(jù)預定義排序為行分配排名。ROW_NUMBER()、RANK()、DENSE_RANK()、PERCENT_RANK()、NTILE()等是其中的幾個函數(shù)。
SELECT
product_name, price,
RANK () OVER (
ORDER BY list DESC
) price_hightolow
FROM Products;
使用RANK(),對產(chǎn)品進行基于價格的排名。
結論
通過閱讀本文能全面了解作為數(shù)據(jù)科學家需要了解多少SQL基本知識。如果想更深入地了解這些概念,以下是一些資源可供參考:
【SQLServertutorial】:https://www.sqlservertutorial.net/
【TutorialsPoint】:https://www.sqlservertutorial.net/
【W(wǎng)3Schools】:https://www.w3schools.com/sql/