自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="qagoq"></sub>

<cite id="qagoq"><track id="qagoq"></track></cite>

<cite id="qagoq"><rp id="qagoq"><form id="qagoq"></form></rp></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

擴(kuò)展 Spark SQL 解析，你知道嗎?

作者：dafei1288 2021-04-20 23:16:06

運(yùn)維數(shù)據(jù)庫運(yùn)維 Spark

大家好久不見了，最近生活發(fā)生了很多變故，同時(shí)我也大病了一場(chǎng)，希望一切都盡快好起來吧。今天跟大家分享下Spark吧，談?wù)勅绾涡薷腟park SQL解析，讓其更符合你的業(yè)務(wù)邏輯。好，我們開始吧...

大家好久不見了，最近生活發(fā)生了很多變故，同時(shí)我也大病了一場(chǎng)，希望一切都盡快好起來吧。今天跟大家分享下Spark吧，談?wù)勅绾涡薷腟park SQL解析，讓其更符合你的業(yè)務(wù)邏輯。好，我們開始吧...

理論基礎(chǔ)

ANTLR

Antlr4是一款開源的語法分析器生成工具，能夠根據(jù)語法規(guī)則文件生成對(duì)應(yīng)的語法分析器?，F(xiàn)在很多流行的應(yīng)用和開源項(xiàng)目里都有使用，比如Hadoop、Hive以及Spark等都在使用ANTLR來做語法分析。

ANTLR 語法識(shí)別一般分為二個(gè)階段：

1.詞法分析階段 (lexical analysis)

對(duì)應(yīng)的分析程序叫做 lexer ，負(fù)責(zé)將符號(hào)(token)分組成符號(hào)類(token class or token type)

2.解析階段

根據(jù)詞法，構(gòu)建出一棵分析樹(parse tree)或叫語法樹(syntax tree)

ANTLR的語法文件，非常像電路圖，從入口到出口，每個(gè)Token就像電阻，連接線就是短路點(diǎn)。

語法文件(*.g4)

上面截圖對(duì)應(yīng)的語法文件片段，定義了兩部分語法，一部分是顯示表達(dá)式和賦值，另外一部分是運(yùn)算和表達(dá)式定義。

stat:   expr NEWLINE               # printExpr 
  |   ID '=' expr NEWLINE         # assign 
  |   NEWLINE                     # blank 
  ; 
 
expr:   expr op=('*'|'/') expr     # MulDiv 
  |   expr op=('+'|'-') expr     # AddSub 
  |   INT                         # int 
  |   ID                         # id 
  |   '(' expr ')'               # parens 
  ;

接下來，加上定義詞法部分，就能形成完整的語法文件。

完整語法文件：

grammar LabeledExpr; // rename to distinguish from Expr.g4 
 
prog:   stat+ ; 
 
stat:   expr NEWLINE               # printExpr 
  |   ID '=' expr NEWLINE         # assign 
  |   NEWLINE                     # blank 
  ; 
 
expr:   expr op=('*'|'/') expr     # MulDiv 
  |   expr op=('+'|'-') expr     # AddSub 
  |   INT                         # int 
  |   ID                         # id 
  |   '(' expr ')'               # parens 
  ; 
 
MUL :   '*' ; // assigns token name to '*' used above in grammar 
DIV :   '/' ; 
ADD :   '+' ; 
SUB :   '-' ; 
ID :   [a-zA-Z]+ ;     // match identifiers 
INT :   [0-9]+ ;         // match integers 
NEWLINE:'\r'? '\n' ;     // return newlines to parser (is end-statement signal) 
WS :   [ \t]+ -> skip ; // toss out whitespace

SqlBase.g4

Spark的語法文件，在sql下的catalyst模塊里，如下圖：

擴(kuò)展語法定義

一條正常SQL，例如 Select t.id,t.name from t , 現(xiàn)在我們?yōu)槠涮砑右粋€(gè) JACKY表達(dá)式，令其出現(xiàn)在 Select 后面，形成一條語句

Select t.id,t.name JACKY(2) from t

我們先看一下正常的語法規(guī)則：

現(xiàn)在我們添加一個(gè) jackyExpression

jackExpression 本身的規(guī)則就是 JACKY加上括號(hào)包裹的一個(gè)數(shù)字

將 JACKY 添加為token

修改語法文件如下：

jackyExpression 
  : JACKY'(' number ')' 
  //expression 
  ; 
 
namedExpression 
  : expression (AS? (identifier | identifierList))? 
  ; 
 
namedExpressionSeq 
  : namedExpression (',' namedExpression | jackyExpression )* 
  ;

擴(kuò)展邏輯計(jì)劃

經(jīng)過上面的修改，就可以測(cè)試語法規(guī)則，是不是符合預(yù)期了，下面是一顆解析樹,我們可以看到j(luò)ackyExpression已經(jīng)可以正常解析了。

Spark 執(zhí)行流程

這里引用一張經(jīng)典的Spark SQL架構(gòu)圖

我們輸入的 SQL語句首先被解析成 Unresolved Logical Pan ，對(duì)應(yīng)的是

給邏輯計(jì)劃添加遍歷方法：

 override def visitJackyExpression(ctx: JackyExpressionContext): String = withOrigin(ctx) { 
   println("this is astbuilder jacky = "+ctx.number().getText) 
 
   this.jacky = ctx.number().getText.toInt 
 
   ctx.number().getText 
}

再處理namedExpression的時(shí)候，添加jackyExpression處理

// Expressions. 
   val expressions = Option(namedExpressionSeq).toSeq 
    .flatMap(_.namedExpression.asScala) 
    .map(typedVisit[Expression]) 
 
 
//jackyExpression 處理 
   if(namedExpressionSeq().jackyExpression()!=null && namedExpressionSeq().jackyExpression().size() > 0){ 
     visitJackyExpression(namedExpressionSeq().jackyExpression().get(0)) 
  }

好了，到這里從邏輯計(jì)劃處理就完成了，有了邏輯計(jì)劃，就可以在后續(xù)物理計(jì)劃中添加相應(yīng)的處理邏輯就可以了(還沒研究明白... Orz)。

測(cè)試

測(cè)試用例

public class Case4 { 
   public static void main(String[] args) { 
       CharStream ca = CharStreams.fromString("SELECT `b`.`id`,`b`.`class` JACKY(2) FROM `b` LIMIT 10"); 
       SqlBaseLexer lexer = new SqlBaseLexer(ca); 
       SqlBaseParser sqlBaseParser = new SqlBaseParser(new CommonTokenStream(lexer)); 
       ParseTree parseTree = sqlBaseParser.singleStatement(); 
 
       AstBuilder astBuilder = new AstBuilder(); 
       astBuilder.visit(parseTree); 
       System.out.println(parseTree.toStringTree(sqlBaseParser)); 
       System.out.println(astBuilder.jacky()); 
  } 
}

執(zhí)行結(jié)果

本文轉(zhuǎn)載自微信公眾號(hào)「麒思妙想」，可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系麒思妙想公眾號(hào)。

責(zé)任編輯：武曉燕來源：麒思妙想

Spark SQL 語法

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="aboop"></style>

^{<blockquote id="aboop"></blockquote>}

<sub id="aboop"></sub>

<cite id="aboop"><track id="aboop"></track></cite>

<style id="aboop"></style>

<sup id="aboop"></sup>

<p id="aboop"></p>

<cite id="aboop"></cite>