自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一次設(shè)計(jì)演進(jìn)之旅

開(kāi)發(fā) 開(kāi)發(fā)工具
今天我給大家講一講關(guān)于設(shè)計(jì)演講的過(guò)程。

一、需求背景

[[182446]]

我們需要實(shí)現(xiàn)對(duì)存儲(chǔ)在HDFS中的Parquet文件執(zhí)行數(shù)據(jù)查詢(xún),并通過(guò)REST API暴露給前端以供調(diào)用。由于查詢(xún)的結(jié)果可能數(shù)量較大,要求API接口能夠提供分頁(yè)查詢(xún)。在第一階段,需要支持的報(bào)表有5張,需要查詢(xún)的數(shù)據(jù)表與字段存在一定差異,查詢(xún)條件也有一定差異。

每個(gè)報(bào)表的查詢(xún)都牽涉到多張表的Join。每張表都被創(chuàng)建為數(shù)據(jù)集,對(duì)應(yīng)為一個(gè)Parquet文件。Parquet文件夾名就是數(shù)據(jù)集名,名稱(chēng)是系統(tǒng)自動(dòng)生成的,所以我們需要建立業(yè)務(wù)數(shù)據(jù)表名、Join別名以及自動(dòng)生成的數(shù)據(jù)集名的映射關(guān)系。數(shù)據(jù)集對(duì)應(yīng)的各個(gè)字段信息都存儲(chǔ)在Field元數(shù)據(jù)表中,其中我們需要的三個(gè)主要屬性為:

  • CodeName:創(chuàng)建數(shù)據(jù)集時(shí),由系統(tǒng)自動(dòng)生成
  • FieldName:為客戶數(shù)據(jù)源對(duì)應(yīng)數(shù)據(jù)表的字段名
  • DisplayName:為報(bào)表顯示的列名

說(shuō)明:為了便于理解,我將要實(shí)現(xiàn)的五個(gè)報(bào)表分別按照序號(hào)命名。

二、解決方案

1. 前置條件

本需求是圍繞著我們已有的BI產(chǎn)品做定制開(kāi)發(fā)?,F(xiàn)有產(chǎn)品已經(jīng)提供了如下功能:

  • 通過(guò)Spark SQL讀取指定Parquet文件,但不支持同時(shí)讀取多個(gè)Parquet文件,并對(duì)獲得的DataFrame進(jìn)行Join
  • 獲取存儲(chǔ)在MySQL中的DataSet與Field元數(shù)據(jù)信息
  • 基于AKKA Actor的異步查詢(xún)

2. 項(xiàng)目目標(biāo)

交付日期非常緊急,尤其需要盡快提供最緊急的第一張報(bào)表:定期賬戶掛失后辦理支取。后續(xù)的報(bào)表也需要盡快交付,同時(shí)也應(yīng)盡可能考慮到代碼的重用,因?yàn)閳?bào)表查詢(xún)業(yè)務(wù)的相似度較高。

3. 整體方案

基于各個(gè)報(bào)表的具體需求,解析并生成查詢(xún)Parquet(事實(shí)上是讀取多個(gè))的Spark SQL語(yǔ)句。生成的SQL語(yǔ)句會(huì)交給Actor,并由Actor請(qǐng)求Spark的SQLContext執(zhí)行SQL語(yǔ)句,獲得DataFrame。利用take()結(jié)合zipWithIndex實(shí)現(xiàn)對(duì)DataFrame的分頁(yè),轉(zhuǎn)換為前端需要的數(shù)據(jù)。

根據(jù)目前對(duì)報(bào)表的分析,生成的SQL語(yǔ)句包含join、where與order by子句。報(bào)表需要查詢(xún)的數(shù)據(jù)表是在系統(tǒng)中硬編碼的,然后通過(guò)數(shù)據(jù)表名到DataSet中查詢(xún)?cè)獢?shù)據(jù)信息,獲得真實(shí)的由系統(tǒng)生成的數(shù)據(jù)集名。查詢(xún)的字段名同樣通過(guò)硬編碼方式,并根據(jù)對(duì)應(yīng)數(shù)據(jù)集的ID與字段名獲得Field的元數(shù)據(jù)信息。

三、設(shè)計(jì)演進(jìn)

1. 引入模板方法模式

考慮到SQL語(yǔ)句具有一定的通用性(如select的字段、表名與join表名、on關(guān)鍵字、where條件、排序等),差異在于不同報(bào)表需要的表名、字段以及查詢(xún)條件。通過(guò)共性與可變性分析,我把相同的實(shí)現(xiàn)邏輯放在一個(gè)模板方法中,而將差異的內(nèi)容(也即各個(gè)報(bào)表特定的部分)交給子類(lèi)去實(shí)現(xiàn)。這是一個(gè)典型的模板方法模式:

  1. trait ReportTypeParser extends DataSetFetcher with ParcConfiguration { 
  2.   def sqlFor(criteria: Option[List[Condition]]): String 
  3.   def criteriaFields: Array[Field] 
  4.  
  5.   private[parc] def predefinedTables: List[TableName] 
  6.   private[parc] def predefinedFields: List[TableField] 
  7.  
  8.   def generateHeaders: Array[Field] = { 
  9.     predefinedFields.map(tf => tf.fieldName.field(tf.table.originalName)).toArray 
  10.   }} 
  11.  
  12. class FirstReportTypeParser extends ReportTypeParser { 
  13.   override def sqlFor(criteria: Option[List[Condition]]): String = { 
  14.     s"""       
  15.        select ${generateSelectFields}       
  16.        from ${AccountDetailTable} a       
  17.        left join ${AccountDebtDetailTable} b       
  18.        left join ${AoucherJournalTable} c       
  19.        on a.${AccountDetailTableSchema.Account.toString.codeName(AccountDetailTable)} = b.${AccountDebtDetailTableSchema.Account.toString.codeName(AccountDebtDetailTable)}       
  20.        and a.${AccountDetailTableSchema.CustomerNo.toString.codeName(AccountDetailTable)} = c.${AoucherJournalTableSchema.CustomerNo.toString.codeName(AoucherJournalTable)}       
  21.        where ${generateWhereClause}$       
  22.        ${generateOrderBy}     
  23.     """ 
  24.   } 
  25.  
  26.   override private[parc] def predefinedTables: List[TableName] = ... 
  27.   override private[parc] def predefinedFields: List[TableField] = ... 
  28.  
  29.   private[parc] def generateSelectFields: String = { 
  30.     if (predefinedFields.isEmpty) "*" else predefinedFields.map(field => field.fullName).mkString(",") 
  31.   } 
  32.  
  33.   private[parc] def generateWhereCluase(conditionsOpt: Option[List[Condition]]): String = { 
  34.     def evaluate(condition: Condition): String = { 
  35.       val aliasName = aliasNameFor(condition.originalTableName) 
  36.  
  37.       val codeName = fetchField(condition.fieldId) 
  38.         .map(_.codeName) 
  39.         .getOrElse(throw ResourceNotExistException(s"can't find the field with id ${condition.fieldId}")) 
  40.  
  41.       val values = condition.operator.toLowerCase() match { 
  42.         case "between" => { 
  43.           require(condition.values.size == 2, "the values of condition don't match between operator") 
  44.           s"BETWEEN ${condition.values.head} AND ${condition.values.tail.head}" 
  45.         } 
  46.         case _ => throw BadRequestException(s"can't support operator ${condition.operator}") 
  47.       } 
  48.  
  49.       s"${aliasName}.${codeName} ${values}" 
  50.     } 
  51.  
  52.     conditionsOpt match { 
  53.       case Some(conditions) if !conditions.isEmpty => s"where  ${conditions.map(c => evaluate(c)).mkString(" and ")}" 
  54.       case _ => "" 
  55.     } 
  56.   }} 

在ReportTypeParser中,我實(shí)現(xiàn)了部分可以重用的邏輯,例如generateHeaders()等方法。但是,還有部分實(shí)現(xiàn)邏輯放在了具體的實(shí)現(xiàn)類(lèi)FirtReportTypeParser中,例如最主要的sqlFor方法,以及該方法調(diào)用的諸多方法,如generateSelectFields、generateWhereCluase等。

在這其中,TableName提供了表名與數(shù)據(jù)集名、別名之間的映射關(guān)系,而TableField則提供了TableName與Field之間的映射關(guān)系:

  1. case class TableName(originalName: String,  
  2.                      metaName: String,  
  3.                      aliasName: String,  
  4.                      generatedName: String = ""
  5.  
  6. case class TableField(table: TableName,  
  7.                       fieldName: String,  
  8.                       orderType: Option[OrderType] = None) 

仔細(xì)觀察sqlFor方法的實(shí)現(xiàn),發(fā)現(xiàn)生成select的字段、生成Join的部分以及生成條件子句、排序子句都是有規(guī)律可循的。這個(gè)過(guò)程是在我不斷重構(gòu)的過(guò)程中慢慢浮現(xiàn)出來(lái)的。我不斷找到了這些相似的方法,例如generateSelectFields、generateWhereClause這些方法。它們之間的差異只在于一些與具體報(bào)表有關(guān)的元數(shù)據(jù)上,例如表名、字段名、字段名與表名的映射、表名與別名的映射。

我首先通過(guò)pull member up重構(gòu),將這兩個(gè)方法提升到ReportTypeParser中:

  1. trait ReportTypeParser extends ... { 
  2.   private[parc] def generateSelectFields: String = ... 
  3.   private[parc] def generateWhereCluase(conditionsOpt: Option[List[Condition]]): String 

此外,還包括我尋找到共同規(guī)律的join部分:

  1. trait ReportTypeParser extends ... { 
  2.   private[parc] def generateJoinKeys: String = { 
  3.     def joinKey(tableField: TableField): String = 
  4.       s"${aliasNameFor(tableField.tableName)}.${tableField.fieldName.codeName(mapping.tableName)}" 
  5.  
  6.     predefinedJoinKeys.map{ 
  7.       case (leftTable, rightTable) => s"${joinKey(leftTable)} = ${joinKey(rightTable)}" 
  8.     }.mkString(" and ") 
  9.   }} 

現(xiàn)在sqlFor()方法就變成一個(gè)所有報(bào)表都通用的方法了,因此我也將它提升到ReportTypeParser中。

2. 元數(shù)據(jù)概念的浮現(xiàn)

我在最初定義諸如predefinedTables與predefinedFields等方法時(shí),還沒(méi)有清晰地認(rèn)識(shí)到所謂元數(shù)據(jù)(Metadata)的概念,然而這一系列重構(gòu)后,我發(fā)現(xiàn)定義在FirstReportParser子類(lèi)中的方法,其核心職責(zé)就是提供SQL解析所需要的元數(shù)據(jù)內(nèi)容:

  1. class FirstReportTypeParser extends ReportTypeParser { 
  2.   private[parc] def predefinedJoinKeys: List[(TableField, TableField)] = ... 
  3.   override private[parc] def predefinedAliasNames: Map[TableName, AliasName] = ... 
  4.   override private[parc] def predefinedCriteriaFields: List[TableField] = ... 
  5.   override private[parc] def predefinedOrderByFields: List[TableField] = ... 
  6.   override private[parc] def predefinedTables: List[TableName] = ... 
  7.   override private[parc] def predefinedFields: List[TableFieldMapping] = ... 

3. 以委派取代繼承

元數(shù)據(jù)的概念給了我啟發(fā)。針對(duì)報(bào)表的SQL語(yǔ)句解析,邏輯是完全相同的,不同之處僅在于解析的元數(shù)據(jù)而已。這就浮現(xiàn)出兩個(gè)不同的職責(zé):

  • 提供元數(shù)據(jù)
  • 元數(shù)據(jù)解析

在變化方向上,引起這兩個(gè)職責(zé)發(fā)生變化的原因是完全不同的。不同的報(bào)表需要提供的元數(shù)據(jù)是不同的,而對(duì)于元數(shù)據(jù)的解析,則取決于Spark SQL的訪問(wèn)方式(在后面我們會(huì)看到這種變化)。根據(jù)單一職責(zé)原則,我們需要將這兩個(gè)具有不同變化方向的職責(zé)分離,因此它們之間正確的依賴(lài)關(guān)系不應(yīng)該是繼承,而應(yīng)該是委派。

我首先引入了ReportMetadata,并將原來(lái)的FirstReportTypeParser更名為FirstReportMetadata,在實(shí)現(xiàn)了ReportMetadata的同時(shí),對(duì)相關(guān)元數(shù)據(jù)的方法進(jìn)行了重命名:

  1. trait ReportMetadata extends ParcConfiguration { 
  2.   def joinKeys: List[(TableField, TableField)] 
  3.   def tables: List[TableName] 
  4.   def fields: List[TableField] 
  5.   def criteriaFields: List[TableField] 
  6.   def orderByFields: List[TableField]}trait FirstReportMetadata extends ReportMetadata 

至于原有的ReportTypeParser則被更名為ReportMetadataParser。

4. 引入Cake Pattern

如果仍然沿用之前的繼承關(guān)系,我們可以根據(jù)reportType分別創(chuàng)建不同報(bào)表的Parser實(shí)例。但是現(xiàn)在,我們需要將具體的ReportMetadata實(shí)例傳給ReportMetadataParser。至于具體傳遞什么樣的ReportMetadata實(shí)例,則取決于reportType。

這事實(shí)上是一種依賴(lài)注入。在Scala中,實(shí)現(xiàn)依賴(lài)注入通常是通過(guò)self type實(shí)現(xiàn)所謂Cake Pattern:

  1. class ReportMetadataParser extends DataSetFetcher with ParcConfiguration { 
  2.   self: ReportMetadata => 
  3.  
  4.   def evaluateSql(criteria: Option[List[Condition]]): String = { 
  5.     s"""       
  6.         select ${evaluateSelectFields}       
  7.         from ${evaluateJoinTables}       
  8.         where ${evaluateJoinKeys}       
  9.         ${evaluateCriteria(criteria)}       
  10.         ${evaluateOrderBy}     
  11.     """ 
  12.   }} 

為了更清晰地表達(dá)解析的含義,我將相關(guān)方法都更名為以evaluate為前綴。通過(guò)self type,ReportMetadataParser可以訪問(wèn)ReportMetadata的方法,至于具體是什么樣的實(shí)現(xiàn),則取決于創(chuàng)建ReportMetadataParser對(duì)象時(shí)傳遞的具體類(lèi)型。

通過(guò)將Metadata從Parser中分離出來(lái),實(shí)際上是差異化編程的體現(xiàn)。這是我們?cè)诮⒗^承體系時(shí)需要注意的。我們要學(xué)會(huì)觀察差異的部分,然后僅僅將差異的部分剝離出來(lái),然后為其進(jìn)行更通用的抽象,由此再針對(duì)實(shí)現(xiàn)上的差異去建立繼承體系,如分離出來(lái)的ReportMetadata。當(dāng)我們要實(shí)現(xiàn)其他報(bào)表時(shí),其實(shí)只需要定義ReportMetadata的實(shí)現(xiàn)類(lèi),提供不同的元數(shù)據(jù),就可以滿足要求。這就使得我們能夠有效地避免代碼的重復(fù),職責(zé)也更清晰。

5. 建立測(cè)試樁

引入Cake Pattern實(shí)現(xiàn)依賴(lài)注入還有利于我們編寫(xiě)單元測(cè)試。例如在前面的實(shí)現(xiàn)中,我們通過(guò)Cake Pattern實(shí)際上注入了實(shí)現(xiàn)了DataSetFetcher的ReportMetadata類(lèi)型。之所以需要實(shí)現(xiàn)DataSetFetcher,是因?yàn)槲蚁胪ㄟ^(guò)它訪問(wèn)數(shù)據(jù)庫(kù)中的數(shù)據(jù)集相關(guān)元數(shù)據(jù)。但是,在測(cè)試時(shí)我只想驗(yàn)證sql解析的邏輯是否正確,并不希望真正去訪問(wèn)數(shù)據(jù)庫(kù)。這時(shí),我們可以建立一個(gè)DataSetFetcher的測(cè)試樁。

  1. trait StubDataSetFetcher extends DataSetFetcher { 
  2.     override def fetchField(dataSetId: ID, fieldName: String): Option[Field] = ... 
  3.     override def fetchDataSetByName(dataSetName: String): Option[DataSetFetched] = ... 
  4.     override def fetchDataSet(dataSetId: ID): Option[DataSetFetched] = ... 

StubDataSetFetcher通過(guò)繼承DataSetFetcher重寫(xiě)了三個(gè)本來(lái)要訪問(wèn)數(shù)據(jù)庫(kù)的方法,直接返回了需要的對(duì)象。然后,我再將這個(gè)trait定義在測(cè)試類(lèi)中,并將其注入到ReportMetadataParser中:

  1. class ReportMetadataParserSpec extends FlatSpec with ShouldMatchers { 
  2.   it should "evaluate to sql for first report" in { 
  3.     val parser = new ReportMetadataParser() with FirstReportMetadata with StubDataSetFetcher 
  4.     val sql = parser.evaluateSql(None) 
  5.     sql should be(expectedSql) 
  6.   } 

6. 引入表達(dá)式樹(shù)

針對(duì)第一個(gè)報(bào)表,我們還有一個(gè)問(wèn)題沒(méi)有解決,就是能夠支持相對(duì)復(fù)雜的where子句。例如條件:

  1. extractDate(a.TransactionDate) < extractDate(b.DueDate) and b.LoanFlag = 'D' 

不同的報(bào)表,可能會(huì)有不同的where子句。其中,extractDate函數(shù)是我自己定義的UDF。

前面提到的元數(shù)據(jù),主要都牽涉到表名、字段名,而這里的元數(shù)據(jù)是復(fù)雜的表達(dá)式。所以,我借鑒表達(dá)式樹(shù)的概念,建立了如下的表達(dá)式元數(shù)據(jù)結(jié)構(gòu):

  1. object ExpressionMetadata { 
  2.   trait Expression { 
  3.     def accept(parser: ExpressionParser): String = parser.evaluateExpression(this) 
  4.   } 
  5.   case class ConditionField(tableName:String, fieldName: String, funName: Option[String] = None) extends Expression 
  6.   case class IntValue(value: Int) extends Expression 
  7.   abstract class SingleExpression(expr: Expression) extends Expression { 
  8.     override def accept(evaluate: Expression => String): String = 
  9.       s"(${expr.accept(evaluate)} ${operator})" 
  10.     def operator: String 
  11.   } 
  12.  
  13.   case class IsNotNull(expr: Expression) extends SingleExpression(expr) { 
  14.     override def operator: String = "is not null" 
  15.   } 
  16.  
  17.   abstract class BinaryExpression(left: Expression, right: Expression) extends Expression { 
  18.     override def accept(parser: ExpressionParser): String = 
  19.       s"${left.accept(parser)} ${operator} ${right.accept(parser)}" 
  20.     def operator: String 
  21.   } 
  22.   case class Equal(left: Expression, right: Expression) extends BinaryExpression(left, right) { 
  23.     override def operator: String = "=" 
  24.   } 

7. 利用模式匹配實(shí)現(xiàn)訪問(wèn)者模式

一開(kāi)始,我為各個(gè)Expression對(duì)象定義的其實(shí)是evaluate方法,而非現(xiàn)在的accept方法。我認(rèn)為各個(gè)Expression對(duì)象都是自我完備的對(duì)象,它所擁有的知識(shí)(數(shù)據(jù)或?qū)傩?使得它能夠自我實(shí)現(xiàn)解析,并利用類(lèi)似合成模式的方式實(shí)現(xiàn)遞歸的解析。

然而在實(shí)現(xiàn)時(shí)我遇到了一個(gè)問(wèn)題:在解析字段名時(shí),我們不能直接用字段名來(lái)組成where子句,因?yàn)樵谖覀儺a(chǎn)品的Parquet數(shù)據(jù)集中,字段的名字其實(shí)是系統(tǒng)自動(dòng)生成的。我們需要獲得:

  • 該字段對(duì)應(yīng)的表的別名
  • 該字段名在數(shù)據(jù)集中真正存儲(chǔ)的名稱(chēng),即code_name,例如C01。

換言之,真正要生成的條件子句應(yīng)該形如:

  1. extractDate(a.c1) < extractDate(b.c1) and b.c2 = 'D' 

然而,關(guān)于表名與別名的映射則是配置在ReportMetadata中,獲得別名與codeName的方法則被定義在ReportMetadataParser的內(nèi)部。如果將解析的實(shí)現(xiàn)邏輯放在Expression中,就需要依賴(lài)ReportMetadata與ReportMetadataParser。與之相比,我更傾向于將Expression傳給它們,讓它們完成對(duì)Expression的解析。換言之,Expression樹(shù)結(jié)構(gòu)只提供數(shù)據(jù),真正的解析職責(zé)則被委派給另外的對(duì)象,我將其定義為ExpressionParser:

  1. trait ExpressionParser { 
  2.   def evaluateExpression(expression: Expression): String} 

這種雙重委派與樹(shù)結(jié)構(gòu)的場(chǎng)景不正是訪問(wèn)者模式最適宜的嗎?至于ExpressionParser的實(shí)現(xiàn),則可以交給ReportMetadataParser:

  1. class ReportMetadataParser extends DataSetFetcher with ParcConfiguration with ExpressionParser {override def evaluateExpression(expression: Expression): String = { 
  2.     expression match { 
  3.       case ConditionField(tableName, fieldName, funName) => 
  4.          val fullName = s"${table.aliasName}.${fieldName.codeName(table.originalName)}${orderType.getOrElse("")}" 
  5.          funName match { 
  6.             case Some(fun) => s"${funName}(${fullName})" 
  7.             case None => fullName 
  8.       case IntValue(v) => s"${v}" 
  9.       case StringValue(v) => s"'${v}'" 
  10.     } 
  11.   } 
  12.  
  13.   def evaluateWhereClause: String = { 
  14.     if (whereClause.isEmpty) return "" 
  15.     val clause = whereClause.map(c => c.accept(this)).mkString(" and ") 
  16.     s"where ${clause}" 
  17.   }} 

這里的evaluateExpression方法相當(dāng)于Visitor模式的visit方法。與傳統(tǒng)的Visitor模式不同,我不需要定義多個(gè)visit方法的重載,而是直接運(yùn)用Scala的模式匹配。

evaluateWhereClause方法會(huì)對(duì)Expression的元數(shù)據(jù)whereClause進(jìn)行解析,真正的實(shí)現(xiàn)是對(duì)每個(gè)Expression對(duì)象,執(zhí)行accept(this)方法,在其內(nèi)部又委派給this即ReportMetadataParser的evaluateExpression方法。

代碼中的whereClause是新增加的Metadata,具體的實(shí)現(xiàn)放到了FirstReportMetadata中:

  1. override def whereClause: List[Expression] = { 
  2.    List( 
  3.          LessThan( 
  4.                     ConditionField(AccountDetailTable, AccountDetailTableSchema.TransactionDate.toString, Some("extractDate")), 
  5.                     ConditionField(AoucherJournalTable, AoucherJournalTableSchema.DueDate.toString, Some("extractDate")) 
  6.                   ), 
  7.          Equal( 
  8.                 ConditionField(AccountDetailTable, AccountDetailTableSchema.LoanFlag.toString), 
  9.                 StringValue("D") 
  10.               ) 
  11.        ) 
  12.  } 

8. 用函數(shù)取代trait定義

在Scala中,我們完全可以用函數(shù)來(lái)替代trait:

  1. trait Expression { 
  2.   def accept(evaluate: Expression => String): String = evaluate(this) 
  3.  
  4. class ReportMetadataParser extends DataSetFetcher with ParcConfiguration { 
  5.   self: ReportMetadata with DataSetFetcher => 
  6.  
  7.   def evaluateExpr(expression: Expression): String = { 
  8.     expression match { 
  9.       case ConditionField(tableName, fieldName) => 
  10.         s"${aliasNameFor(tableName)}.${fieldName.codeName(tableName)}" 
  11.       case IntValue(v) => s"${v}" 
  12.       case StringValue(v) => s"'${v}'" 
  13.     } 
  14.   } 
  15.  
  16.   def evaluateWhereClause: String = { 
  17.     if (whereClause.isEmpty) return " true " 
  18.     whereClause.map(c => c.accept(evaluateExpr)).mkString(" and ") 
  19.   }} 

9. 演進(jìn)過(guò)程的提交記錄

這個(gè)設(shè)計(jì)的過(guò)程并非事先明確進(jìn)行針對(duì)性的設(shè)計(jì),而是隨著功能的逐步實(shí)現(xiàn),伴隨著對(duì)代碼的重構(gòu)而逐漸浮現(xiàn)出來(lái)的。

整個(gè)過(guò)程的提交記錄如下圖所示(從上至下由最近到最遠(yuǎn)):

演進(jìn)過(guò)程的提交記錄

四、當(dāng)變化發(fā)生

通過(guò)前面一系列的設(shè)計(jì)演進(jìn),代碼結(jié)構(gòu)與質(zhì)量已經(jīng)得到了相當(dāng)程度的改進(jìn)與提高。關(guān)鍵是這樣的設(shè)計(jì)演進(jìn)是有價(jià)值回報(bào)的。在走出分離元數(shù)據(jù)關(guān)鍵步驟之后,設(shè)計(jì)就向著好的方向在發(fā)展。

在實(shí)現(xiàn)了第一張報(bào)表之后,后面四張報(bào)表的開(kāi)發(fā)就變得非常容易了,只需要為這四張報(bào)表提供必需的元數(shù)據(jù)信息即可。

令人欣慰的是,這個(gè)設(shè)計(jì)還經(jīng)受了解決方案變化與需求變化的考驗(yàn)。

1. 解決方案變化

在前面的實(shí)現(xiàn)中,我采用了Spark SQL的SQL方式執(zhí)行查詢(xún)。查詢(xún)時(shí)通過(guò)join關(guān)聯(lián)了多張表。在生產(chǎn)環(huán)境上部署后,發(fā)現(xiàn)查詢(xún)數(shù)據(jù)集的性能不盡如人意,必須改進(jìn)性能(關(guān)于性能的調(diào)優(yōu),則是另一個(gè)故事了,我會(huì)在另外的文章中講解)。由于join的表有大小表的區(qū)別,改進(jìn)性能的方式是引入broadcast。雖然可以通過(guò)設(shè)置spark.sql.autoBroadcastJoinThreshold來(lái)告知Spark滿足條件時(shí)啟用broadcast,但更容易控制的方法是調(diào)用DataFrame提供的API。

于是,實(shí)現(xiàn)方案就需要進(jìn)行調(diào)整:解析SQL的過(guò)程 ---> 組裝DataFrame API的過(guò)程

從代碼看,從原來(lái)的:

  1. def evaluateSql(criteria: Option[List[Condition]]): String = { 
  2.     logging { 
  3.       s""" 
  4.       select ${evaluateSelectFields} 
  5.       from ${evaluateJoinTables} 
  6.       on ${evaluateJoinKeys} 
  7.       where ${evaluateWhereClause}${evaluateCriteria(criteria)} 
  8.       ${evaluateOrderBy} 
  9.       """ 
  10.     } 
  11.   } 

變?yōu)榻馕龈鱾€(gè)API的參數(shù),然后在加載DataFrame的地方調(diào)用API:

  1. val dataFrames = tableNames.map { table => 
  2.       load(table.generatedName).as(table.aliasName) 
  3.     } 
  4.     sqlContext.udf.register("extractDate", new ExtractDate) 
  5.  
  6.     val (joinedDF, _) = dataFrames.zipWithIndex.reduce { 
  7.       (dfToIndex, accumulatorToIndex) => 
  8.         val (df, index) = dfToIndex 
  9.         val (acc, _) = accumulatorToIndex 
  10.         (df.join(broadcast(acc), keyColumnPairs(index)._1 === keyColumnPairs(index)._2), index) 
  11.     } 
  12.  
  13.     joinedDF.where(queryConditions) 
  14.       .orderBy(orderColumns: _*) 
  15.       .select(selectColumns: _*) 

解析方式雖然有變化,但需要的元數(shù)據(jù)還是基本相似,差別在于需要將之前我自己定義的字段類(lèi)型轉(zhuǎn)換為Column類(lèi)型。我們僅僅只需要修改 ReportMetadataParser類(lèi),在原有基礎(chǔ)上,增加部分獨(dú)有的元數(shù)據(jù)解析功能:

  1. class ReportMetadataParser extends ParcConfiguration with MortLogger { 
  2.   def evaluateKeyPairs: List[(Column, Column)] = { 
  3.     joinKeys.map { 
  4.       case (leftKey, rightKey) => (leftKey.toColumn, rightKey.toColumn) 
  5.     } 
  6.   } 
  7.   def evaluateSelectColumns: List[Column] = { 
  8.     fields.map(tf => tf.toColumn) 
  9.   } 
  10.   def evaluateOrderColumns: List[Column] = { 
  11.     orderByFields.map(f => f.toColumn) 
  12.   } 

2. 需求變化

我們的另一個(gè)客戶同樣需要類(lèi)似的需求,區(qū)別在于他們的數(shù)據(jù)治理更好,我們只需要對(duì)已經(jīng)治理好的視圖數(shù)據(jù)執(zhí)行查詢(xún)即可,而無(wú)需跨表Join。在對(duì)現(xiàn)有代碼的包結(jié)構(gòu)做出調(diào)整,并定義了更為通用的Spark SQL查詢(xún)方法后,要做的工作其實(shí)就是定義對(duì)應(yīng)報(bào)表的元數(shù)據(jù)罷了。

僅僅花費(fèi)了1天半的時(shí)間,新客戶新項(xiàng)目的報(bào)表后端開(kāi)發(fā)工作就完成了。要知道在如此短的開(kāi)發(fā)周期內(nèi),大部分時(shí)間其實(shí)還是消耗在重構(gòu)工作上,包括重新調(diào)整現(xiàn)有代碼的包結(jié)構(gòu),提取重用代碼?,F(xiàn)在,我可以悠閑一點(diǎn),喝喝茶,看看閑書(shū),然后再重裝待發(fā),迎接下一個(gè)完全不同的新項(xiàng)目。

【本文為51CTO專(zhuān)欄作者“張逸”原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)聯(lián)系原作者】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來(lái)源: 51CTO專(zhuān)欄
相關(guān)推薦

2014-11-12 13:22:34

2016-01-07 12:40:02

機(jī)器學(xué)習(xí)權(quán)威定義

2011-06-30 22:23:21

打印機(jī)常見(jiàn)問(wèn)題

2020-11-02 09:48:35

C++泄漏代碼

2020-07-08 07:44:35

面試阿里加班

2013-10-22 09:22:07

Hadoop 2大數(shù)據(jù)

2011-06-28 10:41:50

DBA

2021-12-27 10:08:16

Python編程語(yǔ)言庫(kù)

2020-10-24 13:50:59

Python庫(kù)編程語(yǔ)言

2020-09-03 08:05:34

設(shè)計(jì)模式編程界

2020-10-18 12:53:29

黑科技網(wǎng)站軟件

2020-03-18 13:07:16

華為

2020-03-10 07:51:35

面試諷刺標(biāo)準(zhǔn)

2013-06-03 09:28:49

游戲設(shè)計(jì)

2024-05-31 12:56:06

.NET代碼方法

2017-02-28 11:13:36

華為

2012-08-28 09:21:59

Ajax查錯(cuò)經(jīng)歷Web

2010-01-25 22:11:13

2023-08-02 10:11:00

DOM曝光封裝

2021-11-01 17:29:02

Windows系統(tǒng)Fork
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)