自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何實現(xiàn)Lua中關于捕獲機制操作

移動開發(fā) iOS
捕獲值的第三個應用是用在函數(shù)gsub中。與其他模式一樣,gsub的替換串可以包含 '%d',當替換發(fā)生時他被轉(zhuǎn)換為對應的捕獲值。

如何實現(xiàn)Lua中關于捕獲機制操作是本文要介紹的內(nèi)容,捕獲是這樣一種機制:可以使用模式串的一部分匹配目標串的一部分。將你想捕獲的模式用圓括號括起來,就指定了一個捕獲。

在string.find使用捕獲的時候,函數(shù)會返回捕獲的值作為額外的結果。這常被用來將一個目標串拆分成多個:

  1. pair = "name = Anna" 
  2. _, _, key, value = string.find(pair, "(%a+)%s*=%s*(%a+)")  
  3. print(key, value)    --> name  Anna 

'%a+' 表示菲空的字母序列;'%s*' 表示0個或多個空白。在上面的例子中,整個模式代表:一個字母序列,后面是任意多個空白,然后是 '=' 再后面是任意多個空白,然后是一個字母序列。兩個字母序列都是使用圓括號括起來的子模式,當他們被匹配的時候,他們就會被捕獲。當匹配發(fā)生的時候,find函數(shù)總是先返回匹配串的索引下標(上面例子中我們存儲啞元變量 _ 中),然后返回子模式匹配的捕獲部分。下面的例子情況類似:

  1. date = "17/7/1990" 
  2. _, _, d, m, y = string.find(date, "(%d+)/(%d+)/(%d+)")  
  3. print(d, m, y)      --> 17 7 1990    

 我們可以在模式中使用向前引用,'%d'(d代表1-9的數(shù)字)表示第d個捕獲的拷貝。

看個例子,假定你想查找一個字符串中單引號或者雙引號引起來的子串,你可能使用模式 '["'].-["']',但是這個模式對處理類似字符串 "it's all right" 會出問題。為了解決這個問題,可以使用向前引用,使用捕獲的第一個引號來表示第二個引號:

  1. s = [[then he said: "it's all right"!]]  
  2. a, b, c, quotedPart = string.find(s, "(["'])(.-)%1")  
  3. print(quotedPart)    --> it's all right  
  4. print(c)            --> "   

第一個捕獲是引號字符本身,第二個捕獲是引號中間的內(nèi)容('.-' 匹配引號中間的子串)。

捕獲值的第三個應用是用在函數(shù)gsub中。與其他模式一樣,gsub的替換串可以包含 '%d',當替換發(fā)生時他被轉(zhuǎn)換為對應的捕獲值。(順便說一下,由于存在這些情況,替換串中的字符 '%' 必須用 "%%" 表示)。下面例子中,對一個字符串中的每一個字母進行復制,并用連字符將復制的字母和原字母連接起來:

  1. print(string.gsub("hello Lua!", "(%a)", "%1-%1"))  
  2.     --> h-he-el-ll-lo-o L-Lu-ua-a!   

下面代碼互換相鄰的字符:

  1. print(string.gsub("hello Lua", "(.)(.)", "%2%1"))  
  2.     --> ehll ouLa   

讓我們看一個更有用的例子,寫一個格式轉(zhuǎn)換器:從命令行獲取LaTeX風格的字符串,形如:

  1. \command{some text} 

將它們轉(zhuǎn)換為XML風格的字符串:

  1. <command>some text</command> 

對于這種情況,下面的代碼可以實現(xiàn)這個功能:

  1. s = string.gsub(s, "\\(%a+){(.-)}", "<%1>%2</%1>")   

比如,如果字符串s為:

  1. the \quote{task} is to \em{change} that. 

調(diào)用gsub之后,轉(zhuǎn)換為:

  1. the <quote>task</quote> is to change that. 

另一個有用的例子是去除字符串首尾的空格: 

  1. function trim (s)  
  2.     return (string.gsub(s, "^%s*(.-)%s*$", "%1"))  
  3. end   

注意模式串的用法,兩個定位符('^' 和 '$')保證我們獲取的是整個字符串。因為,兩個 '%s*' 匹配首尾的所有空格,'.-' 匹配剩余部分。還有一點需要注意的是gsub返回兩個值,我們使用額外的圓括號丟棄多余的結果(替換發(fā)生的次數(shù))。

最后一個捕獲值應用之處可能是功能最強大的。我們可以使用一個函數(shù)作為string.gsub的第三個參數(shù)調(diào)用gsub。在這種情況下,string.gsub每次發(fā)現(xiàn)一個匹配的時候就會調(diào)用給定的作為參數(shù)的函數(shù),捕獲值可以作為被調(diào)用的這個函數(shù)的參數(shù),而這個函數(shù)的返回值作為gsub的替換串。先看一個簡單的例子,下面的代碼將一個字符串中全局變量$varname出現(xiàn)的地方替換為變量varname的值:

  1. function expand (s)  
  2.     s = string.gsub(s, "$(%w+)", function (n)  
  3.       return _G[n]  
  4.     end)  
  5.     return s  
  6. end  
  7.  
  8. name = "Lua"status = "great" 
  9. print(expand("$name is $status, isn't it?"))  
  10. --> Lua is great, isn't it? 

如果你不能確定給定的變量是否為string類型,可以使用tostring進行轉(zhuǎn)換:

  1. function expand (s)  
  2.     return (string.gsub(s, "$(%w+)", function (n)  
  3.       return tostring(_G[n])  
  4.     end))  
  5. end  
  6. print(expand("print = $print; a = $a"))  
  7. --> print = function: 0x8050ce0; a = nil 

下面是一個稍微復雜點的例子,使用loadstring來計算一段文本內(nèi)$后面跟著一對方括號內(nèi)表達式的值:

  1. s = "sin(3) = $[math.sin(3)]; 2^5 = $[2^5]" 
  2. print((string.gsub(s, "$(%b[])", function (x)  
  3.     x = "return " .. string.sub(x, 2, -2)  
  4.     local f = loadstring(x)  
  5.     return f()  
  6. end)))  
  7.  
  8. --> sin(3) = 0.1411200080598672; 2^5 = 32 

第一次匹配是 "$[math.sin(3)]",對應的捕獲為 "[math.sin(3)]",調(diào)用string.sub去掉首尾的方括號,所以被加載執(zhí)行的字符串是 "return math.sin(3)","$[2^5]" 的匹配情況類似。

我們常常需要使用string.gsub遍歷字符串,而對返回結果不感興趣。比如,我們收集一個字符串中所有的單詞,然后插入到一個表中:

  1. words = {}  
  2. string.gsub(s, "(%a+)", function (w)  
  3.     table.insert(words, w)  
  4. end) 

如果字符串s為 "hello hi, again!",上面代碼的結果將是:

  1. {"hello", "hi", "again"} 

使用string.gfind函數(shù)可以簡化上面的代碼:

  1. words = {}  
  2. for w in string.gfind(s, "(%a)") do  
  3.     table.insert(words, w)  
  4. end 

gfind函數(shù)比較適合用于范性for循環(huán)。他可以遍歷一個字符串內(nèi)所有匹配模式的子串。我們可以進一步的簡化上面的代碼,調(diào)用gfind函數(shù)的時候,如果不顯示的指定捕獲,函數(shù)將捕獲整個匹配模式。所以,上面代碼可以簡化為:

  1. words = {}  
  2. for w in string.gfind(s, "%a") do  
  3.     table.insert(words, w)  
  4. end 

下面的例子我們使用URL編碼,URL編碼是HTTP協(xié)議來用發(fā)送URL中的參數(shù)進行的編碼。這種編碼將一些特殊字符(比如 '='、'&'、'+')轉(zhuǎn)換為 "%XX" 形式的編碼,其中XX是字符的16進制表示,然后將空白轉(zhuǎn)換成 '+'。比如,將字符串 "a+b = c" 編碼為 "a%2Bb+%3D+c"。最后,將參數(shù)名和參數(shù)值之間加一個 '=';在name=value對之間加一個 "&"。比如字符串:

  1. name = "al"query = "a+b = c";  q="yes or no" 

被編碼為:

  1. name=al&query=a%2Bb+%3D+c&q=yes+or+no 

現(xiàn)在,假如我們想將這URL解碼并把每個值存儲到表中,下標為對應的名字。下面的函數(shù)實現(xiàn)了解碼功能:

  1. function unescape (s)  
  2.     s = string.gsub(s, "+", " ")  
  3.     s = string.gsub(s, "%%(%x%x)", function (h)  
  4.       return string.char(tonumber(h, 16))  
  5.     end)  
  6.     return s  
  7. end 

第一個語句將 '+' 轉(zhuǎn)換成空白,第二個gsub匹配所有的 '%' 后跟兩個數(shù)字的16進制數(shù),然后調(diào)用一個匿名函數(shù),匿名函數(shù)將16進制數(shù)轉(zhuǎn)換成一個數(shù)字(tonumber在16進制情況下使用的)然后再轉(zhuǎn)化為對應的字符。比如:

  1. print(unescape("a%2Bb+%3D+c"))    --> a+b = c 

對于name=value對,我們使用gfind解碼,因為names和values都不能包含 '&' 和 '='我們可以用模式 '[^&=]+' 匹配他們:

  1. cgi = {}  
  2. function decode (s)  
  3.     for name, value in string.gfind(s, "([^&=]+)=([^&=]+)") do  
  4.       name = unescape(name)  
  5.       value = unescape(value)  
  6.       cgi[name] = value  
  7.     end  
  8. end 

調(diào)用gfind函數(shù)匹配所有的name=value對,對于每一個name=value對,迭代子將其相對應的捕獲的值返回給變量name和value。循環(huán)體內(nèi)調(diào)用unescape函數(shù)解碼name和value部分,并將其存儲到cgi表中。

與解碼對應的編碼也很容易實現(xiàn)。首先,我們寫一個escape函數(shù),這個函數(shù)將所有的特殊字符轉(zhuǎn)換成 '%' 后跟字符對應的ASCII碼轉(zhuǎn)換成兩位的16進制數(shù)字(不足兩位,前面補0),然后將空白轉(zhuǎn)換為 '+':

  1. function escape (s)  
  2.     s = string.gsub(s, "([&=+%c])", function (c)  
  3.       return string.format("%%%02X", string.byte(c))  
  4.     end)  
  5.     s = string.gsub(s, " ", "+")  
  6.     return s  
  7. end 

編碼函數(shù)遍歷要被編碼的表,構造最終的結果串:

  1. function encode (t)  
  2.     local s = "" 
  3.     for k,v in pairs(t) do  
  4.       ss = s .. "&" .. escape(k) .. "=" .. escape(v)  
  5.     end  
  6.     return string.sub(s, 2)    -- remove first `&'  
  7. end  
  8. t = {name = "al"query = "a+b = c"q="yes or no"}  
  9. print(encode(t)) --> q=yes+or+no&query=a%2Bb+%3D+c&name=al 

轉(zhuǎn)換的技巧(Tricks of the Trade)

模式匹配對于字符串操縱來說是強大的工具,你可能只需要簡單的調(diào)用string.gsub和find就可以完成復雜的操作,然而,因為它功能強大你必須謹慎的使用它,否則會帶來意想不到的結果。

對正常的解析器而言,模式匹配不是一個替代品。對于一個quick-and-dirty程序,你可以在源代碼上進行一些有用的操作,但很難完成一個高質(zhì)量的產(chǎn)品。前面提到的匹配C程序中注釋的模式是個很好的例子:'/%*.-%*/'。如果你的程序有一個字符串包含了"/*",最終你將得到錯誤的結果:

  1. test = [[char s[] = "a /* here"; /* a tricky string */]]  
  2. print(string.gsub(test, "/%*.-%*/", "<COMMENT>"))  
  3.     --> char s[] = "a <COMMENT> 

雖然這樣內(nèi)容的字符串很罕見,如果是你自己使用的話上面的模式可能還湊活。但你不能將一個帶有這種毛病的程序作為產(chǎn)品出售。

一般情況下,Lua中的模式匹配效率是不錯的:一個奔騰333MHz機器在一個有200K字符的文本內(nèi)匹配所有的單詞(30K的單詞)只需要1/10秒。但是你不能掉以輕心,應該一直對不同的情況特殊對待,盡可能的更明確的模式描述。一個限制寬松的模式比限制嚴格的模式可能慢很多。

一個極端的例子是模式 '(.-)%$' 用來獲取一個字符串內(nèi)$符號以前所有的字符,如果目標串中存在$符號,沒有什么問題;但是如果目標串中不存在$符號。上面的算法會首先從目標串的第一個字符開始進行匹配,遍歷整個字符串之后沒有找到$符號,然后從目標串的第二個字符開始進行匹配,……這將花費原來平方次冪的時間,導致在一個奔騰333MHz的機器中需要3個多小時來處理一個200K的文本串。可以使用下面這個模式避免上面的問題 '^(.-)%$'。定位符^告訴算法如果在第一個位置沒有沒找到匹配的子串就停止查找。使用這個定位符之后,同樣的環(huán)境也只需要不到1/10秒的時間。

也需要小心空模式:匹配空串的模式。比如,如果你打算用模式 '%a*' 匹配名字,你會發(fā)現(xiàn)到處都是名字:

  1. i, j = string.find(";$% **#$hello13", "%a*")  
  2. print(i,j)    --> 1 0 

這個例子中調(diào)用string.find正確的在目標串的開始處匹配了空字符。永遠不要寫一個以 '-' 開頭或者結尾的模式,因為它將匹配空串。這個修飾符得周圍總是需要一些東西來定位他的擴展。相似的,一個包含 '.*' 的模式是一個需要注意的,因為這個結構可能會比你預算的擴展的要多。

有時候,使用Lua本身構造模式是很有用的??匆粋€例子,我們查找一個文本中行字符大于70個的行,也就是匹配一個非換行符之前有70個字符的行。我們使用字符類'[^\n]'表示非換行符的字符。所以,我們可以使用這樣一個模式來滿足我們的需要:重復匹配單個字符的模式70次,后面跟著一個匹配一個字符0次或多次的模式。我們不手工來寫這個最終的模式,而使用函數(shù)string.rep:

  1. pattern = string.rep("[^\n]", 70) .. "[^\n]*" 

另一個例子,假如你想進行一個大小寫無關的查找。方法之一是將任何一個字符x變?yōu)樽址?'[xX]'。我們也可以使用一個函數(shù)進行自動轉(zhuǎn)換:

  1. function nocase (s)  
  2.     s = string.gsub(s, "%a", function (c)  
  3.       return string.format("[%s%s]", string.lower(c),  
  4.                                           string.upper(c))  
  5.     end)  
  6.     return s  
  7. end  
  8.  
  9. print(nocase("Hi there!"))  
  10.     --> [hH][iI] [tT][hH][eE][rR][eE]! 

有時候你可能想要將字符串s1轉(zhuǎn)化為s2,而不關心其中的特殊字符。如果字符串s1和s2都是字符串序列,你可以給其中的特殊字符加上轉(zhuǎn)義字符來實現(xiàn)。但是如果這些字符串是變量呢,你可以使用gsub來完成這種轉(zhuǎn)義:

  1. s1 = string.gsub(s1, "(%W)", "%%%1")  
  2. s2 = string.gsub(s2, "%%", "%%%%") 

在查找串中,我們轉(zhuǎn)義了所有的非字母的字符。在替換串中,我們只轉(zhuǎn)義了 '%' 。另一個對模式匹配而言有用的技術是在進行真正處理之前,對目標串先進行預處理。一個預處理的簡單例子是,將一段文本內(nèi)的雙引號內(nèi)的字符串轉(zhuǎn)換為大寫,但是要注意雙引號之間可以包含轉(zhuǎn)義的引號("""):
這是一個典型的字符串例子:

  1. "This is "great"!". 

我們處理這種情況的方法是,預處理文本把有問題的字符序列轉(zhuǎn)換成其他的格式。比如,我們可以將 """ 編碼為 "\1",但是如果原始的文本中包含 "\1",我們又陷入麻煩之中。一個避免這個問題的簡單的方法是將所有 "\x" 類型的編碼為 "\ddd",其中ddd是字符x的十進制表示:

  1. function code (s)  
  2.     return (string.gsub(s, "\\(.)", function (x)  
  3.       return string.format("\\%03d", string.byte(x))  
  4.     end))  
  5. end 

注意,原始串中的 "\ddd" 也會被編碼,解碼是很容易的:

  1. function decode (s)  
  2.     return (string.gsub(s, "\\(%d%d%d)", function (d)  
  3.       return "\" .. string.char(d)  
  4.     end))  
  5. end 

如果被編碼的串不包含任何轉(zhuǎn)義符,我們可以簡單的使用 ' ".-" ' 來查找雙引號字符串

  1. s = [[follows a typical string: "This is "great"!".]]  
  2. s = code(s)  
  3. s = string.gsub(s, '(".-")', string.upper)  
  4. s = decode(s)  
  5. print(s)  
  6.     --> follows a typical string: "THIS IS "GREAT"!". 

更緊縮的形式:

  1. print(decode(string.gsub(code(s), '(".-")', string.upper))) 

我們回到前面的一個例子,轉(zhuǎn)換\command{string}這種格式的命令為XML風格:

  1. <command>string</command> 

但是這一次我們原始的格式中可以包含反斜杠作為轉(zhuǎn)義符,這樣就可以使用"\"、"\{" 和 "\}",分別表示 '\'、'{' 和 '}'。為了避免命令和轉(zhuǎn)義的字符混合在一起,我們應該首先將原始串中的這些特殊序列重新編碼,然而,與上面的一個例子不同的是,我們不能轉(zhuǎn)義所有的 \x,因為這樣會將我們的命令(\command)也轉(zhuǎn)換掉。這里,我們僅當x不是字符的時候才對 \x 進行編碼:

  1. function code (s)  
  2.     return (string.gsub(s, '\\(%A)', function (x)  
  3.       return string.format(" \\%03d ", string.byte(x))  
  4.     end))  
  5. end 

解碼部分和上面那個例子類似,但是在最終的字符串中不包含反斜杠,所以我們可直接調(diào)用string.char:

  1. function decode (s)  
  2.     return (string.gsub(s, '\\(%d%d%d)', string.char))  
  3. end  
  4.  
  5. s = [[a \emph{command} is written as \\ command\{text\}.]]  
  6. s = code(s)  
  7. s = string.gsub(s, "\\ (%a+){(.-)}", "<%1>%2</%1>")  
  8.  
  9. print(decode(s))  
  10. --> a <emph>command</emph> is written as \command{text}. 

我們最后一個例子是處理CSV(逗號分割)的文件,很多程序都使用這種格式的文本,比如Microsoft Excel。CSV文件十多條記錄的列表,每一條記錄一行,一行內(nèi)值與值之間逗號分割,如果一個值內(nèi)也包含逗號這個值必須用雙引號引起來,如果值內(nèi)還包含雙引號,需使用雙引號轉(zhuǎn)義雙引號(就是兩個雙引號表示一個),看例子,下面的數(shù)組:

{'a b', 'a,b', 'a,"b"c', 'hello "world"!', }

可以看作為:

  1. a b,"a,b"," a,""b""c", hello "world"!, 

將一個字符串數(shù)組轉(zhuǎn)換為CSV格式的文件是非常容易的。我們要做的只是使用逗號將所有的字符串連接起來:

  1. function toCSV (t)  
  2.     local s = "" 
  3.     for _,p in pairs(t) do  
  4.       ss = s .. "," .. escapeCSV(p)  
  5.     end  
  6.     return string.sub(s, 2)    -- remove first comma  
  7. end 

如果一個字符串包含逗號活著引號在里面,我們需要使用引號將這個字符串引起來,并轉(zhuǎn)義原始的引號:

  1. function escapeCSV (s)  
  2.     if string.find(s, '[,"]') then  
  3.       s = '"' .. string.gsub(s, '"', '""') .. '"'  
  4.     end  
  5.     return s  
  6. end 

將CSV文件內(nèi)容存放到一個數(shù)組中稍微有點難度,因為我們必須區(qū)分出位于引號中間的逗號和分割域的逗號。我們可以設法轉(zhuǎn)義位于引號中間的逗號,然而并不是所有的引號都是作為引號存在,只有在逗號之后的引號才是一對引號的開始的那一個。只有不在引號中間的逗號才是真正的逗號。這里面有太多的細節(jié)需要注意,比如,兩個引號可能表示單個引號,可能表示兩個引號,還有可能表示空:

  1. "hello""hello", "","" 

這個例子中,第一個域是字符串 "hello"hello",第二個域是字符串 " """(也就是一個空白加兩個引號),最后一個域是一個空串。

我們可以多次調(diào)用gsub來處理這些情況,但是對于這個任務使用傳統(tǒng)的循環(huán)(在每個域上循環(huán))來處理更有效。循環(huán)體的主要任務是查找下一個逗號;并將域的內(nèi)容存放到一個表中。對于每一個域,我們循環(huán)查找封閉的引號。循環(huán)內(nèi)使用模式 ' "("?) ' 來查找一個域的封閉的引號:如果一個引號后跟著一個引號,第二個引號將被捕獲并賦給一個變量c,意味著這仍然不是一個封閉的引號

  1. function fromCSV (s)  
  2.     ss = s .. ','      -- ending comma  
  3.     local t = {}      -- table to collect fields  
  4.     local fieldstart = 1 
  5.     repeat  
  6.       -- next field is quoted? (start with `"'?)  
  7.       if string.find(s, '^"', fieldstart) then  
  8.       local a, c  
  9.       local i = fieldstart 
  10.       repeat  
  11.           -- find closing quote  
  12.           a, i, c = string.find(s, '"("?)', i+1)  
  13.       until c ~= '"'    -- quote not followed by quote?  
  14.       if not i then error('unmatched "') end  
  15.           local f = string.sub(s, fieldstart+1, i-1)  
  16.           table.insert(t, (string.gsub(f, '""', '"')))  
  17.           fieldstart = string.find(s, ',', i) + 1  
  18.       else              -- unquoted; find next comma  
  19.           local nexti = string.find(s, ',', fieldstart)  
  20.           table.insert(t, string.sub(s, fieldstart,  
  21.                                               nexti-1))  
  22.           fieldstart = nexti + 1  
  23.       end  
  24.     until fieldstart > string.len(s)  
  25.     return t  
  26. end  
  27.  
  28. t = fromCSV('"hello "" hello", "",""')  
  29. for i, s in ipairs(t) do print(i, s) end  
  30.     --> 1      hello " hello  
  31.     --> 2        ""  
  32.     --> 3 

小結:如何實現(xiàn)Lua中關于捕獲機制操作的內(nèi)容介紹完了,希望通過本文的學習能對你有所幫助!

責任編輯:zhaolei 來源: 博客園
相關推薦

2011-08-24 16:59:59

LuaModule

2011-08-24 17:09:35

LUA閉包函數(shù)

2011-08-23 17:06:03

2011-09-06 17:37:01

LUA應用

2011-08-23 16:14:27

Lua函數(shù)庫函數(shù)

2011-08-23 17:11:13

Lua事件C#

2011-08-29 15:53:04

Lua位運算

2011-06-13 10:21:25

QT 信號 槽機制

2011-08-23 16:37:05

Lua數(shù)學庫

2011-08-23 17:33:08

LuaMetatable

2011-08-31 16:47:07

Lua調(diào)試器

2011-08-30 09:59:47

Mysql ProxyLUA

2011-08-31 16:39:06

Lua調(diào)試器

2011-08-25 17:01:50

LUA網(wǎng)游游戲

2011-08-23 15:02:59

LuaTable

2011-08-23 16:22:45

Lua 4.0函數(shù)

2011-08-25 10:07:24

Lua 5.0函數(shù)編譯器

2011-08-24 15:28:02

Lua編譯器解釋器

2011-08-23 13:15:37

LUAPackage

2010-09-08 16:50:11

JavaScriptDOM操作
點贊
收藏

51CTO技術棧公眾號