R語(yǔ)言進(jìn)階之2:文本(字符串)處理與正則表達(dá)式
R語(yǔ)言處理文本的能力雖然不強(qiáng),但適當(dāng)用用還是可以大幅提高工作效率的,而且有些文本操作還不得不用。高效處理文本少不了正則表達(dá)式(regular expression),雖然R在這方面先天不高效,但它處理字符串的絕大多數(shù)函數(shù)都使用正則表達(dá)式。
0、正則表達(dá)式簡(jiǎn)介:
正則表達(dá)式不是R的專(zhuān)屬內(nèi)容,所以用0編號(hào),這里也只簡(jiǎn)單介紹,更詳細(xì)的內(nèi)容請(qǐng)查閱其他文章。
正則表達(dá)式是用于描述/匹配一個(gè)文本集合的表達(dá)式。
1. 所有英文字母、數(shù)字和很多可顯示的字符本身就是正則表達(dá)式,用于匹配它們自己。比如 'a' 就是匹配字母 'a' 的正則表達(dá)式
2. 一些特殊的字符在正則表達(dá)式中不在用來(lái)描述它自身,它們?cè)谡齽t表達(dá)式中已經(jīng)被“轉(zhuǎn)義”,這些字符稱(chēng)為“元字符”。perl類(lèi)型的正則表達(dá)式中被轉(zhuǎn)義的字符有:. \ | ( ) [ ] { } ^ $ * + ?。被轉(zhuǎn)義的字符已經(jīng)有特殊的意義,如點(diǎn)號(hào) . 表示任意字符;方括號(hào)表示選擇方括號(hào)中的任意一個(gè)(如[a-z] 表示任意一個(gè)小寫(xiě)字符);^ 放在表達(dá)式開(kāi)始出表示匹配文本開(kāi)始位置,放在方括號(hào)內(nèi)開(kāi)始處表示非方括號(hào)內(nèi)的任一字符;大括號(hào)表示前面的字符或表達(dá)式的重復(fù)次數(shù);| 表示可選項(xiàng),即 | 前后的表達(dá)式任選一個(gè)。
3. 如果要在正則表達(dá)式中表示元字符本身,比如我就要在文本中查找問(wèn)號(hào)‘?’, 那么就要使用引用符號(hào)(或稱(chēng)換碼符號(hào)),一般是反斜杠 '\'。需要注意的是,在R語(yǔ)言中得用兩個(gè)反斜杠即 ‘\\’,如要匹配括號(hào)就要寫(xiě)成 ’\\(\\)‘
4. 不同語(yǔ)言或應(yīng)用程序(事實(shí)上很多規(guī)則都通用)定義了一些特殊的元字符用于表示某類(lèi)字符,如 \d 表示數(shù)字0-9, \D 表示非數(shù)字,\s 表示空白字符(包括空格、制表符、換行符等),\S 表示非空白字符,\w 表示字(字母和數(shù)字),\W 表示非字,\< 和 \> 分別表示以空白字符開(kāi)始和結(jié)束的文本。
5. 正則表達(dá)式符號(hào)運(yùn)算順序:圓括號(hào)括起來(lái)的表達(dá)式***先,然后是表示重復(fù)次數(shù)的操作(即:* + {} ),接下來(lái)是連接運(yùn)算(其實(shí)就是幾個(gè)字符放在一起,如abc),***是表示可選項(xiàng)的運(yùn)算(|)。所以 'foot|bar' 可以匹配’foot‘或者’bar‘,但是 'foot|ba{2}r'匹配的是’foot‘或者’baar‘。
一、字符數(shù)統(tǒng)計(jì)和字符翻譯
nchar這個(gè)函數(shù)簡(jiǎn)單,統(tǒng)計(jì)向量中每個(gè)元素的字符個(gè)數(shù),注意這個(gè)函數(shù)和length函數(shù)的差別:nchar是向量元素的字符個(gè)數(shù),而length是向量長(zhǎng)度(向量元素的個(gè)數(shù))。其他沒(méi)什么需要說(shuō)的。
- > x <- c("Hellow", "World", "!")
- > nchar(x)
- [1] 6 5 1
- > length(''); nchar('')
- [1] 1
- [1] 0
另外三個(gè)函數(shù)用法也很簡(jiǎn)單:
- > DNA <- "AtGCtttACC"
- > tolower(DNA)
- [1] "atgctttacc"
- > toupper(DNA)
- [1] "ATGCTTTACC"
- > chartr("Tt", "Uu", DNA)
- [1] "AuGCuuuACC"
- > chartr("Tt", "UU", DNA)
- [1] "AUGCUUUACC"
二、字符串連接
paste應(yīng)該是R中最常用字符串函數(shù)了,也是R字符串處理函數(shù)里面非常純的不使用正則表達(dá)式的函數(shù)(因?yàn)橛貌恢K喈?dāng)于其他語(yǔ)言的strjoin,但是功能更強(qiáng)大。它把向量連成字串向量,其他類(lèi)型的數(shù)據(jù)會(huì)轉(zhuǎn)成向量,但不一定是你要的結(jié)果:
- > paste("CK", 1:6, sep="")
- [1] "CK1" "CK2" "CK3" "CK4" "CK5" "CK6"
- > x <- list(a="aaa", b="bbb", c="ccc")
- > y <- list(d=1, e=2)
- > paste(x, y, sep="-") #較短的向量被循環(huán)使用
- [1] "aaa-1" "bbb-2" "ccc-1"
- > z <- list(x,y)
- > paste("T", z, sep=":") #這樣的結(jié)果不知合不合用
- [1] "T:list(a = \"aaa\", b = \"bbb\", c = \"ccc\")"
- [2] "T:list(d = 1, e = 2)"
短向量重復(fù)使用,列表數(shù)據(jù)只有一級(jí)列表能有好的表現(xiàn),能不能用看自己需要。會(huì)得到什么樣的結(jié)果是可以預(yù)知的,用as.character函數(shù)看吧,這又是一個(gè)字符串處理函數(shù):
- > as.character(x)
- [1] "aaa" "bbb" "ccc"
- > as.character(z)
- [1] "list(a = \"aaa\", b = \"bbb\", c = \"ccc\")"
- [2] "list(d = 1, e = 2)"
paste函數(shù)還有一個(gè)用法,設(shè)置collapse參數(shù),連成一個(gè)字符串:
- > paste(x, y, sep="-", collapse='; ')
- [1] "aaa-1; bbb-2; ccc-1"
- > paste(x, collapse='; ')
- [1] "aaa; bbb; ccc"
三、字符串拆分
strsplit函數(shù)使用正則表達(dá)式,使用格式為:strsplit(x, split, fixed = FALSE, perl = FALSE, useBytes = FALSE)
參數(shù)x為字串向量,每個(gè)元素都將單獨(dú)進(jìn)行拆分。
參數(shù)split為拆分位置的字串向量,默認(rèn)為正則表達(dá)式匹配(fixed=FALSE)。如果你沒(méi)接觸過(guò)正則表達(dá)式,設(shè)置fixed=TRUE,表示使用普通文本匹配或正則表達(dá)式的精確匹配。普通文本的運(yùn)算速度快。
perl=TRUE/FALSE的設(shè)置和perl語(yǔ)言版本有關(guān),如果正則表達(dá)式很長(zhǎng),正確設(shè)置表達(dá)式并且使用perl=TRUE可以提高運(yùn)算速度。
參數(shù)useBytes設(shè)置是否逐個(gè)字節(jié)進(jìn)行匹配,默認(rèn)為FALSE,即按字符而不是字節(jié)進(jìn)行匹配。
下面的例子把一句話按空格拆分為單詞:
> text <- "Hello Adam!\nHello Ava!"
> strsplit(text, ' ')
[[1]]
[1] "Hello" "Adam!\nHello" "Ava!"
R語(yǔ)言的字符串事實(shí)上也是正則表達(dá)式,上面文本中的\n在圖形輸出中是被解釋為換行符的。
> strsplit(text, '\\s')
[[1]]
[1] "Hello" "Adam!" "Hello" "Ava!"
strsplit得到的結(jié)果是列表,后面要怎么處理就得看情況而定了:
> class(strsplit(text, '\\s'))
[1] "list"
有一種情況很特殊:如果split參數(shù)的字符長(zhǎng)度為0,得到的結(jié)果就是一個(gè)個(gè)的字符:
> strsplit(text, '')
[[1]]
[1] "H" "e" "l" "l" "o" " " "A" "d" "a" "m" "!" "\n" "H" "e" "l" "l"
[17] "o" " " "A" "v" "a" "!"
從這里也可以看到R把 \n 是當(dāng)成一個(gè)字符來(lái)處理的。
四、字符串查詢(xún):
1、grep和grepl函數(shù):
這兩個(gè)函數(shù)返回向量水平的匹配結(jié)果,不涉及匹配字符串的詳細(xì)位置信息。
- grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE,
- fixed = FALSE, useBytes = FALSE, invert = FALSE)
- grepl(pattern, x, ignore.case = FALSE, perl = FALSE,
- fixed = FALSE, useBytes = FALSE)
雖然參數(shù)看起差不多,但是返回的結(jié)果不一樣。下來(lái)例子列出C:\windows目錄下的所有文件,然后用grep和grepl查找exe文件:
- > files <- list.files("c:/windows")
- > grep("\\.exe$", files)
- [1] 8 28 30 35 36 57 68 98 99 101 110 111 114 116
- > grepl("\\.exe$", files)
- [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE
- [14] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
- #......
grep僅返回匹配項(xiàng)的下標(biāo),而grepl返回所有的查詢(xún)結(jié)果,并用邏輯向量表示有沒(méi)有找到匹配。兩者的結(jié)果用于提取數(shù)據(jù)子集的結(jié)果都一樣:
- > files[grep("\\.exe$", files)]
- [1] "bfsvc.exe" "explorer.exe" "fveupdate.exe" "HelpPane.exe"
- [5] "hh.exe" "notepad.exe" "regedit.exe" "twunk_16.exe"
- [9] "twunk_32.exe" "uninst.exe" "winhelp.exe" "winhlp32.exe"
- [13] "write.exe" "xinstaller.exe"
- > files[grepl("\\.exe$", files)]
- [1] "bfsvc.exe" "explorer.exe" "fveupdate.exe" "HelpPane.exe"
- [5] "hh.exe" "notepad.exe" "regedit.exe" "twunk_16.exe"
- [9] "twunk_32.exe" "uninst.exe" "winhelp.exe" "winhlp32.exe"
- [13] "write.exe" "xinstaller.exe"
2、regexpr、gregexpr和regexec
這三個(gè)函數(shù)返回的結(jié)果包含了匹配的具體位置和字符串長(zhǎng)度信息,可以用于字符串的提取操作。
- > text <- c("Hellow, Adam!", "Hi, Adam!", "How are you, Adam.")
- > regexpr("Adam", text)
- [1] 9 5 14
- attr(,"match.length")
- [1] 4 4 4
- attr(,"useBytes")
- [1] TRUE
- > gregexpr("Adam", text)
- [[1]]
- [1] 9
- attr(,"match.length")
- [1] 4
- attr(,"useBytes")
- [1] TRUE
- [[2]]
- [1] 5
- attr(,"match.length")
- [1] 4
- attr(,"useBytes")
- [1] TRUE
- [[3]]
- [1] 14
- attr(,"match.length")
- [1] 4
- attr(,"useBytes")
- [1] TRUE
- > regexec("Adam", text)
- [[1]]
- [1] 9
- attr(,"match.length")
- [1] 4
- [[2]]
- [1] 5
- attr(,"match.length")
- [1] 4
- [[3]]
- [1] 14
- attr(,"match.length")
- [1] 4
五、字符串替換
雖然sub和gsub是用于字符串替換的函數(shù),但嚴(yán)格地說(shuō)R語(yǔ)言沒(méi)有字符串替換的函數(shù),因?yàn)镽語(yǔ)言不管什么操作對(duì)參數(shù)都是傳值不傳址。
- > text
- [1] "Hello Adam!\nHello Ava!"
- > sub(pattern="Adam", replacement="world", text)
- [1] "Hello world!\nHello Ava!"
- > text
- [1] "Hello Adam!\nHello Ava!"
可以看到:雖然說(shuō)是“替換”,但原字符串并沒(méi)有改變,要改變?cè)兞课覀冎荒芡ㄟ^(guò)再賦值的方式。
sub和gsub的區(qū)別是前者只做一次替換(不管有幾次匹配),而gsub把滿(mǎn)足條件的匹配都做替換:
- > sub(pattern="Adam|Ava", replacement="world", text)
- [1] "Hello world!\nHello Ava!"
- > gsub(pattern="Adam|Ava", replacement="world", text)
- [1] "Hello world!\nHello world!"
sub和gsub函數(shù)可以使用提取表達(dá)式(轉(zhuǎn)義字符+數(shù)字)讓部分變成全部:
> sub(pattern=".*(Adam).*", replacement="\\1", text)
[1] "Adam"
六、字符串提取
substr和substring函數(shù)通過(guò)位置進(jìn)行字符串拆分或提取,它們本身并不使用正則表達(dá)式,但是結(jié)合正則表達(dá)式函數(shù)regexpr、gregexpr或regexec使用可以非常方便地從大量文本中提取所需信息。兩者的參數(shù)設(shè)置基本相同:
- substr(x, start, stop)
- substring(text, first, last = 1000000L)
第 1個(gè)參數(shù)均為要拆分的字串向量,第2個(gè)參數(shù)為截取的起始位置向量,第3個(gè)參數(shù)為截取字串的終止位置向量。但它們的返回值的長(zhǎng)度(個(gè)數(shù))有差 別:substr返回的字串個(gè)數(shù)等于***個(gè)參數(shù)的長(zhǎng)度;而substring返回字串個(gè)數(shù)等于三個(gè)參數(shù)中最長(zhǎng)向量長(zhǎng)度,短向量循環(huán)使用。先看第1參數(shù)(要 拆分的字符向量)長(zhǎng)度為1例子:
- > x <- "123456789"
- > substr(x, c(2,4), c(4,5,8))
- [1] "234"
- > substring(x, c(2,4), c(4,5,8))
- [1] "234" "45" "2345678"
因?yàn)閤的向量長(zhǎng)度為1,所以substr獲得的結(jié)果只有1個(gè)字串,即第2和第3個(gè)參數(shù)向量只用了***個(gè)組合:起始位置2,終止位置4。
而substring的語(yǔ)句三個(gè)參數(shù)中最長(zhǎng)的向量為c(4,5,8),執(zhí)行時(shí)按短向量循環(huán)使用的規(guī)則***個(gè)參數(shù)事實(shí)上就是c(x,x,x),第二個(gè)參數(shù)就成了c(2,4,2),最終截取的字串起始位置組合為:2-4, 4-5和2-8。
請(qǐng)按照這樣的處理規(guī)則解釋下面語(yǔ)句運(yùn)行的結(jié)果:
- > x <- c("123456789", "abcdefghijklmnopq")
- > substr(x, c(2,4), c(4,5,8))
- [1] "234" "de"
- > substring(x, c(2,4), c(4,5,8))
- [1] "234" "de" "2345678"
用substring函數(shù)可以很方便地把DNA/RNA序列進(jìn)行三聯(lián)拆分(用于蛋白質(zhì)翻譯):
- > bases <- c('A','T','G','C')
- > DNA <- paste(sample(bases, 12, replace=T), collapse='')
- > DNA
- [1] "CCTTTACGGTGT"
- > substring(DNA, seq(1,10,by=3), seq(3,12,by=3))
- [1] "CCT" "TTA" "CGG" "TGT"
用regexpr、gregexpr或regexec函數(shù)獲得位置信息后再進(jìn)行字符串提取的操作可以自己試試看。
七、其他:
比如strtrim、strwrap、charmatch、match和pmatch等,甚至是 %in% 運(yùn)算符都是可以使用的。R的在線幫助很全,自己看吧,就當(dāng)學(xué)習(xí)E文。
原文鏈接:http://helloxxxxxx.blog.163.com/blog/static/21601509520133492033667/?latestBlog
【編輯推薦】
1.R語(yǔ)言學(xué)習(xí)筆記(1):R是什么
1.R語(yǔ)言學(xué)習(xí)筆記(2):數(shù)據(jù)類(lèi)型和數(shù)據(jù)結(jié)構(gòu)