正確理解Ruby String用法
Ruby語言是一個(gè)運(yùn)用靈活的編程語言,通常都會(huì)被人們理解為一款解釋型腳本語言。在接下來的文章中,我們將會(huì)了解到一些關(guān)于Ruby String的相關(guān)知識。#t#
Ruby語言中的String是mutable的,不像java、C#中的String是immutable的。比如
- str1="abc"
- str2="abc"
在java中,對于字面量的字符串,jvm內(nèi)部維持一張表,因此如果在java中,str1和str2是同一個(gè)String對象。而在Ruby中, str1和str2是完全不同的對象。同樣,在java中對于String對象的操作都將產(chǎn)生一個(gè)新的對象,而Ruby則是操縱同一個(gè)對象,比如:
- str="abc"
- str.concat("cdf")
此時(shí)str就是"abccdf"。Ruby String是怎么處理的呢?我們只談?wù)刢 ruby中的實(shí)現(xiàn),有興趣的先看看這篇文章《管窺Ruby——對象基礎(chǔ)》。在ruby.h中我們可以看到String對象的結(jié)構(gòu),Ruby中的對象(包括類也是對象)都是一個(gè)一個(gè)的struct,String也不能例外:
- struct RString {
- struct RBasic basic;
- long len;
- char *ptr;
- union {
- long capa;
- VALUE shared;
- } aux;
- };
- //ruby.h
顯然,len是String的長度;ptr是一個(gè)char類型的指針,指向?qū)嶋H的字符串;然后是一個(gè)聯(lián)合,這個(gè)稍后再說。如果你看看ruby.h可以發(fā) 現(xiàn),幾乎所有定義的對象結(jié)構(gòu)都有一個(gè)struct RBasic。顯然,struct RBasic包含由所有對象結(jié)構(gòu)體共享的一些重要信息的??纯碦Basic:
- struct RBasic {
- unsigned long flags;
- VALUE klass;
- };
其中的flags是一個(gè)多用途的標(biāo)記,大多數(shù)情況下用于記錄結(jié)構(gòu)體的類型,ruby.h中預(yù)定義了一些列的宏,比如T_STRING(表示struct RString),T_ARRAY(表示struct RArray)等。Klass是一個(gè)VALUE類型,VALUE也是unsigned long,可以地將它當(dāng)成指針(一個(gè)指針4字節(jié),綽綽有余了),它指向的是一個(gè)Ruby對象,這里以后再深入。
那么聯(lián)合aux中的capa和shared是干什么用的呢?因?yàn)镽uby的String是可變的,可變意味著len可以改變,我們需要每次都根據(jù)len的 變換來增減內(nèi)存(使用c中的realloc()函數(shù)),這顯然是一個(gè)很大的開銷,解決辦法就是預(yù)留一定的空間,ptr指向的內(nèi)存大小略大于len,這樣就 不需要頻繁調(diào)用realloc了,aux.capa就是一個(gè)長度,包含額外的內(nèi)存大小。那么aux.shared是干什么的呢?這是一個(gè)VALUE類型, 說明它是指向某個(gè)對象。aux.shared其實(shí)是用于加快字符串的創(chuàng)建速度,在一個(gè)循環(huán)中。
每次都重新創(chuàng)建一個(gè)"str"對象,內(nèi)部就是重復(fù)創(chuàng)建一個(gè)char[],這是相當(dāng)奢侈,aux.shared就是用于共享char[],以字面量創(chuàng)建的字符串會(huì)共享一個(gè)char[],當(dāng)要發(fā)生變化時(shí),將字符串復(fù)制到一個(gè)非共享的內(nèi)存中,變化針對這個(gè)新拷貝進(jìn)行,這就是所謂的“copy-on-write"技術(shù)。解釋了String的內(nèi)部構(gòu)造,貌似還沒有介紹String是怎么實(shí)現(xiàn)mutable,我們寫一個(gè)Ruby擴(kuò)展測試下,我們想寫這樣一個(gè)Ruby類:
classTestdefteststr="str"str.concat("ing")endend
對應(yīng)的c語言代碼就是:
- #include
- #include"ruby.h"staticVALUEt_test(VALUEself){
- VALUEstr;str=rb_str_new2("str");
- printf("beforeconcat:str:%p,
- str.aux.shared:%p,str.ptr:%s"n",str,
(RSTRING(str)->aux).shared,RSTRING(str)->ptr);- rb_str_cat2(str,"ing");
- printf("afterconcat:str:%p,str.aux.
shared:%p,str.ptr:%s"n",- str,(RSTRING(str)->aux).shared,RSTRING
(str)->ptr);returnself;- }
- VALUEcTest;
- voidInit_string_hack(){
- cTest=rb_define_class("Test",rb_cObject);
- rb_define_method(cTest,"test",t_test,0);
- }//string_hack.c
在t_test中,通過rb_str_new2每次生成一個(gè)RString結(jié)構(gòu),然后通過rb_str_cat2將str與"ing"連接起來,添加
了一些打印用于跟蹤。利用mkmf產(chǎn)生Makefile,寫一個(gè)extconf.rb
require'mkmf'create_makefile("string_hack");
執(zhí)行ruby extconf.rb,將產(chǎn)生一個(gè)Makefile,執(zhí)行make,生成一個(gè)string_hack.so的鏈接庫。擴(kuò)展寫完了,通過
ruby調(diào)用:
require'string_hack"t=Test.new(1..3).each{|i|t.test}
輸出:
before concat: str:0x40098a40, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a40, str.aux.shared:0x8, str.ptr:string
before concat: str:0x40098a2c, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a2c, str.aux.shared:0x8, str.ptr:string
before concat: str:0x40098a18, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a18, str.aux.shared:0x8, str.ptr:string
從結(jié)果可以看出,在str concat之前之后,str指向的位置沒有改變,改變的僅僅是str中ptr指向的字符串的值,看看rb_str_cat2函數(shù)的實(shí)現(xiàn)就一目了然了:
- VALUErb_str_cat(str,ptr,len)VALUEstr;
- constchar*ptr;
- longlen;
- {
- if(len<0){rb_raise(rb_eArgError,
"negativestringsize(orsizetoobig)");- }
- if(FL_TEST(str,STR_ASSOC))
- {
- rb_str_modify(str);
- REALLOC_N(RSTRING(str)->ptr,char,
RSTRING(str)->len+len);- memcpy(RSTRING(str)->ptr+RSTRING
(str)->len,ptr,len);- RSTRING(str)->len+=len;
- RSTRING(str)->ptr[RSTRING(str)->len]='"0';
- /*sentinel*/
- returnstr;
- }
- returnrb_str_buf_cat(str,ptr,len);
- }
- VALUErb_str_cat2(str,ptr)VALUEstr;
- constchar*ptr;
- {
- returnrb_str_cat(str,ptr,strlen(ptr));
- }
- //string.c