自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

詳解Oracle數(shù)據(jù)庫(kù)中文全文索引

數(shù)據(jù)庫(kù) Oracle
Oracle中文全文索引目前還可能不太成熟,本文將給大家全面介紹Oracle中文全文索引機(jī)制,以及一些實(shí)際測(cè)試的介紹。

一、歷史背景

Oracle數(shù)據(jù)庫(kù)的全文檢索技術(shù)已經(jīng)非常完美,Oracle Text使Oracle9i具備了強(qiáng)大的文本檢索能力和智能化的文本管理能力。Oracle Text是Oracle9i采用的新名稱,在Oracle8/8i中它被稱作Oracle interMedia Text,在Oracle8以前它的名稱是Oracle ConText Cartridge。

二、Oracle Text 索引文檔時(shí)所使用的主要邏輯步驟如下

(1) 數(shù)據(jù)存儲(chǔ)邏輯搜索表的所有行,并讀取列中的數(shù)據(jù)。通常,這只是列數(shù)據(jù),但有些數(shù)據(jù)存儲(chǔ)使用列數(shù)據(jù)作為文檔數(shù)據(jù)的指針。

(2) 過(guò)濾器提取文檔數(shù)據(jù)并將其轉(zhuǎn)換為文本表示方式。存儲(chǔ)二進(jìn)制文檔 (如 Word 或 Acrobat 文件) 時(shí)需要這樣做。過(guò)濾器的輸出不必是純文本格式 -- 它可以是 XML 或 HTML 之類的文本格式。

(3) 分段器提取過(guò)濾器的輸出信息,并將其轉(zhuǎn)換為純文本。包括 XML 和 HTML 在內(nèi)的不同文本格式有不同的分段器。轉(zhuǎn)換為純文本涉及檢測(cè)重要文檔段標(biāo)記、移去不可見的信息和文本重新格式化。

(4) 詞法分析器提取分段器中的純文本,并將其拆分為不連續(xù)的標(biāo)記。既存在空白字符分隔語(yǔ)言使用的詞法分析器,也存在分段復(fù)雜的亞洲語(yǔ)言使用的專門詞法分析器。

(5) 索引引擎提取詞法分析器中的所有標(biāo)記、文檔段在分段器中的偏移量以及被稱為非索引字的低信息含量字列表,并構(gòu)建反向索引。倒排索引存儲(chǔ)標(biāo)記和含有這些標(biāo)記的文檔。

三、需要的權(quán)限

要使用Oracle Text,必須具有CTXAPP角色或者是CTXSYS用戶。Oracle Text為系統(tǒng)管理員提供CTXSYS用戶,為應(yīng)用程序開發(fā)人員提供CTXAPP角色。具有CTXAPP角色的用戶可執(zhí)行以下任務(wù):創(chuàng)建索引,管理 Oracle Text 數(shù)據(jù)字典,包括創(chuàng)建和刪除首選項(xiàng),進(jìn)行Oracle Text 查詢,使用 Oracle Text PL/SQL程序包。

如圖所示:

四、具體的實(shí)現(xiàn)

文本裝入文本列后,就可以創(chuàng)建Oracle Text索引。文檔以許多不同方案、格式和語(yǔ)言存儲(chǔ)。因此,每個(gè) Oracle Text 索引有許多需要設(shè)置的選項(xiàng),以針對(duì)特定情況配置索引。創(chuàng)建索引時(shí),Oracle Text可使用若干個(gè)默認(rèn)值,但在大多數(shù)情況下要求用戶通過(guò)指定首選項(xiàng)來(lái)配置索引。

每個(gè)索引的許多選項(xiàng)組成功能組,稱為"類",每個(gè)類集中體現(xiàn)配置的某一方面,可以認(rèn)為這些類就是與文檔數(shù)據(jù)庫(kù)有關(guān)的一些問(wèn)題。例如:數(shù)據(jù)存儲(chǔ)、過(guò)濾器、詞法分析器、相關(guān)詞表、存儲(chǔ)等。

每個(gè)類具有許多預(yù)定義的行為,稱之為對(duì)象。每個(gè)對(duì)象是類問(wèn)題可能具有的答案,并且大多數(shù)對(duì)象都包含有屬性。通過(guò)屬性來(lái)定制對(duì)象,從而使對(duì)索引的配置更加多變以適應(yīng)于不同的應(yīng)用。

(1)存儲(chǔ)(Storage)類

存儲(chǔ)類指定構(gòu)成Oracle Text索引的數(shù)據(jù)庫(kù)表和索引的表空間參數(shù)和創(chuàng)建參數(shù)。它僅有一個(gè)基本對(duì)象:BASIC_STORAGE,其屬性包括:I_Index_Clause、I_Table_Clause、K_Table_Clause、N_Table_Clause、P_Table_Clause、R_Table_Clause。

(2)數(shù)據(jù)存儲(chǔ)(Datastore)類

數(shù)據(jù)存儲(chǔ):關(guān)于列中存儲(chǔ)文本的位置和其他信息。默認(rèn)情況下,文本直接存儲(chǔ)到列中,表中的每行都表示一個(gè)單獨(dú)的完整文檔。其他數(shù)據(jù)存儲(chǔ)位置包括存儲(chǔ)在單獨(dú)文件中或以其 URL 標(biāo)識(shí)的 Web 頁(yè)上。七個(gè)基本對(duì)象包括:Default_Datastore、Detail_Datastore、Direct_Datastore、File_Datastore、Multi_Column_Datastore 、URL_Datastore、User_Datastore。

(3)文檔段組(Section Group)類

文檔段組是用于指定一組文檔段的對(duì)象。必須先定義文檔段,然后才能使用索引通過(guò) WITHIN 運(yùn)算符在文檔段內(nèi)進(jìn)行查詢。文檔段定義為文檔段組的一部分。包含七個(gè)基本對(duì)象:AUTO_SECTION_GROUP、BASIC_SECTION_GROUP、HTML_SECTION_GROUP、NEWS_SECTION_GROUP、NULL_SECTION_GROUP、XML_SECTION_GROUP、PATH_SECTION_GROUP。

(4)相關(guān)詞表(Wordlist)類

相關(guān)詞表標(biāo)識(shí)用于索引的詞干和模糊匹配查詢選項(xiàng)的語(yǔ)言,只有一個(gè)基本對(duì)象BASIC_WORDLIST,其屬性有:Fuzzy_Match、Fuzzy_Numresults、Fuzzy_Score、Stemmer、Substring_Index、Wildcard_Maxterms、Prefix_Index、Prefix_Max_Length、Prefix_Min_Length。

(5)索引集(Index Set)

索引集是一個(gè)或多個(gè)Oracle 索引 (不是Oracle Text索引) 的集合,用于創(chuàng)建 CTXCAT類型的Oracle Text索引,只有一個(gè)基本對(duì)象BASIC_INDEX_SET。

(6)詞法分析器(Lexer)類

詞法分析器類標(biāo)識(shí)文本使用的語(yǔ)言,還確定在文本中如何標(biāo)識(shí)標(biāo)記。默認(rèn)的詞法分析器是英語(yǔ)或其他西歐語(yǔ)言,用空格、標(biāo)準(zhǔn)標(biāo)點(diǎn)和非字母數(shù)字字符標(biāo)識(shí)標(biāo)記,同時(shí)禁用大小寫。包含8個(gè)基本對(duì)象:BASIC_LEXER、CHINESE_LEXER、CHINESE_VGRAM_LEXER、JAPANESE_LEXER、JAPANESE_VGRAM_LEXER、KOREAN_LEXER、KOREAN__MORPH_ LEXER、MULTI_LEXER。

(7)過(guò)濾器(Filter)類

過(guò)濾器確定如何過(guò)濾文本以建立索引??梢允褂眠^(guò)濾器對(duì)文字處理器處理的文檔、格式化的文檔、純文本和 HTML 文檔建立索引,包括5個(gè)基本對(duì)象:CHARSET_FILTER、INSO_FILTER INSO、NULL_FILTER、PROCEDURE_FILTER、USER_FILTER。

(8)非索引字表(Stoplist)類

非索引字表類是用以指定一組不編入索引的單詞 (稱為非索引字)。有兩個(gè)基本對(duì)象:BASIC_STOPLIST (一種語(yǔ)言中的所有非索引字) 、 MULTI_STOPLIST (包含多種語(yǔ)言中的非索引字的多語(yǔ)言非索引字表)。

具體操作實(shí)踐

1、 創(chuàng)建詞法分析器及相關(guān)詞表

Begin

-- 定義一個(gè)詞法分析器

ctx_ddl.drop_preference('cnlex');

ctx_ddl.create_preference('cnlex','CHINESE_LEXER'); --針對(duì)中文

-- 定義一個(gè)相關(guān)詞表

ctx_ddl.create_preference('mywordlist', 'BASIC_WORDLIST');

ctx_ddl.set_attribute('mywordlist','PREFIX_INDEX','TRUE');

ctx_ddl.set_attribute('mywordlist','PREFIX_MIN_LENGTH',1);

ctx_ddl.set_attribute('mywordlist','PREFIX_MAX_LENGTH', 5);

ctx_ddl.set_attribute('mywordlist','SUBSTRING_INDEX', 'YES');

end;

// 上面的語(yǔ)句中,如果是針對(duì)英語(yǔ)語(yǔ)種則可以采用下面的語(yǔ)句來(lái)定義詞法分析器

ctx_ddl.create_preference('mylex','BASIC_LEXER');

ctx_ddl.set_attribute('mylex','printjoins','_-');

2、 在需要?jiǎng)?chuàng)建全文索引的表中創(chuàng)建索引(索引類型必須是 ctxsys.context,即應(yīng)用上下文索引)

create index idx_person_desc on personinfo(persondesc)

indextype is ctxsys.context

parameters (

'DATASTORE CTXSYS.DIRECT_DATASTORE FILTER

CTXSYS.NULL_FILTER LEXER cnlex WORDLIST mywordlist');

-- 請(qǐng)注意此處采用的是NULL_FILTER過(guò)濾器,如果采用INSO_FILTER則不能對(duì)中文進(jìn)行全文索引

3、進(jìn)行全文索引的同步

exec ctx_ddl.sync_index('idx_user_info', '20M');

#p#

具體理解

Oracle實(shí)現(xiàn)全文檢索,其機(jī)制其實(shí)很簡(jiǎn)單。即通過(guò)Oracle專利的詞法分析器(lexer),將文章中所有的表意單元(Oracle 稱為 term,此處我理解為單詞或者一些有意義的詞語(yǔ)) 找出來(lái),記錄在一組以 dr$開頭的表中,同時(shí)記下該term出現(xiàn)的位置、次數(shù)、hash 值等信息。檢索時(shí),Oracle 從這組表中查找相應(yīng)的 term,并計(jì)算其出現(xiàn)頻率,根據(jù)某個(gè)算法來(lái)計(jì)算每個(gè)文檔的得分(score),即所謂的‘匹配率’。而lexer則是該機(jī)制的核心,它決定了全文檢索的效率。Oracle 針對(duì)不同的語(yǔ)言提供了不同的 lexer, 而我們通常能用到其中的三個(gè):

basic_lexer: 針對(duì)英語(yǔ)。它能根據(jù)空格和標(biāo)點(diǎn)來(lái)將英語(yǔ)單詞從句子中分離,還能自動(dòng)將一些出現(xiàn)頻率過(guò)高已經(jīng)失去檢索意義的單詞作為‘垃圾’處理,如if , is 等,具有較高的處理效率。但該lexer應(yīng)用于漢語(yǔ)則有很多問(wèn)題,由于它只認(rèn)空格和標(biāo)點(diǎn),而漢語(yǔ)的一句話中通常不會(huì)有空格,因此,它會(huì)把整句話作為一個(gè)term,事實(shí)上失去檢索能力。以‘中國(guó)人民站起來(lái)了’這句話為例,basic_lexer 分析的結(jié)果只有一個(gè)term ,就是‘中國(guó)人民站起來(lái)了’。此時(shí)若檢索‘中國(guó)’,將檢索不到內(nèi)容。

chinese_vgram_lexer: 專門的漢語(yǔ)分析器,支持所有漢字字符集。該分析器按字為單元來(lái)分析漢語(yǔ)句子。‘中國(guó)人民站起來(lái)了’這句話,會(huì)被它分析成如下幾個(gè)term: ‘中’,‘中國(guó)’,‘國(guó)人’,‘人民’,‘民站’,‘站起’,起來(lái)’,‘來(lái)了’,‘了’??梢钥闯?,這種分析方法,實(shí)現(xiàn)算法很簡(jiǎn)單,并且能實(shí)現(xiàn)‘一網(wǎng)打盡’,但效率則是差強(qiáng)人意。

chinese_lexer: 這是一個(gè)新的漢語(yǔ)分析器,只支持utf8字符集。上面已經(jīng)看到,chinese vgram lexer這個(gè)分析器由于不認(rèn)識(shí)常用的漢語(yǔ)詞匯,因此分析的單元非常機(jī)械,像上面的‘民站’,‘站起’在漢語(yǔ)中根本不會(huì)單獨(dú)出現(xiàn),因此這種term是沒有意義的,反而影響效率。chinese_lexer的最大改進(jìn)就是該分析器能認(rèn)識(shí)大部分常用漢語(yǔ)詞匯,因此能更有效率地分析句子,像以上兩個(gè)愚蠢的單元將不會(huì)再出現(xiàn),極大提高了效率。但是它只支持 utf8, 如果你的數(shù)據(jù)庫(kù)是zhs16gbk字符集,則只能使用笨笨的那個(gè)Chinese vgram lexer。

--以上的說(shuō)法是針對(duì)于Oracle8i或者是更低級(jí)版本的,在Oracle 9.2中采用 Chinese_lexer 分析器測(cè)試是沒有這個(gè)問(wèn)題的。

如果不做任何設(shè)置,Oracle 缺省使用basic_lexer這個(gè)分析器。要指定使用哪一個(gè)lexer, 可以這樣操作:

第一,在ctxsys用戶下建立一個(gè)preference:

ctx_ddl.create_preference('cnlex','CHINESE_LEXER');

第二,在建立intermedia索引時(shí),指明所用的lexer:

create index idx_person_desc on personinfo(persondesc)

indextype is ctxsys.context

parameters (

'DATASTORE CTXSYS.DIRECT_DATASTORE FILTER

CTXSYS.NULL_FILTER LEXER cnlex WORDLIST mywordlist')

這樣建立的全文檢索索引,就會(huì)使用CHINESE_LEXER作為分析器。

使用job定時(shí)同步和優(yōu)化

在intermedia索引建好后,如果表中的數(shù)據(jù)發(fā)生變化,比如增加或修改了記錄,怎么辦?由于對(duì)表所發(fā)生的任何dml語(yǔ)句,都不會(huì)自動(dòng)修改索引,因此,必須定時(shí)同步(sync)和優(yōu)化(optimize)索引,以正確反映數(shù)據(jù)的變化。

在索引建好后,我們可以在該用戶下查到Oracle自動(dòng)產(chǎn)生了以下幾個(gè)表:(假設(shè)索引名為myindex):

DR$myindex$I,DR$myindex$K,DR$myindex$R,DR$myindex$N

其中以I表最重要,可以查詢一下該表,看看有什么內(nèi)容:

select token_text, token_count from DR$I_RSK1$I where rownum<=20;

可以看到,該表中保存的其實(shí)就是Oracle 分析你的文檔后,生成的term記錄在這里,包括term出現(xiàn)的位置、次數(shù)、hash值等。當(dāng)文檔的內(nèi)容改變后,可以想見這個(gè)I表的內(nèi)容也應(yīng)該相應(yīng)改變,才能保證Oracle在做全文檢索時(shí)正確檢索到內(nèi)容(因?yàn)樗^全文檢索,其實(shí)核心就是查詢這個(gè)表)。那么如何維護(hù)該表的內(nèi)容呢?總不能每次數(shù)據(jù)改變都重新建立索引吧!這就用到sync 和 optimize了。

同步(sync):將新的term 保存到I表。

優(yōu)化(optimize):清除I表的垃圾,主要是將已經(jīng)被刪除的term從I表刪除。

檢查全文索引是否創(chuàng)建成功

1、檢查DR$myindex$I是否存在,其中的 myindex 代表建立的索引名稱;

2、檢查全文索引是否創(chuàng)建成功,最好采用 Contains來(lái)檢查,具體的語(yǔ)法為

Contains(ColumnName,SearcherKey) > 0

// ColumnName為所需要檢查的列名,也即創(chuàng)建了全文索引的列名

// SearcherKey 為你需要查找的內(nèi)容,為字符型

列如,按上面創(chuàng)建的全文索引,可以使用如下的語(yǔ)句:

Select * From PERSONINFO Where Containts(PERSONDESC, 'abcd',1) > 0

Select * From PERSONINFO Where Containts(PERSONDESC, 'abcd',1) > 0

如果你創(chuàng)建的全文索引不成功,則返回失敗,其內(nèi)容為:

ORA-20000: Oracle Text error: DRG-10599: 列沒有編制索引

當(dāng)然,如果你創(chuàng)建成功,則會(huì)正確返回?cái)?shù)據(jù)。還有一個(gè)檢查全文索引是否創(chuàng)建成功的方法是感覺創(chuàng)建全文索引后的查詢速度。

測(cè)試數(shù)據(jù)

下面是對(duì)一個(gè)表進(jìn)行操作時(shí),在同一臺(tái)機(jī)器中獲得的測(cè)試數(shù)據(jù)。

PersonInfo表中共有 182263 條記錄,其中persondesc不為null的記錄數(shù)為180187 條記錄,

其中,persondesc 包括 “大學(xué)”兩個(gè)漢字的記錄數(shù)為 21579 條記錄

persondesc 包括 “1999”兩個(gè)漢字的記錄數(shù)為 10889條記錄

測(cè)試一、直接用like 來(lái)查詢中文“大學(xué)”

SQL: Select count(*) From personinfo Where persondesc like '%大學(xué)%'

時(shí)間開銷:耗時(shí) 40秒 688 毫秒

測(cè)試二、直接用like 來(lái)查詢英文“1999”

SQL: Select count(*) From personinfo Where persondesc like '%1999%'

時(shí)間開銷:耗時(shí) 47秒 218毫秒

測(cè)試三、未創(chuàng)建全文索引時(shí),直接用dbms_lob.instr 來(lái)查詢中文“大學(xué)”

SQL: Select count(*) From personinfo Where dbms_lob.instr(persondesc,'大學(xué)',1,1)>0

時(shí)間開銷:耗時(shí) 47秒 031毫秒

測(cè)試四、未創(chuàng)建全文索引時(shí),直接用dbms_lob.instr 來(lái)查詢英文“1999”

SQL: Select count(*) From personinfo Where dbms_lob.instr(persondesc,'1999',1,1)>0

時(shí)間開銷:耗時(shí) 44秒 360毫秒

測(cè)試五、未創(chuàng)建全文索引時(shí),直接用Contains 來(lái)查詢中文“大學(xué)”

SQL: Select count(*) From personinfo Where Contains(persondesc,'大學(xué)',1)>0";

執(zhí)行失?。?ORA-20000: Oracle Text error: DRG-10599: 列沒有編制索引

測(cè)試六、未創(chuàng)建全文索引時(shí),直接用Contains 來(lái)查詢英文“1999”

SQL: Select count(*) From personinfo Where Contains(persondesc,'1999',1)>0";

執(zhí)行失敗: ORA-20000: Oracle Text error: DRG-10599: 列沒有編制索引

測(cè)試七、采用CHINESE_LEXER詞法分析器創(chuàng)建全文索引后,直接用Contains 來(lái)查詢英文“1999”

SQL: Select count(*) From personinfo Where Contains(persondesc,'1999',1)>0";

時(shí)間開銷:第一次查詢耗時(shí) 469毫秒,后面的多次查詢耗時(shí) 210毫秒左右

***查詢出來(lái)的記錄數(shù)比在未建立索引時(shí)用like、dbms_lob.instr方式查詢出來(lái)的記錄數(shù)要少一些

測(cè)試八、采用CHINESE_LEXER詞法分析器創(chuàng)建全文索引后,直接用Contains 來(lái)查詢中文“大學(xué)”

SQL: Select count(*) From personinfo Where Contains(persondesc,'大學(xué)',1)>0";

時(shí)間開銷:第一次查詢耗時(shí) 9秒359毫秒,后面的多次查詢耗時(shí) 210毫秒左右

***查詢出來(lái)的記錄數(shù)比在未建立索引時(shí)用like、dbms_lob.instr方式查詢出來(lái)的記錄數(shù)要少一些

測(cè)試九、采用CHINESE_LEXER詞法分析器創(chuàng)建全文索引后,用dbms_lob.instr 來(lái)查詢中文“大學(xué)”

SQL: Select count(*) From personinfo Where dbms_lob.instr(persondesc,'大學(xué)',1,1)>0

時(shí)間開銷:耗時(shí) 54秒 953毫秒

測(cè)試十、采用CHINESE_LEXER詞法分析器創(chuàng)建全文索引后,直接用dbms_lob.instr 來(lái)查詢英文“1999”

SQL: Select count(*) From personinfo Where dbms_lob.instr(persondesc,'1999',1,1)>0

時(shí)間開銷:耗時(shí) 52秒 652毫秒

總體感覺Oracle的中文全文索引不是很好。后續(xù)版本或許會(huì)有所改進(jìn)吧。

【編輯推薦】

  1. 分析師談Oracle收購(gòu)Sun后的10大預(yù)測(cè)
  2. Oracle數(shù)據(jù)庫(kù)開發(fā)經(jīng)驗(yàn)淺談
  3. Oracle編程高手箴言:位圖索引的故事
責(zé)任編輯:彭凡 來(lái)源: csdn
相關(guān)推薦

2011-05-13 14:34:31

Oracle全文索引設(shè)置

2022-09-07 08:16:09

MySQL索引

2011-04-02 13:21:34

SQL Server數(shù)據(jù)庫(kù)全文索引

2010-10-26 16:54:16

oracle全文索引

2009-02-09 12:52:32

文件加密Oracle數(shù)據(jù)庫(kù)

2010-09-27 11:42:44

SQL全文索引

2010-11-10 14:06:44

SQL Server全

2011-04-18 11:00:12

SQL Server全文索引

2011-03-16 08:54:45

Oracle數(shù)據(jù)庫(kù)索引

2010-11-10 14:26:44

Sql Server全

2011-08-30 13:54:29

SQL Server全文索引

2010-07-22 09:33:45

SQL Server全

2010-05-28 11:14:39

MySQL全文索引限制

2011-05-19 13:25:14

Oracle數(shù)據(jù)庫(kù)

2010-04-02 13:59:08

Oracle數(shù)據(jù)庫(kù)

2010-04-14 15:14:11

Oracle數(shù)據(jù)庫(kù)

2019-11-29 07:37:44

Oracle數(shù)據(jù)庫(kù)索引

2011-03-29 10:47:49

ORACLE數(shù)據(jù)庫(kù)

2010-09-27 11:29:36

SQL全文索引

2010-10-20 11:07:21

sql server全
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)