處理不確定數(shù)據(jù)的方法研究
成果簡介:
不確定性是客觀存在的大量現(xiàn)象和事物的特征,其表現(xiàn)形式也具有多樣性,如隨機(jī)性、模糊性、粗糙性以及多重不確定性等。隨著研究范圍的擴(kuò)大、研究內(nèi)容的深入,對(duì)不確定現(xiàn)象與事物的研究及其數(shù)據(jù)處理方法也亟待突破和落地應(yīng)用。本研究針對(duì)不確定性的數(shù)學(xué)理論、算法及應(yīng)用開展了多層次研究:在隨機(jī)性數(shù)據(jù)處理方面,應(yīng)用已有的成熟算法對(duì)實(shí)際生活中常見的不確定性現(xiàn)象開展分析,包括了多維標(biāo)度法在親屬關(guān)系中的分析應(yīng)用、Bayes判別法在醫(yī)學(xué)領(lǐng)中的分析應(yīng)用;在粗糙性數(shù)據(jù)處理方面,發(fā)展了若干處理不確定性數(shù)據(jù)的新方法,包括了合成集值信息系統(tǒng)的屬性特征分析方法以及基于包含度的結(jié)構(gòu)粗糙集近似方法研究。
成果內(nèi)容提要:
隨著信息技術(shù)的日星月異,一些具有海量、高維、動(dòng)態(tài)等特征的大規(guī)模復(fù)雜數(shù)據(jù)不對(duì)涌現(xiàn),這些數(shù)據(jù)以數(shù)字、語言、聲音、圖像等形式進(jìn)行存儲(chǔ),并形成了大量的復(fù)雜信息系統(tǒng),人們迫切需要去分析處理這些復(fù)雜數(shù)據(jù),從中找到有價(jià)值的信息和知識(shí)。然而,由于這些數(shù)據(jù)帶有的高度不確定性,直接對(duì)這些數(shù)據(jù)進(jìn)行處理面臨著嚴(yán)重的計(jì)算問題。***摸象的故事就反映了在信息不確定性下進(jìn)行應(yīng)用推理會(huì)產(chǎn)生認(rèn)知的偏差。因此,如何有效、快速地處理不確定性數(shù)據(jù),并提取出隱含其中、潛在有用的知識(shí),一直是智能信息處理領(lǐng)域的一個(gè)研究熱點(diǎn)。
作為知識(shí)獲取和數(shù)據(jù)挖掘的重要理論,概率論與包含度理論是處理隨機(jī)性和粗糙性數(shù)據(jù)工具的基礎(chǔ)理論。本作品針對(duì)若干不確定性的數(shù)學(xué)理論、算法及應(yīng)用開展了多層次研究,在隨機(jī)和粗糙性數(shù)據(jù)處理方面取得了以下兩方面的研究成果,對(duì)推動(dòng)不確定性數(shù)據(jù)處理的理論、方法和實(shí)際應(yīng)用研究具體重要的現(xiàn)實(shí)意義。
1、在隨機(jī)性數(shù)據(jù)處理方面,應(yīng)用基于概率論的統(tǒng)計(jì)分析算法對(duì)實(shí)際生活的常見不確定性現(xiàn)象開展分析。
(1) 多維標(biāo)度法在親屬關(guān)系中的分析應(yīng)用:簡單地介紹了多維標(biāo)度法和加權(quán)多維標(biāo)度法的理論及原理,對(duì)親屬關(guān)系間的不確定現(xiàn)象進(jìn)行建模,采用多維標(biāo)度法分析了親屬關(guān)系的親密程度,展示了15種親屬關(guān)系可分為五大類,并由此得到在人們心中親屬的分類情況,最終根據(jù)這些分類來解釋一些親屬間的關(guān)系,理解人際關(guān)系中的一些社會(huì)現(xiàn)象,幫助緩和彼此之間的一些矛盾。
(2) Bayes判別法在醫(yī)學(xué)領(lǐng)中的分析應(yīng)用:Bayes判別在進(jìn)行判別分析時(shí)考慮到各總體出現(xiàn)的先驗(yàn)概率、預(yù)報(bào)的先驗(yàn)概率及錯(cuò)判造成的損失,其判別效能優(yōu)于其他判別方法。在對(duì)Bayes判別方法詳細(xì)介紹基礎(chǔ)上,本研究利用R軟件對(duì)一組舒張壓和膽固醇數(shù)據(jù)分別進(jìn)行Bayes判別分析、Fisher判別分析和基于距離的判別分析,對(duì)比三種不同方法下得到的判別結(jié)果。結(jié)果表明,Bayes判別分析得到的分類結(jié)果精度較高,在醫(yī)學(xué)領(lǐng)域有較好的應(yīng)用前景。
2、在粗糙性數(shù)據(jù)處理方面,發(fā)展了基于包含度理論的若干粗糙性數(shù)據(jù)處理新理論和新方法。
(1) 合成集值信息系統(tǒng)的屬性特征:屬性特征是描述數(shù)據(jù)的重要表征,也是研究信息系統(tǒng)中屬性重要性的方法之一。對(duì)一個(gè)信息系統(tǒng)而言,知識(shí)庫中的屬性并不是同等重要的,其中有些屬性是冗余的,即不必要屬性,而有些屬性是必需的,即必要屬性。而當(dāng)信息系統(tǒng)中的數(shù)據(jù)是隨機(jī)采集時(shí),其冗余性更為普遍。因此,研究信息系統(tǒng)中屬性的重要性即屬性特征具有重要的理論與實(shí)際意義。本研究基于集值信息系統(tǒng)中的擬序關(guān)系,給出了對(duì)象合成、屬性合成集值信息系統(tǒng),討論了集值信息系統(tǒng)與合成集值信息系統(tǒng)的協(xié)調(diào)集、屬性特征之間的關(guān)系,進(jìn)而定義了對(duì)象(屬性)子集值信息系統(tǒng),研究了子集值信息系統(tǒng)與原集值信息系統(tǒng)等的必要屬性及不必要屬性之間的關(guān)系。
(2) 基于包含度的結(jié)構(gòu)粗糙集近似方法研究:基于包含度理論的粗糙集是一種處理不確定性和不完整性的數(shù)學(xué)工具,不僅能有效地分析不完整、不一致、不精確等不完備的信息,還能對(duì)數(shù)據(jù)進(jìn)行分析與推理,從中發(fā)現(xiàn)隱含的的知識(shí),揭示其潛在的規(guī)律。本研究在Pawlak下、上近似和Bryniarski下、上近似的基礎(chǔ)上,研究了結(jié)構(gòu)粗糙集近似及其性質(zhì),主要包括基于概率粗糙集近似研究及其性質(zhì),利用包含度度量等價(jià)類和被近似集之間的包含程度,基于包含度的粗糙集近似及其性質(zhì),以及基于包含度的結(jié)構(gòu)粗糙集近似。
綜上,上述兩方面的理論和應(yīng)用研究,有助于隨機(jī)和粗糙性數(shù)據(jù)的合成、傳播和修正,為不確定數(shù)據(jù)處理理論和應(yīng)用研究提供了借鑒,同時(shí)也對(duì)產(chǎn)生新的不確定推理技術(shù)有著明顯的指導(dǎo)作用。
社會(huì)反映:
當(dāng)今世界處在一個(gè)信息時(shí)代,信息是人類社會(huì)認(rèn)識(shí)世界和改造世界的知識(shí)源泉,人們接觸到的各種各樣的信息有時(shí)候是確定的,更多的時(shí)候是不確定的。信息本身的確定或不確定屬性無所謂好壞,問題在于我們?cè)鯓尤フ暡淮_定性、認(rèn)識(shí)不確定性、把握不確定性,確定與不確定揭示和反映事物變化發(fā)展過程中的必然與偶然、清晰與模糊、精確與近似之間的關(guān)系,確定性是指客觀事物聯(lián)系和發(fā)展過程中有規(guī)律的、必然的、清晰的、精確的屬性,不確定性是指客觀事物聯(lián)系和發(fā)展的過程中無序的、或然的、模糊的、近似的屬性,確定與不確定,既有本質(zhì)區(qū)別,又有內(nèi)在聯(lián)系,兩者之間的關(guān)系是辯證統(tǒng)一的。
不確定性的數(shù)據(jù)分析研究是在概率論、可信性理論、包含度理論等基礎(chǔ)理論支撐逐漸開展的,是指對(duì)決策受到各種事前無法控制的外部因素變化與影響所進(jìn)行的研究和估計(jì),可以盡量弄清和減少不確定性因素對(duì)關(guān)注問題的影響。本研究旨在提供處理若干不確定性問題的理論分析和數(shù)學(xué)工具,內(nèi)容包括隨機(jī)性數(shù)據(jù)與粗糙性數(shù)據(jù)的處理兩大方面,部分反映了不確定性數(shù)據(jù)處理的***研究成果、研究方法和研究動(dòng)向,在理論體系和方法上均有所創(chuàng)新。本作品可作為應(yīng)用數(shù)學(xué)、運(yùn)籌學(xué)、管理科學(xué)、計(jì)算機(jī)科學(xué)、系統(tǒng)科學(xué)、信息科學(xué)與工程技術(shù)等專業(yè)師生和研究人員探討分析不確定性數(shù)據(jù)處理的參考資料,也可作為相關(guān)專業(yè)的教師和研究人員的參考書。
(1)多維標(biāo)度法在親屬關(guān)系中的分析應(yīng)用
在實(shí)際中我們會(huì)經(jīng)常遇到這樣問題,對(duì)于親人,他們跟我們的關(guān)系的親密是怎么樣排序的,哪些親戚可以放在一個(gè)等級(jí)同等重要?本研究針對(duì)親屬關(guān)系問題,調(diào)査了親屬關(guān)系在人們心中的重要程度,由此來確定在我們心中怎樣的親屬關(guān)系可以放在同等重要的位置。具體是采用了多維標(biāo)度法對(duì)種親屬關(guān)系的親近程度做了相應(yīng)的分析,并且得出了比較符合實(shí)際的結(jié)果。在分析結(jié)果中,***類是叔父和侄子,在大家庭環(huán)境中,侄子是叔父的兒子視為是一家人,可以認(rèn)為是親屬關(guān)系中的一類,這與所得分析結(jié)果吻合;第二類是阿姨和侄女對(duì)個(gè)人而言,按照我們的一般直覺,可以根據(jù)性別與關(guān)系親疏將阿姨和侄女劃分在一起,這種憑直覺的劃分可以由第二種分類來解釋;第三類與第四類形成鮮明的性別的對(duì)比關(guān)系,這恰恰也符合我們的一般感覺;而堂兄妹在劃分中被單獨(dú)列為一類。由此分析結(jié)果,我們可以得出在人們的心里親屬關(guān)系的一般劃分情況,根據(jù)親屬關(guān)系分類的結(jié)果,可以了解到在人心中親屬關(guān)系的密切程度并由此并觀察出在人們心中怎樣的親屬可以放在同等重要的位置,有利于我們理解親屬關(guān)系中的很多普遍現(xiàn)象(例如,個(gè)人對(duì)待叔父和堂兄妹的態(tài)度有所不同,認(rèn)為父親和兒子同等重要,遇到生活問題總是愿意找母親或姐妹傾訴,等等)。這個(gè)分析結(jié)果對(duì)處理人際關(guān)系問題非常有幫助,讓我們了解到在普遍現(xiàn)象中,哪些親屬被同等對(duì)待哪些親屬被有差別地對(duì)待由此可以有助于緩解一些出現(xiàn)在彼此關(guān)系中的矛盾,從而降低人與人之間的沖突,努力建立和諧的人際關(guān)系。
上述成果已在國內(nèi)中文核心期刊公開發(fā)表,并取得57次下載頻次。論文具體信息如下:劉莎, 馬江洪, 劉東航. 多維標(biāo)度法在親屬關(guān)系中的應(yīng)用[J]. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2014, 44(15): 261-266.
(2)Bayes判別分析在醫(yī)學(xué)中的應(yīng)用
判別分析是用以判別個(gè)體所屬群體的一種統(tǒng)計(jì)學(xué)方法,它產(chǎn)生于20世紀(jì)30年代,近年來,在許多自然科學(xué)的各個(gè)分支和技術(shù)部門中,得到了廣泛應(yīng)用。判別分析假設(shè)訓(xùn)練樣本由一個(gè)因變量和個(gè)自變量的個(gè)樣本點(diǎn)構(gòu)成依據(jù)這樣的訓(xùn)練樣本,判別分析建立起因變量與自變量之間的關(guān)系,稱為判別規(guī)則,然后依據(jù)這種判別規(guī)則針對(duì)待判樣本的每一個(gè)樣品做出該樣本點(diǎn)應(yīng)歸屬與哪一類判別分析的方法很多,大致上分為兩大類,一類是以距離為判別準(zhǔn)則; 另一類是以概率為判別準(zhǔn)則的Bayes判別。距離判別最簡單、最直觀的一種判別方法,但其存在不足,在實(shí)際中常用的是基于概率的Bayes判別。本研究對(duì)Bayes判別分析進(jìn)行了詳細(xì)的研究,給出了Bayes判別思想并且應(yīng)用R軟件程序?qū)σ粋€(gè)醫(yī)學(xué)實(shí)例進(jìn)行Bayes判別分析,同時(shí)將Bayes判別分析與Fisher判別分析以及基于距離的判別分析方法得到的結(jié)果進(jìn)行了比較,說明了Bayes判別分析的分類結(jié)果精度高。由此判斷,Bayes判別分析在病例診斷等醫(yī)學(xué)領(lǐng)域應(yīng)用中可以發(fā)揮不可估量的作用,隨著數(shù)據(jù)庫技術(shù)的飛速發(fā)展以及人們獲取數(shù)據(jù)手段的多樣化,計(jì)算機(jī)輔助診斷將會(huì)有廣泛的應(yīng)用前景和發(fā)展空間。
上述成果已在國內(nèi)中文核心期刊公開發(fā)表,并取得136次下載頻次。論文具體信息如下:高蒙, 張旭峰, 劉權(quán)芳. 基于R軟件的Bayes判別分析在醫(yī)學(xué)中的應(yīng)用[J]. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2014, 44(22): 120-124.
(3)合成集值信息系統(tǒng)的屬性特征
Pawlak粗糙集理論以論域中的對(duì)象在任意屬性下取值為單個(gè)值的信息系統(tǒng)為研究對(duì)象,以等價(jià)關(guān)系為基礎(chǔ)研究概念近似(上下近似)和屬性約簡。近年來,許多學(xué)者將Pawlak粗糙集進(jìn)行了推廣,提出了基于不同二元關(guān)系的粗糙集理論模型。然而,一方面,現(xiàn)實(shí)世界中的信息系統(tǒng)形式復(fù)雜多樣,要保證每個(gè)對(duì)象的所有屬性值的完整性和唯一性往往是非常困難的。在不確定信息或缺省信息,即不完備信息的情況下,就需要研究不完備信息系統(tǒng)。另一方面,數(shù)據(jù)庫的合成與分解是實(shí)際應(yīng)用中非常重要的一個(gè)問題,它所對(duì)應(yīng)的數(shù)學(xué)模型是信息系統(tǒng)的合成與分解,而實(shí)際處理數(shù)據(jù)時(shí),經(jīng)常要研究基于取值為集合的集值信息系統(tǒng),所以研究集值信息系統(tǒng)的合成與分解就變得非常必要。
屬性特征是研究信息系統(tǒng)中屬性重要性的一種重要方法。由于任意一個(gè)信息系統(tǒng)的知識(shí)庫都是確定的,故可根據(jù)不同的要求對(duì)信息系統(tǒng)進(jìn)行分類、知識(shí)獲取和規(guī)則提取。在實(shí)際應(yīng)用中,經(jīng)常會(huì)出現(xiàn)在原信息系統(tǒng)上添加對(duì)象、增加或刪除屬性,進(jìn)而在新的信息系統(tǒng)上進(jìn)行分類、獲取知識(shí)等。故而研究新的信息系統(tǒng)與原信息系統(tǒng)在知識(shí)庫、知識(shí)獲取、分類及規(guī)則提取等方面的關(guān)系是一個(gè)值得研究的問題。鑒于現(xiàn)實(shí)中存在著大量的信息是不確定、不完備或者是多值的系統(tǒng),而等價(jià)關(guān)系又極大的限制了粗糙集的屬性約簡等方法的研究與應(yīng)用。故而,本研究將上述單值信息系統(tǒng)的合成方法推廣到集值信息系統(tǒng)中,研究合成的集值信息系統(tǒng)的屬性特征。具體是研究了集值信息系統(tǒng)上擬序關(guān)系的性質(zhì),給出了集值信息系統(tǒng)的合成——對(duì)象合成集值信息系統(tǒng)與屬性合成集值信息系統(tǒng),研究了這兩種合成集值信息系統(tǒng)與原集值信息系統(tǒng)的協(xié)調(diào)集及屬性特征之間的關(guān)系;進(jìn)而討論了集值信息系統(tǒng)的分解問題,給出了對(duì)象及屬性子集值信息系統(tǒng),討論了集值信息系統(tǒng)與其子集值信息系統(tǒng)的屬性特征——必要屬性與不必要屬性之間的關(guān)系。上述理論的研究提供了一種處理不精確和不完全知識(shí)的工具,一定程度上解決了刻畫粗糙集理論中屬性重要性的核心問題。
上述成果將在國內(nèi)中文核心期刊公開發(fā)表,文章編號(hào):1001-7402(2015)03-00-07。論文具體信息如下:馬建敏、潘笑晨、張文修. 合成集值信息系統(tǒng)的屬性特征[J]. 模糊系統(tǒng)與數(shù)學(xué), 2015, 29(3): 1-7.
(4)合成集值信息系統(tǒng)的屬性特征
Zadeh L A于1965年提出的模糊集是對(duì)“經(jīng)典集合”的擴(kuò)充,從而刻畫了“對(duì)象”的不確定性,包含度理論是對(duì)“包含關(guān)系”的擴(kuò)充,從而包容了“關(guān)系”的不確定性。模糊集理論與包含度理論相輔相成,成為研究不確定性的重要工具,在各種關(guān)系型數(shù)據(jù)庫中有著直接的應(yīng)用。在包含度理論基礎(chǔ)上,Pawlak在粗糙集理論中提出的上、下近似是利用等價(jià)關(guān)系產(chǎn)生的等價(jià)類與被近似集之間的關(guān)系來刻畫未知的知識(shí)。1989年Bryniarski提出了利用等價(jià)類刻畫未知知識(shí)的帶有結(jié)構(gòu)特征的下、上近似,它保留了Pawlak下、上近似中等價(jià)類與被近似集之間的關(guān)系,但給出了滿足上述關(guān)系的結(jié)構(gòu)信息。本研究是在Pawlak下、上近似和Bryniarski下、上近似的基礎(chǔ)上,總結(jié)了近年來我國不確定系統(tǒng)研究工作者的***成果,研究了結(jié)構(gòu)粗糙集近似及其性質(zhì),發(fā)展了基于包含度的粒計(jì)算的理論與方法,對(duì)于人工智能、專家系統(tǒng)、模式識(shí)別、管理決策都有重要意義。