數(shù)據(jù)挖掘邏輯體系結(jié)構(gòu)的內(nèi)容類型有哪些
在 Microsoft SQL Server Analysis Services 中,可以定義挖掘結(jié)構(gòu)中各列的數(shù)據(jù)類型,以便影響創(chuàng)建挖掘模型時算法對這些列中數(shù)據(jù)的處理方式。不過,定義列數(shù)據(jù)類型只向算法提供有關(guān)列中數(shù)據(jù)的類型的信息,而不提供有關(guān)該數(shù)據(jù)的行為的信息。因此,Analysis Services 中的每個數(shù)據(jù)類型都支持一種或多種數(shù)據(jù)挖掘內(nèi)容類型,可以使用這些內(nèi)容類型來說明列包含的內(nèi)容的行為。例如,如果列內(nèi)容以特定的間隔(如一周中的某幾天)重復(fù),則可以將該列的內(nèi)容類型指定為循環(huán)。
有些算法要求提供特定的數(shù)據(jù)類型和內(nèi)容類型才能正常工作。例如,Microsoft Naive Bayespdf 算法的輸入不能為連續(xù)列,并且不能預(yù)測連續(xù)值。某些內(nèi)容類型(如 Key Sequence)只能由特定算法使用。有關(guān)算法以及每種算法所支持的內(nèi)容類型的列表,請參閱數(shù)據(jù)挖掘算法(Analysis Services – 數(shù)據(jù)挖掘)。
下表介紹了數(shù)據(jù)挖掘中使用的內(nèi)容類型,并標識了支持每種類型的數(shù)據(jù)類型。
Discrete
離散意味著列包含數(shù)值之間沒有連續(xù)體的有限數(shù)量的數(shù)值。例如,性別列是一個典型的離散屬性列,這是因為該數(shù)據(jù)表示特定數(shù)量的類別。
離散屬性列中的值不能意味著排序,即使這些值為數(shù)值也是如此。此外,即使用于離散列的值為數(shù)值,也無法計算小數(shù)值。電話區(qū)號即為數(shù)值離散數(shù)據(jù)的典型示例。
所有數(shù)據(jù)挖掘數(shù)據(jù)類型均支持 Discrete 內(nèi)容類型。
Continuous
此列包含的值表示某一允許中間值的范圍中的數(shù)值數(shù)據(jù)。與表示有限、可數(shù)數(shù)據(jù)的離散列不同,連續(xù)列表示可縮放度量,且數(shù)據(jù)可能包含無限數(shù)目的小數(shù)值。溫度列即為連續(xù)屬性列的示例。
以下數(shù)據(jù)類型支持 Continuous 內(nèi)容類型:Date、Double 和 Long。
Discretized
該列包含表示組或存儲桶的值,這些值屬于從連續(xù)列派生的值。存儲桶被視為有序的離散值。
離散化是將一組連續(xù)數(shù)據(jù)的值放入存儲桶的過程,以便得到有限數(shù)目的可能值。只能離散數(shù)值數(shù)據(jù)。
您可以手動離散數(shù)據(jù),以確保獲取所需的存儲桶,還可以使用 SQL Server Analysis Services 中提供的離散方法。某些算法自動執(zhí)行離散。有關(guān)詳細信息,請參閱如何更改挖掘模型中列的離散化。
以下數(shù)據(jù)類型支持 Discretized 內(nèi)容類型:Date、Double、Long 和 Text。
Key
該列唯一地標識一行。在事例表中,鍵列通常為數(shù)值或文本標識符。將內(nèi)容類型設(shè)置為 key 可指示該列不應(yīng)用于分析,而僅應(yīng)用于跟蹤記錄。
嵌套表也有鍵,但嵌套表鍵的用法稍有不同。如果某列是您需要分析的屬性,則在嵌套表中將內(nèi)容類型設(shè)置為 key。嵌套表鍵的值對于每個事例來說都必須唯一,但在整個事例集中可以重復(fù)。
例如,如果分析的是客戶購買的產(chǎn)品,則可以對于事例表中 CustomerID 列將內(nèi)容類型設(shè)置為鍵,然后對于嵌套表中 PurchasedProducts 列再次將內(nèi)容類型設(shè)置為鍵。
注意:
只有在使用已被定義為 Analysis Services 數(shù)據(jù)源視圖的外部數(shù)據(jù)源中的數(shù)據(jù)時,嵌套表才可用。
以下數(shù)據(jù)類型支持此內(nèi)容類型:Date、Double、Long 和 Text。
Key Sequence
將內(nèi)容類型設(shè)置為 key sequence 時,它指示列包含表示一個事件序列的值。這些值是有序值,但不必按等差排列。
以下數(shù)據(jù)類型支持此內(nèi)容類型:Double、Long、Text 和 Date。
Key Time
將內(nèi)容類型設(shè)置為 key time 時,它指示兩件事情:第一,值按順序排列并表示時間刻度。第二,模型必須為時序模型或順序分析和聚類分析模型。只有在這些模型中,您才可以將列指定為鍵時間。
以下數(shù)據(jù)類型支持此內(nèi)容類型:Double、Long 和 Date。
Table
嵌套表為列的一種特殊類型,它包含另外一個數(shù)據(jù)表,該數(shù)據(jù)表中有一列或多列和一行或多行。對于事例表中的任意特定行,此列可以包含多個值,所有的值均與父事例記錄相關(guān)。例如,如果主事例表包含一個客戶列表,則可能有多個包含嵌套表的列,例如,ProductsPurchased 列,嵌套表在該列中列出了此客戶過去購買的產(chǎn)品,Hobbies 列出了該客戶的興趣。
此列的數(shù)據(jù)類型始終為 Table。
Cyclical pdf
該列包含表示循環(huán)有序集的值。例如,一周內(nèi)順序編號的七天便是循環(huán)有序集,因為第一天緊跟第七天。
循環(huán)列就內(nèi)容類型而言既有序又離散。
Analysis Services 中所有的數(shù)據(jù)挖掘數(shù)據(jù)類型都支持此內(nèi)容類型。但是,大多數(shù)算法將循環(huán)值視為離散值,不會進行特殊處理。
Orderedpdf
Ordered 內(nèi)容類型定義了序列或順序;但是,用于排序的值并不表示該集中值之間的任何差或量級關(guān)系。例如,如果有序?qū)傩粤邪凑盏燃夗樞驈囊坏轿迮帕械挠嘘P(guān)技術(shù)等級的信息,則技術(shù)等級之間的差并不包含什么暗示信息;技術(shù)等級五不一定比技術(shù)等級一好五倍。
有序?qū)傩粤芯蛢?nèi)容類型而言是離散的。
Analysis Services 中所有的數(shù)據(jù)挖掘數(shù)據(jù)類型都支持此內(nèi)容類型。但是,大多數(shù)算法會將已排序值視為離散值,不會進行特殊處理。
Classified
除了前面列出的可通用于所有模型的內(nèi)容類型以外,對于某些數(shù)據(jù)類型,還可以使用已分類列定義內(nèi)容類型。
原文鏈接:http://www.cnblogs.com/codeaspnet/archive/2011/07/22/2114400.html
【編輯推薦】