關(guān)鍵詞:粗糙集,,決策樹理論,,救援等級
1粗糙集理論 粗糙集理論[2]是一種刻畫不完整性和不確定性的數(shù)學(xué)工具,能有效地分析不精確,、不一致,、不完整等各種不完備的信息,還可以對數(shù)據(jù)進行分析和推理,,從中發(fā)現(xiàn)隱含的知識,,揭示潛在的規(guī)律。 1.1信息系統(tǒng): 信息系統(tǒng)被定義為如下的四元組:S=(U,,A,,V,f),。其中S為知識表達系統(tǒng),;U={x1,x2,,…,,xn}為對象的非空有限集合,也稱論域;A={a1,,a2,,…,am}為屬性的非空有限集合,;V為屬性值域,,V=∪a∈AVa;f:U×A→V為一信息函數(shù),,表示對每一個a∈A,,x∈U,f(x,,a)∈Va,。當信息系統(tǒng)中屬性A=C∪D,其中C為條件屬性集,,D為決策屬性集時,,信息系統(tǒng)也稱為決策系統(tǒng)。 1.2不可分辨關(guān)系: 對于信息系統(tǒng)S=(U,,A,,V,f),,P哿A且P≠覫,,xi,xj∈U,,稱二元關(guān)系IND(P)={(xi,,xj)∈U×U|a∈P,f(xi,,a)=f(xj,,a)}為關(guān)于屬性集合P的不可分辨關(guān)系。 1.3上,、下近似及粗糙度 對于X哿U,,R哿A,集合X關(guān)于R的下近似定義為R(X)=∪{Y哿U/R|Y哿X},,其含義是指由那些根據(jù)已有知識判斷肯定屬于X的對象所組成的最大集合,。 集合X關(guān)于R的上近似定義為R(X)=∪{Y哿U/R|Y∩X≠覫},其含義是指由那些根據(jù)已有知識判斷可能屬于X的對象所組成的最小集合,。 集合X關(guān)于R的邊界域定義為:B=R(X)-R(X) 集合X關(guān)于R的近似精度定義為:αR(X)=R(X) R(X) 集合X關(guān)于R的粗糙度定義為:ρR(X)=1-αR(X) 2決策樹理論 決策樹方法是數(shù)據(jù)挖掘的一種,,具有易構(gòu)造、結(jié)構(gòu)簡單,、易于理解,、分類精度高,,且易于轉(zhuǎn)化成SQL語句有效地存取數(shù)據(jù)庫,,易于實現(xiàn)等優(yōu)點,在工業(yè)決策方面得到廣泛應(yīng)用[3,4],。它是按一定準則選擇一個條件屬性作為根節(jié)點,根據(jù)其屬性取值將整個例子空間劃分為幾個子空間,,然后遞歸使用這一準則繼續(xù)劃分,,直到所有底層子空間只含有一類例子,決策樹構(gòu)造結(jié)束,。 國際上最早,、最有影響的決策樹方法是Quinlan提出的ID3算法[5]。算法引入信息論中的信息增益,,作為對實體中選擇重要特征的度量,,以信息增益最大的特征產(chǎn)生決策樹的結(jié)點,由該結(jié)點的不同取值建立樹的分枝,,然后對各分枝遞歸使用該方法建立決策樹的結(jié)點和分枝,,一直到某一子集中的例子屬于同一類。因為是利用信息論原理對大量實例的特征進行信息量分析,,計算各特征的信息熵,,找出反映類別的重要特征,因此抓住了問題的本質(zhì),,具有建立的決策樹少,、分類準確率高、生成的規(guī)則簡單等特點,,應(yīng)用十分廣泛,。 然而在構(gòu)造決策樹時,按照信息增益最大的原則,,ID3算法首先判斷的屬性有時并不能提供較多的信息,。我們對ID3算法作了一些改進,引入粗糙集中的粗糙度,,應(yīng)用于決策樹的構(gòu)造過程中,。 3基于粗糙集的決策樹構(gòu)造算法 首先需采集歷史數(shù)據(jù),然后對數(shù)據(jù)進行預(yù)處理,,生成原始數(shù)據(jù)表,,然后用粗糙集屬性歸約算法中的刪除法對數(shù)據(jù)表進行約簡:(1)去除表中的某一屬性列;(2)如果數(shù)據(jù)表不可分辨關(guān)系未發(fā)生變化,,則刪除該屬性,;如果數(shù)據(jù)表中不可分辨關(guān)系發(fā)生了變化,則保留該屬性,。在約簡后的數(shù)據(jù)表的基礎(chǔ)上,,生成決策樹,,算法如下: (1)選擇決策屬性在數(shù)據(jù)表出現(xiàn)頻率最高的屬性值,計算條件屬性中每個屬性關(guān)于該決策屬性的粗糙度,; (2)選擇粗糙度最小的條件屬性作為當前分支的節(jié)點,; (3)根據(jù)數(shù)據(jù)表中所選屬性的可能取值將數(shù)據(jù)表分成若干子表,每個取值形成一個子表,,在當前分枝構(gòu)造決策樹,; (4)對于決策樹選擇屬性的每個分支,如果沒有到達葉子節(jié)點,,則進行遞歸調(diào)用,。 該算法的優(yōu)點: (1)由于在生成決策樹前引入了粗糙集的屬性約簡,可以使數(shù)據(jù)集中的數(shù)據(jù)減少,,降低了決策樹的分枝,,從而提高了挖掘效率。 (2)由于在構(gòu)造決策樹時,,按照信息增益最大的原則,,ID3算法首__ |
|