議粗糙集與決策樹理論的救援等級決策算法

senlin637 2011-04-14

展開全文

關(guān)鍵詞：粗糙集,，決策樹理論,，救援等級

1粗糙集理論

粗糙集理論[2]是一種刻畫不完整性和不確定性的數(shù)學(xué)工具，能有效地分析不精確,、不一致,、不完整等各種不完備的信息，還可以對數(shù)據(jù)進行分析和推理,，從中發(fā)現(xiàn)隱含的知識,，揭示潛在的規(guī)律。

1．1信息系統(tǒng)：

信息系統(tǒng)被定義為如下的四元組：S=（U,，A,，V，f）,。其中S為知識表達系統(tǒng),；U=｛x1，x2,，…,，xn｝為對象的非空有限集合，也稱論域；A=｛a1,，a2,，…，am｝為屬性的非空有限集合,；V為屬性值域,，V=∪a∈AVa；f：U×A→V為一信息函數(shù),，表示對每一個a∈A,，x∈U，f（x,，a）∈Va,。當信息系統(tǒng)中屬性A=C∪D，其中C為條件屬性集,，D為決策屬性集時,，信息系統(tǒng)也稱為決策系統(tǒng)。

1．2不可分辨關(guān)系：

對于信息系統(tǒng)S=（U,，A,，V，f）,，P哿A且P≠覫,，xi，xj∈U,，稱二元關(guān)系IND（P）＝｛（xi,，xj）∈U×U｜a∈P，f（xi,，a）＝f（xj,，a）｝為關(guān)于屬性集合P的不可分辨關(guān)系。

1．3上,、下近似及粗糙度

對于X哿U,，R哿A，集合X關(guān)于R的下近似定義為R（X）＝∪｛Y哿U／R｜Y哿X｝,，其含義是指由那些根據(jù)已有知識判斷肯定屬于X的對象所組成的最大集合,。

集合X關(guān)于R的上近似定義為R（X）＝∪｛Y哿U／R｜Y∩X≠覫｝，其含義是指由那些根據(jù)已有知識判斷可能屬于X的對象所組成的最小集合,。

集合X關(guān)于R的邊界域定義為：B＝R（X）－R（X）

集合X關(guān)于R的近似精度定義為：αR（X）＝R（X）

R（X）

集合X關(guān)于R的粗糙度定義為：ρR（X）＝1－αR（X）

2決策樹理論

決策樹方法是數(shù)據(jù)挖掘的一種,，具有易構(gòu)造、結(jié)構(gòu)簡單,、易于理解,、分類精度高,，且易于轉(zhuǎn)化成SQL語句有效地存取數(shù)據(jù)庫,，易于實現(xiàn)等優(yōu)點,在工業(yè)決策方面得到廣泛應(yīng)用[3,4],。它是按一定準則選擇一個條件屬性作為根節(jié)點，根據(jù)其屬性取值將整個例子空間劃分為幾個子空間,，然后遞歸使用這一準則繼續(xù)劃分,，直到所有底層子空間只含有一類例子，決策樹構(gòu)造結(jié)束,。

國際上最早,、最有影響的決策樹方法是Quinlan提出的ID3算法[5]。算法引入信息論中的信息增益,，作為對實體中選擇重要特征的度量,，以信息增益最大的特征產(chǎn)生決策樹的結(jié)點，由該結(jié)點的不同取值建立樹的分枝,，然后對各分枝遞歸使用該方法建立決策樹的結(jié)點和分枝,，一直到某一子集中的例子屬于同一類。因為是利用信息論原理對大量實例的特征進行信息量分析,，計算各特征的信息熵,，找出反映類別的重要特征，因此抓住了問題的本質(zhì),，具有建立的決策樹少,、分類準確率高、生成的規(guī)則簡單等特點,，應(yīng)用十分廣泛,。

然而在構(gòu)造決策樹時，按照信息增益最大的原則,，ID3算法首先判斷的屬性有時并不能提供較多的信息,。我們對ID3算法作了一些改進，引入粗糙集中的粗糙度,，應(yīng)用于決策樹的構(gòu)造過程中,。

3基于粗糙集的決策樹構(gòu)造算法

首先需采集歷史數(shù)據(jù)，然后對數(shù)據(jù)進行預(yù)處理,，生成原始數(shù)據(jù)表,，然后用粗糙集屬性歸約算法中的刪除法對數(shù)據(jù)表進行約簡：（1）去除表中的某一屬性列；（2）如果數(shù)據(jù)表不可分辨關(guān)系未發(fā)生變化,，則刪除該屬性,；如果數(shù)據(jù)表中不可分辨關(guān)系發(fā)生了變化，則保留該屬性,。在約簡后的數(shù)據(jù)表的基礎(chǔ)上,，生成決策樹,，算法如下：

（1）選擇決策屬性在數(shù)據(jù)表出現(xiàn)頻率最高的屬性值，計算條件屬性中每個屬性關(guān)于該決策屬性的粗糙度,；

（2）選擇粗糙度最小的條件屬性作為當前分支的節(jié)點,；

（3）根據(jù)數(shù)據(jù)表中所選屬性的可能取值將數(shù)據(jù)表分成若干子表，每個取值形成一個子表,，在當前分枝構(gòu)造決策樹,；

（4）對于決策樹選擇屬性的每個分支，如果沒有到達葉子節(jié)點,，則進行遞歸調(diào)用,。

該算法的優(yōu)點：

（1）由于在生成決策樹前引入了粗糙集的屬性約簡，可以使數(shù)據(jù)集中的數(shù)據(jù)減少,，降低了決策樹的分枝,，從而提高了挖掘效率。

（2）由于在構(gòu)造決策樹時,，按照信息增益最大的原則,，ID3算法首__