數(shù)據(jù)挖掘的四類方法
由于神經(jīng)網(wǎng)絡(luò)本身具有良好的魯棒性、自組織適應(yīng)性、自行處理性、分布存儲和高度容錯等特性,非常適合解決數(shù)據(jù)挖掘的問題,因此近年來越來越受到人們的關(guān)注和使用。典型的神經(jīng)網(wǎng)絡(luò)模型主要分3大類:以感知機(jī)、BP反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表的,用于分類、預(yù)測和模式識別的神經(jīng)網(wǎng)絡(luò)模型;以Hopfield的離散模型和連續(xù)模型為代表的,分別用于聯(lián)想記憶和優(yōu)化計(jì)算的反饋式神經(jīng)網(wǎng)絡(luò)模型;以ART模型、Koholon模型為代表的,用于聚類的自組織映射方法。神經(jīng)網(wǎng)絡(luò)方法的缺點(diǎn)是“黑箱”性,人們難以從網(wǎng)絡(luò)中理解學(xué)習(xí)和決策過程。
2、遺傳算法
遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,是一種遺傳仿生的全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng)用。遺傳算法的數(shù)據(jù)挖掘工具,利用該工具對兩個飛機(jī)失事的真實(shí)數(shù)據(jù)庫進(jìn)行了數(shù)據(jù)挖掘?qū)嶒?yàn),結(jié)果表明遺傳算法是進(jìn)行數(shù)據(jù)挖掘的有效方法之一。遺傳算法的應(yīng)用還體現(xiàn)在與神經(jīng)網(wǎng)絡(luò)、粗集等技術(shù)的結(jié)合上。利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在不增加錯誤率的前提下,刪除多余的連接和隱層數(shù)據(jù)單元;用遺傳算法和BP算法結(jié)合訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后從網(wǎng)絡(luò)提取規(guī)則等。但遺傳算法的算法較為之復(fù)雜,斂于局部極小的較早斂入問題尚未解決。
3、決策樹方法
決策樹是一種常用于預(yù)測模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價值的和潛在的信息。它的優(yōu)點(diǎn)是描述簡單,分類速度快,適合于對大規(guī)模的數(shù)據(jù)處理。最有影響和最早的決策樹方法是ID3算法。它的主要問題是:ID3是非遞增學(xué)習(xí)算法;ID3決策樹是單變量決策樹,復(fù)雜概念的表達(dá)困難;同性間的相互關(guān)系不夠強(qiáng)調(diào);抗噪音性差。針對上述問題,出現(xiàn)了許多較好較為改進(jìn)算法的ID4遞增式學(xué)習(xí)算法和IBLE算法等。
4、粗集方法
粗集方法專注于研究不精確、不確定知識的數(shù)學(xué)工具。粗集方法有幾個優(yōu)點(diǎn),不需要再提供額外信息;加強(qiáng)簡化輸入信息的表達(dá)空間;算法較為簡單,容易操作操作。粗集處理的對象是類似于二維關(guān)系的信息表。目前成熟的關(guān)系數(shù)據(jù)庫管理系統(tǒng)和新發(fā)展起來的數(shù)據(jù)倉庫管理系統(tǒng),為粗集的數(shù)據(jù)挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)。但粗集的數(shù)學(xué)基礎(chǔ)是集合論,難以直接處理連續(xù)性問題的屬性。而現(xiàn)實(shí)信息表中連續(xù)屬性是普遍存在的。因此連續(xù)屬性的離散化是制約粗集理論實(shí)用化的難點(diǎn)重點(diǎn)。現(xiàn)在國際上已經(jīng)研制出來了一些基于粗集的工具應(yīng)用軟件,例如加拿大KDD-R軟件和美國的LERS軟件等。
-
數(shù)據(jù)挖掘
+關(guān)注
關(guān)注
1文章
406瀏覽量
24208
發(fā)布評論請先 登錄
相關(guān)推薦
評論