5.5 數(shù)據(jù)挖掘及其應(yīng)用
隨著信息量的增加,人們越來越需要工具和手段來對大批量的信息進(jìn)行加工,從中找出規(guī)律與趨勢。在信息處理技術(shù)中,這被稱為數(shù)據(jù)挖掘(Data Mining)。數(shù)據(jù)挖掘的作用主要是預(yù)測。
數(shù)據(jù)挖掘與統(tǒng)計的主要區(qū)別是:使用數(shù)據(jù)挖掘工具的人是商業(yè)的最終用戶而不是統(tǒng)計學(xué)家。數(shù)據(jù)挖掘能夠?qū)⒔y(tǒng)計過程自動化,得到的結(jié)果比較容易理解和使用,減少最終用戶的負(fù)擔(dān)。
凡在數(shù)據(jù)庫中尋找到現(xiàn)存的有用信息時,稱之為“發(fā)現(xiàn)”,這是數(shù)據(jù)挖掘的功能之一。當(dāng)我們在尋找能夠預(yù)測未來走勢的信息時,稱之為“預(yù)測”。
數(shù)據(jù)挖掘主要有四類產(chǎn)品:⑴目標(biāo)方案。主要將數(shù)據(jù)挖掘用于某一特殊問題或領(lǐng)域。因此能夠?qū)?shù)據(jù)挖掘算法中的復(fù)雜性降低或進(jìn)行自動化處理。⑵商業(yè)工具。主要目的是幫助商業(yè)最終用戶能方便地使用和理解數(shù)據(jù)挖掘,以便能夠從這些工具中得到有用的信息,避免錯誤的使用挖掘工具。⑶商業(yè)分析工具。主要是提供給那些對數(shù)據(jù)挖掘工作和變量代表的含義有些了解的用戶使用。⑷研究分析工具。是為數(shù)據(jù)挖掘研究者或統(tǒng)計分析人員使用的。通常包括大量的統(tǒng)計、圖形和可視化軟件,同時包括一些最新的前沿技術(shù)。
對數(shù)據(jù)挖掘產(chǎn)品的評價通常從三方面考慮:⑴商業(yè)評價,它更多考慮市場特點。⑵應(yīng)用評價,立足于比較細(xì)節(jié)的層次,說明某一技術(shù)在哪個應(yīng)用領(lǐng)域效果最好。⑶算法評價,是最詳細(xì)的評價,它是從數(shù)據(jù)挖掘的最低層來比較這些技術(shù)