DK7732數(shù)控高速走絲電火花線切割機(jī)及控制系統(tǒng)
DK7732數(shù)控高速走絲電火花線切割機(jī)及控制系統(tǒng),dk7732,數(shù)控,高速,電火花,切割機(jī),控制系統(tǒng)
不完整測量數(shù)據(jù)的概念建構(gòu)
王壽宏,王海
摘要: 對資料挖掘來說,未經(jīng)加工的調(diào)查數(shù)據(jù)通常是不完整的。資料挖掘中缺失數(shù)據(jù)的問題在知識發(fā)現(xiàn)過程中常被忽略。這篇文章介紹了在不完整調(diào)查數(shù)據(jù)中資料挖掘的基礎(chǔ)概念,以及計(jì)劃知識發(fā)現(xiàn)中的咨詢過程,和在調(diào)查資料挖掘咨詢功能在概念解釋上的發(fā)展趨勢。這篇文章通過一個(gè)事例,論證了通過使用人工智力工具譬如自組織映射,不完整數(shù)據(jù)的概念解釋可以完成。
1.引言
數(shù)據(jù)挖掘就是分析數(shù)據(jù)以圖從中找出有用模型的過程。而數(shù)據(jù)挖掘與傳統(tǒng)的
統(tǒng)計(jì)分析有所不同,因?yàn)閿?shù)據(jù)挖掘的目的是找出對數(shù)據(jù)所有者或數(shù)據(jù)挖掘員有價(jià)
值而又確定的關(guān)系。鑒于數(shù)據(jù)的維數(shù)和數(shù)據(jù)量本身的巨大,傳統(tǒng)的的統(tǒng)計(jì)分析方
法在數(shù)據(jù)挖掘時(shí)有其局限性。為滿足數(shù)據(jù)挖掘的最新需要,在數(shù)據(jù)挖掘領(lǐng)域里面
已經(jīng)廣泛采用基于人-機(jī)互動技術(shù)的人工智能技術(shù)。
數(shù)據(jù)挖掘時(shí)有很多非統(tǒng)計(jì)技術(shù)?;贙ohonen神經(jīng)網(wǎng)絡(luò)的自組織映射(SOM)法是其中一種比較有前途的方法?;诩杭夹g(shù)的SOM法對其他方法來說有優(yōu)勢。通常數(shù)據(jù)挖掘技術(shù)處理一些十分高維的數(shù)據(jù),也就是說做數(shù)據(jù)挖掘的數(shù)據(jù)庫通常是由很多變量決定的?!熬S數(shù)災(zāi)難”使得對數(shù)據(jù)關(guān)系的統(tǒng)計(jì)分析變得毫無意義,這也使得統(tǒng)計(jì)方法變得無能為力了。然而SOM方法并不依賴任何假定的統(tǒng)計(jì)測試,因而被認(rèn)為是處理多維數(shù)據(jù)的有效方法。更為重要的是SOM方法提供了多維可視化數(shù)據(jù)串的基礎(chǔ)。這種特色是其他任何數(shù)據(jù)分析方法都不具備的。它允許數(shù)據(jù)挖掘者分析該問題域中的集群。
測量只是數(shù)據(jù)采集中的一種普通數(shù)據(jù)獲取方法。在數(shù)據(jù)挖掘的中,我們得到的調(diào)研數(shù)據(jù)集通常很難滿足每個(gè)變量都有填寫完全的觀測結(jié)果。一般地,被調(diào)查者只部分地完成調(diào)研和問卷調(diào)查的內(nèi)容。當(dāng)事實(shí)上我們無法再次面向被調(diào)查者完成調(diào)研和問卷調(diào)查的全部內(nèi)容時(shí),我們并不知道缺失數(shù)據(jù)的嚴(yán)重性,但這是數(shù)據(jù)掘中有待發(fā)現(xiàn)的最重要部分之一。事實(shí)上,在知識工程領(lǐng)域缺失數(shù)據(jù)是一個(gè)重要而具有爭議的問題。
通過集群分析在挖掘由不完整數(shù)據(jù)構(gòu)成的調(diào)查數(shù)據(jù)庫過程中,缺失數(shù)據(jù)的類
型及缺失數(shù)據(jù)對數(shù)據(jù)挖掘的潛在影響是一門學(xué)問。例如,數(shù)據(jù)挖掘者通常希望能
知道集群分析的可信程度;一些有價(jià)值的類型通常是什么時(shí)候和怎樣丟失的;以
及丟失有價(jià)值數(shù)據(jù)的時(shí)候哪些變量與之有關(guān)系。這些有價(jià)值東西在缺失數(shù)據(jù)集部
分被充分發(fā)掘之后才能發(fā)現(xiàn)。
這篇文章討論了知識發(fā)現(xiàn)中在發(fā)掘調(diào)研數(shù)據(jù)庫過程中數(shù)據(jù)缺失的問題,并介
紹了概念解釋的概念基礎(chǔ),以及建議設(shè)立基于SOM數(shù)據(jù)挖掘概念解釋查詢功能。以下部分是這樣安排的:第二部分討論數(shù)據(jù)缺失與數(shù)據(jù)挖掘的關(guān)系問題;第三部分介紹數(shù)據(jù)挖掘中SOM的概念解釋;第四部分說明了挖掘不完整數(shù)據(jù)的4個(gè)概念的知識發(fā)現(xiàn);并提供了應(yīng)用SOM挖掘不完整數(shù)據(jù)的概念解釋的圖解。第五部分建立用于操控SOM的概念解釋查詢工具。第六部分介紹一個(gè)例子,該例子應(yīng)用咨詢工具對一個(gè)學(xué)生判斷測量的數(shù)據(jù)集進(jìn)行熟練操作SOM系統(tǒng)的概念建構(gòu)。最后,第七部分作了結(jié)束語。
2 數(shù)據(jù)缺失問題
不完整數(shù)據(jù)集普遍存在于數(shù)據(jù)挖掘中。數(shù)據(jù)缺失的解決辦法有許多種,其中對付不完整數(shù)據(jù)的一種方便辦法是將那些已記錄沒有價(jià)值的數(shù)據(jù)集排除掉。然而這忽略了這些記錄中潛在的有用信息。萬一缺失數(shù)據(jù)的比重較大,從篩選過的數(shù)據(jù)中得出的結(jié)論就會有偏頗或引起誤導(dǎo)。
另一種處理丟失數(shù)據(jù)的簡單方法是用一類通用的“未知”來代替所有丟失數(shù)
據(jù)項(xiàng)。數(shù)據(jù)挖掘中,不確定的“未知”通常在丟失數(shù)據(jù)項(xiàng)中引起混亂和誤解。
對付缺失數(shù)據(jù)的第三種辦法是排除數(shù)據(jù)域中沒有價(jià)值的數(shù)據(jù)。對于時(shí)序數(shù)列,可觀察到的相鄰數(shù)據(jù)點(diǎn)可以插補(bǔ)。一般情況下,數(shù)據(jù)域中預(yù)期值可用于統(tǒng)計(jì)測量。然而,數(shù)據(jù)挖掘中,調(diào)研數(shù)據(jù)類型通常是隊(duì)、類,有多項(xiàng)選擇的,二進(jìn)制的。這些例子中,插補(bǔ)及特殊缺失數(shù)據(jù)變量的使用通常是不夠的。更為重要的是,
研究表明,解決缺失數(shù)據(jù)的有效辦法應(yīng)該總是獨(dú)立于問題之外去研究。
新近,發(fā)現(xiàn)損缺失數(shù)據(jù)集的合計(jì)概念方向有了精確的方法。這些方法與傳統(tǒng)
逼近法處理缺失數(shù)據(jù)截然不同,它著眼于缺失數(shù)據(jù)的整體,而不是個(gè)別缺失的價(jià)
值。這些方法的這個(gè)高級特征使不完整數(shù)據(jù)的數(shù)據(jù)挖掘得以加強(qiáng)。然而這些統(tǒng)計(jì)
方法有其局限性。首先,得假定缺失價(jià)值存在于隨機(jī)方式或者新遵循一定的分配
儀式。這些關(guān)于數(shù)據(jù)分配嚴(yán)格假定通常是無效的,特別對不完善數(shù)據(jù)的測定。第
二,這些數(shù)學(xué)模型通常是數(shù)據(jù)驅(qū)動,而不是“問題領(lǐng)域驅(qū)動”。實(shí)際上,由于數(shù)
據(jù)挖掘的目標(biāo)常常與具體問題域有關(guān)聯(lián),一個(gè)單獨(dú)普通概念建構(gòu)算法不足以應(yīng)付
數(shù)據(jù)挖掘的多樣目標(biāo)。
數(shù)據(jù)庫的知識發(fā)現(xiàn)是鑒別有效的、新奇的、有潛在作用并最終可以理解的數(shù)
據(jù)模式的有實(shí)際意義的過程。根據(jù)這個(gè)定義,這項(xiàng)研究強(qiáng)調(diào)利用不完整數(shù)據(jù)進(jìn)行
數(shù)據(jù)挖掘概念構(gòu)建的兩個(gè)方面。首先,利用不完整數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘中,有效、
新奇、有用的標(biāo)準(zhǔn)隨問題而定。那就是,一個(gè)數(shù)據(jù)模式不單獨(dú)依賴于該模式估計(jì)
的統(tǒng)計(jì)力,也依賴于數(shù)據(jù)挖掘者。第二,通過對建立于計(jì)算機(jī)和人類認(rèn)識理論的
組合空間的啟發(fā)式研究,可以完成基于不完整數(shù)據(jù)的概念建構(gòu)。人機(jī)協(xié)作進(jìn)行概
念建構(gòu)就是在數(shù)據(jù)挖掘者和計(jì)算機(jī)之間發(fā)掘出新奇、似是而非、有用的、相關(guān)的
和有趣味性與缺失數(shù)據(jù)相關(guān)的知識的人機(jī)交互式過程。
照我們看來,數(shù)據(jù)挖掘與傳統(tǒng)統(tǒng)計(jì)在處理缺失數(shù)據(jù)方面有很多不同。
(1)數(shù)據(jù)挖掘試圖從數(shù)據(jù)中去發(fā)掘出無疑的、潛在的有用模式,是由于數(shù)據(jù)挖掘者的新奇目標(biāo)在于缺失數(shù)據(jù)而不在于估計(jì)個(gè)別缺失數(shù)據(jù)的價(jià)值。
(2)數(shù)據(jù)挖掘是人類知識發(fā)現(xiàn)環(huán)道中心環(huán)節(jié)工具,該過程是通過人機(jī)交互而認(rèn)
識到由集合水平上缺失數(shù)據(jù)引起的沖擊,更甚于僅用基于未經(jīng)證實(shí)的假設(shè)的數(shù)學(xué)
方法得出的結(jié)論。
3.概念建構(gòu)的工具:自映射組織(SOM)
假如有一個(gè)很大多維集調(diào)研的例子,通常就會有很大一部分觀察資料丟失
價(jià)值,然而并非所有的缺失數(shù)據(jù)都引起數(shù)據(jù)挖掘者的興趣。因此,對于一個(gè)有巨
大數(shù)據(jù)來說,任何簡單的強(qiáng)力搜索缺失數(shù)據(jù)的方法都是不可行,而且,當(dāng)數(shù)據(jù)挖
掘者通過數(shù)據(jù)挖掘僅為了找出問題或者發(fā)展概念時(shí)該方法是沒有用的。為明確問
題或創(chuàng)建概念,數(shù)據(jù)挖掘者需要一種工具來觀察可利用數(shù)據(jù)與缺失數(shù)據(jù)的確定模
式。
由于自映射組織(SOM)比流行的k-群集算法在計(jì)算方面更有效率,因此在群集分組中廣泛應(yīng)用。更為重要的是,SOM為數(shù)據(jù)挖掘者提供數(shù)據(jù)的可視化,用來觀察多維數(shù)據(jù)。研究表明,SOM在數(shù)據(jù)挖掘中鑒別未可懷疑的數(shù)據(jù)模式中很有效。特別是,SOM可用在多變量測量數(shù)據(jù)的集群分析。這個(gè)研究更進(jìn)一步,把SOM作為有關(guān)缺失數(shù)據(jù)的概念建構(gòu)的工具。不完整數(shù)據(jù)的概念建構(gòu)是為了研究缺失數(shù)據(jù)的模式,如同這些缺失數(shù)據(jù)對基于完整數(shù)據(jù)的挖掘結(jié)果的潛在沖擊。下面例子說明,SOM提供一種人機(jī)協(xié)作從缺失價(jià)值的數(shù)據(jù)中建構(gòu)概念的機(jī)制。
SOM能輸入模式中,通過無人監(jiān)督(競爭的)學(xué)習(xí)過程,學(xué)會一定有用的特征,
以及把多維數(shù)據(jù)繪制到低維圖片,這樣數(shù)據(jù)挖掘者可觀測到集群圖片。圖1描述了研究中應(yīng)用二層SOM的神經(jīng)網(wǎng)絡(luò)。低層節(jié)點(diǎn)(輸入節(jié)點(diǎn))通過采樣數(shù)據(jù)點(diǎn)接收輸入數(shù)值。高層節(jié)點(diǎn)(輸出節(jié)點(diǎn))在無人監(jiān)督學(xué)習(xí)后回饋輸入的組織映象。每個(gè)低層節(jié)點(diǎn)都經(jīng)過一個(gè)可變聯(lián)接權(quán)量,聯(lián)結(jié)到每個(gè)高層節(jié)點(diǎn)。
SOM無人監(jiān)督學(xué)習(xí)過程可簡要如下所述。開始時(shí)聯(lián)結(jié)承載較小隨機(jī)數(shù)學(xué)。輸入節(jié)點(diǎn)接收由采樣數(shù)據(jù)點(diǎn)引入的輸入代表向量。輸入向量經(jīng)過聯(lián)接傳送到輸出節(jié)點(diǎn)。激活的輸出節(jié)點(diǎn)依賴于輸入。在勝者通吃的競爭制度中,與輸入向量有最相似的權(quán)量的輸出節(jié)點(diǎn)被激活。在學(xué)習(xí)階段,權(quán)量依照Kohonen的學(xué)習(xí)規(guī)則更新。
權(quán)量更新僅存在于激活的輸出節(jié)點(diǎn)以及拓?fù)溧忺c(diǎn)(如圖1)。在這種一維空間輸出事例中,我們假定了一個(gè)線性鄰域。該鄰域開始很大,尺寸隨時(shí)間慢慢減小。因?yàn)閷W(xué)習(xí)速度將趨于零,學(xué)習(xí)進(jìn)程也將最終集于一點(diǎn)。
引入足夠的輸入向量后,權(quán)量將指定群集以便本地群集密度函數(shù)趨于接近輸
入向量的密度函數(shù)。由于共享相似拓?fù)涞墓?jié)點(diǎn)對相似輸入敏感,所以權(quán)量得組織。因而SOM的輸出節(jié)點(diǎn)要組織,同時(shí),在預(yù)先并不了解聚類中心的情況下,也體現(xiàn)真實(shí)自映射組織聚類。讀者可到12章中看更詳細(xì)內(nèi)容。
4、不完整數(shù)據(jù)的概念建構(gòu)
這篇文章中,不完整數(shù)據(jù)的概念建構(gòu)通過兩個(gè)階段來完成的。首先,SOM應(yīng)用于完整數(shù)據(jù)的數(shù)據(jù)集中,顯示了引入聚類的數(shù)據(jù)的不同尋常的模式?;谶@些聚類,數(shù)據(jù)挖掘者能鑒別出明確的數(shù)據(jù)模式,并清晰說清楚問題。其次,與正被討論的聚類有關(guān)聯(lián)的缺失價(jià)值的不完整數(shù)據(jù),構(gòu)造出新概念。這一段中,數(shù)據(jù)挖掘者估計(jì)了缺失數(shù)據(jù)對問題鑒別以及發(fā)展與缺失數(shù)據(jù)相關(guān)的知識的沖擊。第一階段的任務(wù)跟大部分SOM在聚類鑒別的應(yīng)用一樣。這篇文章集中目標(biāo)于第二階段,并計(jì)劃了不完整數(shù)據(jù)數(shù)據(jù)挖掘的概念建構(gòu)的方法。下一步,我們建造四個(gè)概念作為不完整數(shù)據(jù)數(shù)據(jù)挖掘的知識發(fā)現(xiàn)。如同本文后面所講的,通過人協(xié)作和基于SOM的可視化數(shù)據(jù),這些概念能夠建造出來。
4.1 可靠性
依照正被調(diào)查的問題,可靠性概念顯示了缺失數(shù)據(jù)的范圍。有兩個(gè)指數(shù)應(yīng)用
于該概念。
C1:/ 是缺失價(jià)值數(shù)據(jù)采樣的數(shù)量,是使用的聚類鑒定的完整價(jià)值的數(shù)據(jù)采樣的數(shù)量。顯然,/的值越高,聚類的觀測可靠性越低。
C2:(i)/(i) (i)是變量i的缺失數(shù)值,(i)是使用的聚類鑒定的采樣變量i的數(shù)值。再則,根據(jù)變量i,(i)/(i)的值越大,聚類的觀測可靠性越低。
4.2 隱匿
隱匿的概念揭示一次觀測結(jié)果的值在一定范圍內(nèi)變化意味著將在另一個(gè)變量中丟失價(jià)值。
C3: (i)|x(j)=(a,b) (i)是變量i的漏測值,x(j)是變量j的值,而(a,b)是x(j)的值的范圍。
索引揭示了測量疑問的不確定答案的程度,例如“未知”和“中立的”,或者組織缺失數(shù)據(jù)的意圖,例如“不想告訴”。
4.3 反求運(yùn)算
反求運(yùn)算的概念揭示了變量同時(shí)更可能缺失值。
C4:(i,j)/(i) (i,j)是變量i和j的漏測值, (i)是變量i的漏測值。C4這個(gè)概念揭示兩個(gè)變量的漏測值的相互關(guān)系。(i,j)/(i)的值越大,漏測值之間的相互關(guān)系越緊密。
4.4、條件效應(yīng)
條件效應(yīng)這個(gè)概念揭示了聚類鑒別的潛在變化,若缺失價(jià)值已完成。
C5: |=k是數(shù)據(jù)挖掘者感覺到的聚類的變化量,代表變量i的所有漏測值,而k是測量中可能出現(xiàn)的可能值。特別地,k={max,min,p},max是刻度的最大值,min是刻度的最小值,而p是隨機(jī)變量在完整數(shù)據(jù)中的同種分布函數(shù)的值。對漏測值來說,賦予k不同的值,數(shù)據(jù)挖掘者可能觀測到聚類的變化,然后重新限定問題。
簡言之,不完整數(shù)據(jù)的概念建構(gòu)是一門學(xué)問的發(fā)展過程。不完整數(shù)據(jù)中建造一個(gè)新概念,需要數(shù)據(jù)挖掘者去明確建構(gòu)中的特別問題。漏測值的四個(gè)概念是可靠性、隱匿性、求反運(yùn)算及條件效應(yīng)。下一步我們逐步展開不完整數(shù)據(jù)概念建構(gòu)中的質(zhì)疑。我們質(zhì)疑的目的是使數(shù)據(jù)挖掘者能夠通過使用SOM來操作實(shí)驗(yàn)過程,從而建造出新的與問題相關(guān)的概念。
5、概念建構(gòu)的詢問處理
結(jié)構(gòu)化查詢語言(SQL)這種查詢工具具有特征,這種標(biāo)準(zhǔn)查詢語言常用于相關(guān)數(shù)據(jù)庫管理系統(tǒng)。對于數(shù)據(jù)挖掘,由于數(shù)據(jù)庫信息檢索的最終目標(biāo)是通過應(yīng)用多變技術(shù)的明確表達(dá)的知識,創(chuàng)造一種單純的標(biāo)準(zhǔn)查詢語言能滿足數(shù)據(jù)挖掘的各個(gè)目的是不太可能的。然而,為了維持人機(jī)協(xié)作高效運(yùn)轉(zhuǎn),數(shù)據(jù)挖掘中可視化詢問處理很必要。這個(gè)研究通過基于SOM的聚類分析,發(fā)展一套查詢函數(shù)來幫助數(shù)據(jù)挖掘者建造與缺失數(shù)據(jù)相關(guān)的概念。
基于SOM數(shù)據(jù)挖掘的計(jì)算環(huán)境是微軟的Excel。這使資料庫、SOM程序與詢問處理有可能整合為一個(gè)單純環(huán)境。應(yīng)用微軟的Excel,依靠電子表格,數(shù)據(jù)得以儲存;通過宏指令(VBA)SOM程序得以執(zhí)行;圖形函數(shù)支持?jǐn)?shù)據(jù)可視化;宏指令也使得查詢處理函數(shù)能夠運(yùn)行。圖2描述了系統(tǒng)結(jié)構(gòu)的技術(shù)細(xì)節(jié)。解決了基于PC的軟件問題,系統(tǒng)結(jié)構(gòu)變得簡單而易于執(zhí)行。然而,從實(shí)際應(yīng)用的觀點(diǎn)來看,軟件系統(tǒng)限制了數(shù)據(jù)挖掘中數(shù)據(jù)庫的規(guī)模。
七組查詢函數(shù)已發(fā)展起來,對應(yīng)于上一節(jié)所描述數(shù)據(jù)挖掘中的四個(gè)概念以及一般操作函數(shù)。通過圖形用戶界面,數(shù)據(jù)挖掘者使用詢問處理系統(tǒng)。
5.1 獲得完整數(shù)據(jù)的聚類
數(shù)據(jù)挖掘者使用查詢函數(shù)來觀測聚類及鑒定不用懷疑的完整價(jià)值數(shù)據(jù)集模式?;谀切┚垲?,數(shù)據(jù)挖掘者明確問題所在。數(shù)據(jù)挖掘者能夠選擇適合SOM數(shù)據(jù)庫的變量,并設(shè)置拓?fù)浜蚐OM參數(shù)便于管理的聚類的號碼。聚類的數(shù)量非常依賴于自然數(shù)據(jù)和SOM參數(shù)間的復(fù)雜關(guān)系。然而,通過減少SOM輸出節(jié)點(diǎn)的數(shù)量及調(diào)整巨大的學(xué)習(xí)率和初始化領(lǐng)域,數(shù)據(jù)挖掘者通常能夠減少聚類的數(shù)量;反之亦然。
應(yīng)用這個(gè)查詢函數(shù),數(shù)據(jù)挖掘者能夠描繪所查詢的SOM聚類。由于一個(gè)聚類的邊界線在圖中通常是模糊不清的,對聚類的描繪只能基于他或她對聚類的感知。在內(nèi)部,對應(yīng)觀測采樣,輪廓與聚類的SOM輸出節(jié)點(diǎn)相關(guān)。這使電腦程序追溯聚類到數(shù)據(jù)成為可能。查詢函數(shù)返回該聚類的變量的值的范圍。
5.2 SOM的保存和更正
查詢是為了保存和更正的SOM的一般操作,如同設(shè)置數(shù)據(jù)樣值的參數(shù)、變量。數(shù)據(jù)挖掘者能夠把一系列的SOM結(jié)果與不完整數(shù)據(jù)的概念建構(gòu)相比較。
5.3 查明 C1:/
通過SOM選定變量和確認(rèn)聚類后,數(shù)據(jù)挖掘者想知道的是觀測到的聚類的可靠性如何。這個(gè)查詢允許數(shù)據(jù)挖掘者去查明/中SOM培訓(xùn)所用變量。如果/的值大,數(shù)據(jù)挖掘者能夠發(fā)現(xiàn)個(gè)別變量的可靠性,如下面所述的。
5.4 查明C2: (i)/(i)
數(shù)據(jù)挖掘者可能對某一變量感興趣。應(yīng)用這個(gè)查詢,他能夠根據(jù)這個(gè)別的變量來核查聚類的觀測是否可靠。
5.5 查明C3: (i)/x(j)=(a,b)
該查詢函數(shù)能夠讓數(shù)據(jù)挖掘者查明一個(gè)變量的缺失值與別一變量的值的范圍之間的相互關(guān)系。這種關(guān)系提供如數(shù)值什么時(shí)候會丟失之類的信息。應(yīng)用該查詢,數(shù)據(jù)挖掘者詳細(xì)查明兩個(gè)變量如缺失值之間可能的相互關(guān)系、已一個(gè)變量知值的范圍及在其他變量中發(fā)現(xiàn)有缺失值的觀測的數(shù)量。
5.6 查明C4: (I,j)/(i)
該查詢函數(shù)能夠讓數(shù)據(jù)挖掘者找出兩個(gè)變量間缺失值的相互聯(lián)系。應(yīng)用該查詢,數(shù)據(jù)挖掘者首先選擇兩個(gè)與問題相關(guān)的變量進(jìn)行調(diào)查,然后查明這兩個(gè)變量可能總共多久一次丟失值。
5.7 查明C5:=k
該查詢函數(shù)允許數(shù)據(jù)挖掘者用假定值代替缺失值,及觀察聚類的變化。假定值可能是最大與最小值中間的任何數(shù)。與返回詳細(xì)數(shù)據(jù)不同,查詢函數(shù)返回多樣的映射以便數(shù)據(jù)挖掘者用不同的k值比較聚類?;诩俣ǚ治鲈囼?yàn),數(shù)據(jù)挖掘者能夠在感知缺失值在確定問題中的沖擊。
6、用一個(gè)例子來學(xué)習(xí)概念建構(gòu)
這一節(jié)中我們用一個(gè)例子來闡明不完整測量數(shù)據(jù)的概念建構(gòu)中基于SOM的查詢系統(tǒng)的應(yīng)用。學(xué)生的教師調(diào)查法在大學(xué)中廣泛應(yīng)用于估評教授的教學(xué)質(zhì)量。研究中沿用的數(shù)據(jù)來自加拿大大學(xué)一個(gè)學(xué)生對教師調(diào)查法(附件A)。在這個(gè)例子中二十一個(gè)問題描述了一個(gè)教師的表現(xiàn)特征。每個(gè)問題都有五個(gè)等級的答案讓學(xué)生回答。一個(gè)問題得高分表明問題的答案是積極的。這些問題的加權(quán)平均數(shù)由聯(lián)系于評價(jià)教學(xué)效果的多種數(shù)據(jù)組成。學(xué)校教學(xué)中心的一個(gè)任務(wù)是了解教學(xué)中的問題,以便采取相應(yīng)方法(例如,教學(xué)研究會及研究所)去攻克這些問題。
由于二十個(gè)問題與一個(gè)班級學(xué)期教學(xué)效果評估相關(guān),二十個(gè)變量組成SOM的多維數(shù)。最后一個(gè)問題與教師分級相關(guān)。研究中,該變量用于與低效教學(xué)相關(guān)的選擇,而這些教學(xué)基于該問題全部測量數(shù)據(jù)的中間值。
表1
概念建構(gòu)的例子
聚類
(采樣%)
問題相關(guān)變量
基于完整數(shù)據(jù)的問題鑒別
不完整數(shù)據(jù)的概念建構(gòu)
1 (24.8)
V16,v18
學(xué)生測試結(jié)果需要更
多令人信服的解釋
測試和分配不能夠?qū)?
學(xué)生提供反饋?zhàn)饔?
對即時(shí)分級不滿意的學(xué)生,
通常對他們能否得到對
工作有益注解漠不關(guān)心
2 (26.6)
V14
應(yīng)該更好規(guī)劃測試和分配
對課程學(xué)習(xí)經(jīng)驗(yàn)忽略看法
的學(xué)生通常對適當(dāng)測試或
者布置規(guī)劃漠不關(guān)心
3 (12.7)
V1,v20
不能很好描述困難概念;特
別是,課本沒有給出太多幫
助時(shí)
雖然v20的缺失值率最高,
缺失值對問題鑒定不具
嚴(yán)重沖擊
收集3823個(gè)無效教學(xué)質(zhì)量觀測采樣數(shù)據(jù)后可確認(rèn)這個(gè)學(xué)校的教學(xué)問題。這些數(shù)據(jù)中,2788個(gè)是完整的。
SOM聚類分析方法應(yīng)用于預(yù)先確認(rèn)完整數(shù)據(jù)中的問題。使用300個(gè)SOM輸出節(jié)點(diǎn)、200個(gè)初始化領(lǐng)域節(jié)點(diǎn)后,初始學(xué)習(xí)率是0.01,2000個(gè)學(xué)習(xí)疊代后,SOM顯示四出聚類。一個(gè)聚類表明有一組存在低值,該值在進(jìn)一步分析后排除幾乎所有變量后得出的。三個(gè)聚類有蘊(yùn)含意義。
根據(jù)聚類分析,發(fā)現(xiàn)接收到低值的變量v1,v14,v16,v18和v20比較特別,與無效教學(xué)有關(guān),如表1中前三行所述。
然后不完整數(shù)據(jù)用于建造該問題的新概念。
6.1 C1:/
雖然觀測資料的不完整率達(dá)對整個(gè)測量來說高達(dá)37%,根據(jù)關(guān)系密切的變量(v1,v14,v16,v18和v20),/是5.2%,這說明最初識別的問題通常有效的。
6.2 C2:(i)/
在這五個(gè)變量中,缺失值率最高是v20,達(dá)8.6%,這說明這變量(例如,無用的課本和教學(xué)材料)指示的無效教學(xué)的可靠性可能不如其他相關(guān)變量可靠。
6.3 C3:=(a,b)
v16的缺失值率是2.2%。然而,52.1%的缺失值來自觀測函數(shù)x(v15)=[1,3]。這說明不滿意即時(shí)分級通常對他們能否收到對他們工作有益意見漠不關(guān)心。
6.4 C4:
v14的缺失值率是3.7%。然而v14與v10由式子=33.6%緊密相聯(lián)在一塊。這說明忽略課程學(xué)習(xí)經(jīng)驗(yàn)的看法的學(xué)生,通常對測試或分配要適當(dāng)計(jì)劃漠不關(guān)心。
6.5. C5: =k
這個(gè)例子中,v20缺失值最高(達(dá)8.6%)。數(shù)據(jù)挖掘者可能想了解缺失數(shù)據(jù)的潛在沖擊。在完整數(shù)據(jù)中,V20的最小值是1,最大值是5,v20的概率分布是{0.11|v20=1,0.16|v20=2,0.21|v20=3,0.28|v20=4,0.24|v20=5}。設(shè)置好v20的缺失值的這些值之后,新的試驗(yàn)數(shù)據(jù)用來為SOM繪制示意圖。在完整數(shù)據(jù)中應(yīng)用相同的SOM拓?fù)?,假定分析試?yàn)是引導(dǎo)。 如圖3所示,這個(gè)例子的全部的結(jié)論是,v20的缺失值對問題鑒定不具嚴(yán)重沖擊。
這個(gè)例子中,缺失值新的概念建構(gòu)在表1的第四欄中總結(jié)出來了。
這個(gè)例子闡述了被提議的概念建構(gòu)方法的使用,并提供一個(gè)提議方案的實(shí)驗(yàn)試驗(yàn)。容易看出,這個(gè)例子研究的數(shù)據(jù)挖掘的數(shù)值范圍相當(dāng)小。一般來說,比起這個(gè)例子來,數(shù)據(jù)挖掘應(yīng)用于在規(guī)模和維數(shù)大得多的數(shù)據(jù)集。
7. 結(jié)論
在數(shù)據(jù)挖掘領(lǐng)域,不完整數(shù)據(jù)通常受到不公正對待。這篇文章提議不完整數(shù)據(jù)的概念建構(gòu),并提及了四個(gè)種類的缺失值概念。對于問題鑒別、數(shù)據(jù)隱藏意圖、兩個(gè)變量的缺失值求反運(yùn)算以及缺失數(shù)據(jù)的條件效應(yīng),這些是可靠的。由于SOM在聚類和數(shù)據(jù)可視化方面的優(yōu)勢,而被選作概念建構(gòu)的工具?;赟OM聚類分析,這篇文章接著建議七類查詢函數(shù)來建構(gòu)不完整數(shù)據(jù)概念。使用這些查詢函數(shù),數(shù)據(jù)挖掘者能夠建構(gòu)與數(shù)據(jù)挖掘問題鑒別相關(guān)的新的概念。雖然與真實(shí)事例不同,但它已被證明,概念建構(gòu)的模式能更好用在知識發(fā)現(xiàn)方面。
知識發(fā)現(xiàn)在數(shù)據(jù)庫是個(gè)正在成長的領(lǐng)域。一般來說,知識發(fā)現(xiàn)開始于原始的問題鑒別。然而問題鑒別典型地證實(shí)為數(shù)據(jù)庫和一般統(tǒng)計(jì)算法力所不及的。在知識發(fā)現(xiàn)過程中,必須建造新的概念使數(shù)據(jù)不那么神秘??傊?,不完整數(shù)據(jù)的概念建構(gòu)為知識發(fā)展提供有效的技術(shù),因而,基于數(shù)據(jù)細(xì)節(jié)問題領(lǐng)域和挖掘者的對缺失數(shù)據(jù)的感知,他能夠說明數(shù)據(jù)挖掘的結(jié)果。以后的工作包括在數(shù)據(jù)庫系統(tǒng)主機(jī)上執(zhí)行軟件系統(tǒng),并進(jìn)一步評估被提議在更大范圍的數(shù)據(jù)集的方法。
收藏
資源目錄
編號:2680525
類型:共享資源
大?。?span id="tejomti" class="font-tahoma">2.68MB
格式:RAR
上傳時(shí)間:2019-11-28
15
積分
- 關(guān) 鍵 詞:
-
dk7732
數(shù)控
高速
電火花
切割機(jī)
控制系統(tǒng)
- 資源描述:
-
DK7732數(shù)控高速走絲電火花線切割機(jī)及控制系統(tǒng),dk7732,數(shù)控,高速,電火花,切割機(jī),控制系統(tǒng)
展開閱讀全文
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學(xué)習(xí)交流,未經(jīng)上傳用戶書面授權(quán),請勿作他用。