統(tǒng)計學(xué)-思想方法與應(yīng)用(袁衛(wèi)等)第七章方差分析.ppt
《統(tǒng)計學(xué)-思想方法與應(yīng)用(袁衛(wèi)等)第七章方差分析.ppt》由會員分享,可在線閱讀,更多相關(guān)《統(tǒng)計學(xué)-思想方法與應(yīng)用(袁衛(wèi)等)第七章方差分析.ppt(40頁珍藏版)》請在裝配圖網(wǎng)上搜索。
統(tǒng)計學(xué):思想、方法與應(yīng)用,袁衛(wèi)劉超,第7章方差分析,7.1單因素方差分析7.2方差分析回顧7.3雙因素方差分析,學(xué)習(xí)目標,了解方差分析的一般思想;明白單因素方差分析能解決什么問題;了解為什么要介紹雙因素方差分析;相關(guān)理論在統(tǒng)計學(xué)軟件中的應(yīng)用。相應(yīng)統(tǒng)計分析結(jié)果的解讀。,方差分析(AnalysisofVariance,ANOVA)是英國統(tǒng)計學(xué)家羅納德費歇爾(RonaldFisher)20世紀年代發(fā)展起來的一種在實踐中被廣泛運用的統(tǒng)計方法。從形式上看,方差分析是比較多個總體的均值是否相等,但本質(zhì)上,它所研究的是分類型自變量對數(shù)量型因變量的影響,這使得它同后面一章介紹的回歸分析關(guān)系密切,但是又不完全相同。如果有一個人們感興趣的指標(因變量),其變化可能受到眾多離散型因素(如性別、種族、職業(yè)等)而不是連續(xù)型因素(如年齡、收入、價格等)的影響,我們可以考慮使用方差分析。這些影響因變量的離散型因素稱為因素或因子(factor),因素的取值稱為水平(level)或處理(treatment)。這里,因素就是變量,水平就是該變量的取值,這些名詞是分類或?qū)傩宰兞克赜械?。為了了解哪些因素對感興趣的指標(因變量)有影響,我們必須在眾多因素中確定哪些因素影響大些,哪些影響小些,以便于進一步研究對因變量的預(yù)測和控制。,為什么我們要學(xué)習(xí)方差分析,為什么不能用前幾章討論的檢驗來比較總體的均值差異呢?可以每次比較兩組均值,但是會累加了第一類錯誤。假設(shè)我們采用中不同的方法(A,B,C,D)訓(xùn)練新射擊手。在訓(xùn)練結(jié)束后,我們用普通的檢驗方法比較不同射擊技巧的成績。研究問題:4組射擊成績的均值是否存在差異?回答這個問題我們需要比較4種訓(xùn)練方法。,為什么我們要學(xué)習(xí)方差分析,用t分布比較4組總體均值,需要進行6次不同的t檢驗。也就是說,我們需要分別比較4種方法的平均成績:A和B,A和C,A和D,B和C,B和C,以及C和D。如果顯著性水平設(shè)為0.05,那么正確判斷的概率為0.95。因為我們分別進行6次獨立的檢驗,任何一次檢驗都不做錯誤判斷的概率為:P(都正確)=0.956=0.735因此,至少一次錯誤的概率為1-0.735=0.265。總之,如果我們用t分布分別做6次獨立的檢驗,至少有一樣本錯誤發(fā)生的概率從0.05上升到了0.265。顯然我們需要用更好的辦法來而非6次t檢驗,方差分析允許我們同時比較多個處理的均值并且避免了第一類錯誤概率的增加。,7.1單因素方差分析,例7.1研究員想挑選出能使小麥畝產(chǎn)量最大的化肥,選了三個品牌的化肥:A,B和C。開始,他將土地分成大小相同的24塊。小麥在同時以相同的方式播種,唯一差別就是所施的肥料不同,8塊地用A,8塊地用B,其余8塊地用C。在收割的季節(jié),記下每塊地的小麥產(chǎn)量。這里三種不同的肥料就是三種不同的處理。產(chǎn)量用公斤表示。數(shù)據(jù)見表7.1。,7.1.1小麥產(chǎn)量與化肥品牌之間的關(guān)系,為了顯示平均產(chǎn)量是否隨化肥品牌不同而不同,我們首先看散點圖7.1。這里的散點圖與前面介紹的散點圖有一些不一樣,其橫軸是分類變量。,7.1.1小麥產(chǎn)量與化肥品牌之間的關(guān)系,從散點圖可以發(fā)現(xiàn),不同品牌的化肥所導(dǎo)致的小麥平均產(chǎn)量的確是有明顯差別的。而且即使是同一品牌,小麥的產(chǎn)量也明顯不同。這些區(qū)別至少說明,小麥的產(chǎn)量與化肥的品牌之間是有關(guān)系的。如果這三塊地的小麥產(chǎn)量差不多,則可以認為小麥的產(chǎn)量與化肥的品牌之間是沒有關(guān)系的。,7.1.1小麥產(chǎn)量與化肥品牌之間的關(guān)系,為了更容易的找出各化肥品牌的小麥平均產(chǎn)量的不同,我們對每個化肥品牌做一個箱線圖。,7.1.1小麥產(chǎn)量與化肥品牌之間的關(guān)系,比較基于數(shù)據(jù)的箱線圖可以揭示小麥產(chǎn)量的哪些信息呢?首先應(yīng)該來對比不同化肥品牌的中位數(shù),因為它們代表中心值。當我們仔細看盒子中間代表中位數(shù)的橫線時,就會注意到品牌B的中位數(shù)最高。因此可以斷定這個品牌的化肥的小麥產(chǎn)量最高。類似的,品牌C的中位數(shù)最低,則品牌C的化肥的小麥產(chǎn)量最低。品牌B的化肥的小麥產(chǎn)量居中。箱線圖的另一個特征是盒子的高度不同。例如品牌A和品牌C的盒子高度接近,都比品牌B盒子要矮,這就意味著品牌A和品牌C這兩種化肥下的小麥產(chǎn)量波動性都小比品牌B的化肥下的小麥產(chǎn)量。,7.1.2關(guān)系強度有多大?,箱線圖比散點圖更能顯示各地區(qū)之間小麥產(chǎn)量的不同和兩個變量間存在關(guān)系。但我們還想知道這兩個變量之間關(guān)系的強度,以及這個關(guān)系是否可能出于偶然。要回答這些問題我們還需要做進一步的工作,即利用方差分析。我們的興趣在均值上,但在判斷均值之間是否有差異時要借助于方差。,7.1.2關(guān)系強度有多大?,原理為:把因變量的值隨著自變量的不同取值而得到的變化進行分解,使得每一個自變量都有一份貢獻,最后剩下無法用已知的原因解釋的則看成隨機誤差的貢獻。然后用各自變量的貢獻和隨機誤差的貢獻進行比較(F檢驗),以判斷該自變量的不同水平是否對因變量的變化有顯著貢獻。輸出就是F-值和檢驗的一些p-值。,方差分析原理,模型中的假定:,涉及的檢驗:H0:m1=…=mp,線性模型:,公式:總平方和=組間平方和+組內(nèi)平方和,其中,SST有自由度n-1,SSB有自由度p-1,SSE有自由度n-p,在正態(tài)分布的假設(shè)下,如果各組增重均值相等(零假設(shè)),則,有自由度為p-1和n-p的F分布.,7.1.3在總體中的關(guān)系如何?,由SPSS可以得到方差分析表:,該表說明我們要拒絕零假設(shè),各化肥品牌導(dǎo)致的小麥產(chǎn)量之間有顯著不同.,方差分析表的說明:,這里n為觀測值數(shù)目p為水平數(shù),Fa滿足P(F>Fa)=a.這是自由度為p-1和n-p的F-分布的概率,7.1.4F檢驗:比較均值,雖然方差分析拒絕了零假設(shè),但是我們可能還有一些疑惑,比如(1)到底哪兩種品牌化肥的小麥平均產(chǎn)量不相同?(2)如果兩種化肥的小麥平均產(chǎn)量不同,那么它們的平均產(chǎn)量底有多大差別?,7.1.4F檢驗:比較均值,為了找到是哪一個均值與眾不同,我們在圖7.3中列出了每種化肥得到的小麥產(chǎn)量的均值。從圖中可以看出中化肥品牌B的小麥產(chǎn)量均值最高,而品牌A的小麥產(chǎn)量均值居中,品牌C的小麥產(chǎn)量均值最低。但是仍然很難說哪一組均值在統(tǒng)計意義上不同,哪一個相同。,進一步的問題...,當方差分析拒絕了原假設(shè)時,即認為至少有兩個總體的均值存在顯著性差異時,須進一步確定是哪兩個或哪幾個均值顯著不同,則需要進行多重比較來檢驗。多重比較是指在因變量的三個或這三個以上水平下均值之間進行的兩兩比較檢驗。多重比較問題:,多重比較方法,SPSS提供了各種不同的多重比較方法,包括最小顯著差異LSD法、Bonferroni法、Tukey法、Scheff法,如下圖所示。,由SPSS可以得到多重比較結(jié)果,此時我們在SPSS的輸出結(jié)果選擇LSD方法輸出的多重比較結(jié)果。如果設(shè)定的顯著性水平為α=0.10,由于0.057<0.10,那么不具有方差齊性,此時我們可以選擇Tamhane方法的輸出結(jié)果,見表7.5的第三部分的下邊。,做了以下三對比較:品牌A~品牌B、品牌A~品牌C和品牌B~品牌C。每一對比較都有相應(yīng)的p-值。,應(yīng)用方差分析需要的假設(shè)條件有:(1)各總體是正態(tài)分布。(2)各總體的有相同的標準差。(3)樣本互相獨立。當滿足上述條件時,可以用F分布作為檢驗統(tǒng)計量的分布。在研究分類型自變量和數(shù)量型因變量之間關(guān)聯(lián)的過程中的一部分是方差分析。在這里,我們在此研究的是化肥品牌和小麥產(chǎn)量兩個變量。其它還有諸如職業(yè)與收入的關(guān)系、不同教育方法與學(xué)生的學(xué)習(xí)水平的關(guān)系等例子。方差分析是基于計算因變量在按照自變量的各類的均值之間的差異程度和每一類中觀測值的差異程度。我們所得到方差分析的結(jié)果是基于各種平方和的大小。表7.4是一個典型的計算機輸出的結(jié)果(當然,對不同的計算程序,方差分析表的形式也許會發(fā)生變化)。,7.2方差分析回顧,F檢驗及其p-值告訴我們因變量在各類中的均值是否有顯著差異。如果F值大而因此p-值小,我們就拒絕無區(qū)別的零假設(shè),并認為在實際中兩個變量之間是有關(guān)系的。通常當p-值小于0.05時就可以拒絕零假設(shè)了。有時我們會看到p值下面的數(shù)值顯示*和**。在腳注中會解釋一個星號表示它的p值小于0.05,而兩個星號則表示p-值小于0.01。統(tǒng)計表的缺點是它無法提供精確的p-值;它一般只能給出p是小于某些值的。但是,我們可以用統(tǒng)計軟件求出精確的p-值。比如可以在Excel中通過“=FDIST(42.6,2,21)”命令求得小麥產(chǎn)量方差分析的p-值就為0.00000004。精確的p-值能夠提供更多的信息,因為我們能知道它究竟比0.05或比0.01小多少,也可以知道在拒絕零假設(shè)時的把握有多大。,7.2方差分析回顧,7.3雙因素方差分析,在小麥產(chǎn)量的例子中,我們將總效應(yīng)分為兩類:化肥變量的效應(yīng)和殘差變量的效應(yīng)。換句話說,我們只考慮了效應(yīng)的兩個來源,即來自化肥變量和隨機誤差。但是影響小麥產(chǎn)量的因素除了所用化肥的品牌,可能還有土壤、天氣等等因素的影響??紤]其他因素的好處是降低殘差的效應(yīng),即降低F統(tǒng)計量的分母,F(xiàn)值會變大,使我們拒絕均值相等的零假設(shè),或者說我們可以解釋更多的效應(yīng),從而減少誤差。下列例子說明了誤差變差的減少。本節(jié)討論雙因素方差分析(Two-WayANOVA),其分析方法可以很容易地被推廣到多因素方差分析(Multi-WayANOVA)。,7.3雙因素方差分析,例7.2一個地區(qū)的交通管理局正準備擴大從郊區(qū)到商業(yè)中心的公車服務(wù),考慮四條路線:1號線、2號線、3號線、4號線。交管局想進行檢驗判斷四條路線的平均行駛時間是否存在差異。因為可能存在不同司機,檢驗時讓每一名司機都分別行駛四條路線。下面是每個司機在每條路線上所需的行駛時間。在0.05的顯著性水平下,四條路線的行駛時間的均值是否有差異?如果不考慮司機的影響,行駛時間的均值是否有差異?,7.3雙因素方差分析,首先,我們用單因素方差分析的假設(shè)檢驗,即只考慮四條路線。在這種情況下,效應(yīng)來源于因素或者隨機誤差。比較四條路線平均行駛時間的零假設(shè)和備擇假設(shè)為:因為共有四條路線,所以分子的自由度為4-1=3,分母的自由度為20-4=16。此時對應(yīng)于0.05的顯著性水平下的臨界值是3.24,因此,如果計算的F值大于3.24,則拒絕零假設(shè)。,,,各處理均值不全相等。,7.3雙因素方差分析,F值的計算結(jié)果是1.618,比臨界值3.24小,實際上p-值0.225遠大于0.05,所以不能拒絕零假設(shè)。交管局得出結(jié)論四條路線的平均行駛時間無差異,沒有某條路線行駛速度快而被選擇的理由。,7.3.1無交互效應(yīng)的雙因素方差分析,如果上例中我們只考慮路線引起的效應(yīng)而將其余的都歸為隨機效應(yīng),那么我們沒有必要讓五名司機分別行駛四條路線。如果我們考慮不同司機的影響,我們就能減少殘差平方和,從而得到更大的F值。我們把本例中的司機因素稱為區(qū)組因素(blockingvariable),即在方差分析中能減少殘差平方和的第二個處理因素。在本例中將司機作為區(qū)組因素,從殘差平方和中提取出司機的影響能夠影響處理的F比值。這里介紹無交互作用的雙因素方差分析。,7.3.1無交互效應(yīng)的雙因素方差分析,因為我們考慮不同司機行使時間的差異,所以要對區(qū)組做假設(shè)檢驗。兩組假設(shè)分別為:1.不同路線均值都相等(),各路線均值不全相等2.區(qū)組均值都相等(),各區(qū)組均值不全相等兩因素方差分析表的格式與單因素方差分析的格式一致,唯一的區(qū)別是加了一行區(qū)組變差。,,,,,7.3.1無交互效應(yīng)的雙因素方差分析,從該表可以看出,關(guān)于對司機的零假設(shè)的p-值是0.002,對路線的零假設(shè)的p-值是0.024??梢缘弥?.05的顯著性水平下,路線和區(qū)組的零假設(shè)都被拒絕。因此,路線和司機這兩個因素都對行駛時間有顯著作用,也就是說這兩個因素的不同水平的確造成了行駛時間的不同。這表明司機這個因素的引進,使得路線對行駛時間從沒有影響變成有顯著影響。,7.3.2有交互效應(yīng)的雙因素方差分析,值得注意的是,對于上面的例子,我們僅僅分析了路線和司機這兩個因素分別對行駛時間的影響。也就是說因為司機變化所帶來的行駛時間的變化是同行駛的路線是無關(guān)的。這顯然是值得斟酌的。對于一個實際問題,僅考慮因素各自的作用是不是合理?能不能回答我們關(guān)心的問題?那就得視具體問題而論了。因此,我們接下來簡單介紹帶交互作用的雙因素方差分析。要說明的是,如果每一種因素水平的組合只有一個觀測值,那么由于數(shù)據(jù)量不夠會導(dǎo)致無法判斷是否有交互作用。這時即使有交互作用,也混在誤差項中而無法分離出來。,7.3.2有交互效應(yīng)的雙因素方差分析,例7.3該地區(qū)的交管局還想研究司機變化所帶來的行駛時間的變化與行駛的路線是否有關(guān)?因此,我們假設(shè)對這個地區(qū)的交管局進行了2次測試。獲得數(shù)據(jù)如下表所示。,7.3.2有交互效應(yīng)的雙因素方差分析,從數(shù)據(jù)表可以看出,司機因素有5個水平,路線因素有4個水平,每個水平組合重復(fù)數(shù)n=2,共有=542=40個觀測值。我們?nèi)匀豢梢韵袂懊婺菢佑懻撔旭倳r間和作為因素(自變量)的路線類型和司機之間的關(guān)系,還由于路線類型和司機的每種組合都有2個觀測值,因此還可以考慮路線類型和司機之間的交互效應(yīng)行駛時間的影響。,7.3.2有交互效應(yīng)的雙因素方差分析,從中可以看到,與無交互的雙因素方差分析結(jié)果一樣,路線和司機因素的p-值都小于0.05,檢驗是高度顯著的。交互項“司機*路線”反映的是司機因素和路線因素聯(lián)合產(chǎn)生的對行駛時間的附加效應(yīng)。由于p-值0.025小于0.05,因此,檢驗高度顯著,這表明司機因素和路線因素聯(lián)合產(chǎn)生的交互作用對行駛時間有顯著影響。換句話說,也就是不同路線的行駛時間差異會因為所使用的司機的不同而不同,或者說不同司機的行駛時間差異會因為所經(jīng)過的路線不同而不同。,7.3.2有交互效應(yīng)的雙因素方差分析,交互作用的模型可以從點圖中直觀看出。圖7.4中的五條折現(xiàn)分別表示了每名司機行駛不同路線所需的平均時間。如果在有交互作用的模型中,這樣五條線還是平行的,那就說明司機因素和路線因素之間沒有交互作用。從該圖可以看出,這五條線并不平行,這從直觀上說明這兩個因素的主效應(yīng)不是簡單可加的,是有交互作用的。,還要說明的是,如果每一種因子水平的組合只有一個觀測值(這里例中每個組合有四個觀測值),那么,無法對是否有交互作用進行判斷;這是由于數(shù)據(jù)量不夠,交互作用即使有也混在誤差項中,無法剝離出來進行分析。,附:一般方差分析表的數(shù)學(xué)意義,而計算機的方差分析表的輸出的意義為(這里包含在SSM中還有一個SS和1個自由度屬于截距的(沒有用處)沒有列出):,方差分析表公式的意義為:,- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 統(tǒng)計學(xué) 思想 方法 應(yīng)用 第七 方差分析
鏈接地址:http://m.zhongcaozhi.com.cn/p-3525310.html