《第一節(jié) 單因素試驗的方差分析》由會員分享,可在線閱讀,更多相關《第一節(jié) 單因素試驗的方差分析(7頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第八章 方差分析與回歸分析
第一節(jié) 單因素試驗的方差分析
在科學試驗、生產(chǎn)實踐和社會生活中,影響一個事件的因素往往很多。例如,在工業(yè)生產(chǎn)中,產(chǎn)品的質(zhì)量往往受到原材料、設備、技術及員工素質(zhì)等因素的影響;又如,在工作中,影響個人收入的因素也是多方面的,除了學歷、專業(yè)、工作時間、性別等方面外,還受到個人能力、經(jīng)歷及機遇等偶然因素的影響. 雖然在這眾多因素中,每一個因素的改變都可能影響最終的結果,但有些因素影響較大,有些因素影響較小. 故在實際問題中,就有必要找出對事件最終結果有顯著影響的那些因素. 方差分析就是根據(jù)試驗的結果進行分析,通過建立數(shù)學模型,鑒別各個因素影響效應的一種有效方法
2、.
分布圖示
★ 引言 ★ 基本概念
★ 例1 ★ 例2
★ 假設前提 ★ 方差分析的任務
★ 偏差平方和及其分解
★ 和的統(tǒng)計特性
★ 檢驗方法
★ 例3 ★ 例4
★ 習題8-1
內(nèi)容要點
一、基本概念
在方差分析中,我們將要考察的對象的某種特征稱為試驗指標. 影響試驗指標的條件稱為因素. 因素可分為兩類,一類是人們可以控制的(如上例的原材料、設備、學歷、專業(yè)等因素);另
3、一類人們無法控制的(如上例中員工素質(zhì)與機遇等因素).
今后,我們所討論的因素都是指可控制因素。因素所處的狀態(tài),稱為該因素的水平. 如果在一項試驗中只有一個因素在改變,則稱為單因素試驗;如果多于一個因素在改變,則稱為多因素試驗. 為方便起見,今后用大寫字母等表示因素,用大寫字母加下標表示該因素的水平,如等.
二、假設前提
設單因素A具有r個水平,分別記為在每個水平下,要考察的指標可以看成一個總體,故有個總體,并假設:
(1) 每個總體均服從正態(tài)分布;
(2) 每個總體的方差相同;
(3) 從每個總體中抽取的樣本相互獨立.
那么,要比較各個總體的均值是否一致,就是要檢驗各個總
4、體的均值是否相等,設第個總體的均值為,則
假設檢驗為
備擇假設為
通常備擇假設可以不寫.
在水平下,進行次獨立試驗,得到試驗數(shù)據(jù)為記數(shù)據(jù)的總個數(shù)為n =
由假設有 (和未知),即有~故可視為隨機誤差.記=,從而得到如下數(shù)學模型:
(1)
方差分析的任務:
1) 檢驗該模型中r個總體的均值是否相等;
2) 作出未知參數(shù), 的估計.
為了更仔細地描述數(shù)據(jù),常在方差分析中引入總平均和效應的概念. 稱各均值的加權平均
為總平均. 其中n= 再引入
表示在水平下總體的均值與總平均的差異,稱其為因子的第個水平的效應. 易見,效應間有如下關系式:
利用上述
5、記號,前述數(shù)學模型可改寫為
(2)
而前述檢驗假設則等價于:
三、偏差平方和及其分解
為了使造成各之間的差異的大小能定量表示出來,我們先引入:
記在水平下數(shù)據(jù)和記為: ,其樣本均值為=因素A下的所
有水平的樣本總均值為
==,
為了通過分析對比產(chǎn)生樣本
, ,
之間差異性的原因,從而確定因素A的影響是否顯著,我們引入偏差平方和來度量各個體間的差異程度:
(3)
能反映全部試驗數(shù)據(jù)之間的差異,又稱為總偏差平方和.
如果成立,則個總體間無顯著差異,也就是說因素對指標沒有顯著影響,所有的可以認為來自同一個總體,各個間的差異只是由隨機因素引起的
6、。若不成立,則在總偏差中,除隨機因素引起的差異外,還包括由因素的不同水平的作用而產(chǎn)生的差異,如果不同水平作用產(chǎn)生的差異比隨機因素引起的差異大的多,就認為因素對指標有顯著影響,否則,認為無顯著影響. 為此,可將總偏差中的這兩種差異分開,然后進行比較。
記
(4)
其中
反映在每個水平下的樣本均值與樣本總均值的差異,它是由因素A取不同水平引起的,稱為組間(偏差)平方和,也稱為因素A的偏差平方和.
表示在水平下樣本值與該水平下的樣本均值之間的差異,它是由隨機誤差引起的,稱為誤差(偏差)平方和,也稱為組內(nèi)(偏差)平方和.
等式稱為平方和分解式. 事實上
7、 ==
=+
根據(jù)和的定義知
,
所以
==
四、與的統(tǒng)計特性
如果成立,則所有的都服從正態(tài)分布,且相互獨立,由第五章第三節(jié)的定理,可以證明:
1)
2) ~,且 所以為的無不偏估計.
3) ~,且,因此為的無偏估計.
4) 相互獨立.
五、檢驗方法
如果組間差異比組內(nèi)差異大的多,即說明因素的各水平間有顯著差異,個總體不能認為是同一個正態(tài)總體,應認為不成立,此時,比值有偏大的趨勢. 為此,選用統(tǒng)計量
=
在為真時,有
F =~ F
對給定的檢驗水平,查的值,由樣本觀察值計算,,從而計算出統(tǒng)計量F的觀察值. 由于不
8、真時,值偏大,導致F值偏大. 因此,
1) 若F>時,拒絕,表示因素A的各水平下的效應有顯著差異;
2) 若F<時,則接受,表示因素A的各水平下的效應無顯著差異.
實際分析中,常采用如下簡便算法和記號:
, =
=, =, =
為表達的方便和直觀,將上面的分析過程和結果制成一個表格,稱這個表為單因素方差分析表:
表8-1B單因素方差分析表
例題選講
例1 (E01) 設有三臺機器, 用來生產(chǎn)規(guī)格相同的鋁合金薄板.取樣, 測量薄板的厚度精確至千分之一厘米. 得結果如下表所示.
鋁合金板的厚度
機器Ⅰ
機器Ⅱ
機器Ⅲ
0.236
0.257
0.258
9、0.238
0.253
0.264
0.248
0.255
0.259
0.245
0.254
0.267
0.243
0.261
0.262
這里, 試驗的指標是薄板的厚度, 機器為因素, 不同的三臺機器就是這個因素的三個不同的水平. 如果假定除機器這一因素外, 材料的規(guī)格、操作人員的水平等其它條件都相同,這就是單因素試驗. 試驗的目的是為了考察各臺機器所生產(chǎn)的薄板的厚度有無顯著的差異, 即考察機器這一因素對厚度有無顯著的影響. 如果厚度有顯著差異, 就表明機器這一因素對厚度的影響是顯著的.
例2 (E02) 某食品公司對一種食品設計了四種新包裝. 為了考察哪種
10、包裝最受歡迎, 選了十個有近似相同銷售量的商店作試驗, 其中兩種包裝各指定兩個商店銷售, 另兩種包裝各指定三個商店銷售. 在試驗期中各商店的貨架排放位置、空間都盡量一致, 營業(yè)員的促銷方法也基本相同. 觀察在一定時期的銷售量, 數(shù)據(jù)如下表所示:
銷售量
包裝
商店
商店數(shù)
1
2
3
12
18
2
14
12
13
3
19
17
21
3
24
30
2
在本例中, 我們要比較的是四種包裝的銷售量是否一致, 為此把包裝類型看成是一個因子, 記為因子A, 它有四種不同的包裝, 就看成是因子A的四個水平, 記為.一般將第種
11、包裝在第個商店的銷售量記為
(在本例中,).
由于商店間的差異已被控制在最小的范圍內(nèi), 因此一種包裝在不同商店里的銷售量被看作為一種包裝的若干次重復觀察, 所以可以把一種包裝看作一個總體. 為比較四種包裝的銷售量是否相同, 相當于要比較的四個總體的均值是否一致. 簡化起見,需要給出若干假定,把所要回答的問題歸結為下個統(tǒng)計問題, 然后設法解決它.
例3 (E03) 在例1 中,檢驗假設()
不全相等.
解 這里
的自由度依次為 得方差分析表如下:
方差來源
平方和
自由度
均方和
比
總和
12、0.00124533
14
因 故在水平下拒絕 認為各臺機器生產(chǎn)的薄板厚度有顯著的差異.
例4 (E04) 在例2 中,檢驗假設()
不全相等.
解 這里
的自由度依次為 得方差分析如下:
方差來源
平方和
自由度
均方和
F值
因素
誤差
258
46
3
6
86
7.67
總和
304
9
因 故在水平下拒絕, 即認為四種包裝的銷售量有顯著差異, 這說明不同包裝受歡迎的程度不同.