SPSS統(tǒng)計(jì)分析 第六章 回歸分析.ppt

上傳人:w****2 文檔編號(hào):16566662 上傳時(shí)間:2020-10-13 格式:PPT 頁(yè)數(shù):47 大?。?95.50KB
收藏 版權(quán)申訴 舉報(bào) 下載
SPSS統(tǒng)計(jì)分析 第六章 回歸分析.ppt_第1頁(yè)
第1頁(yè) / 共47頁(yè)
SPSS統(tǒng)計(jì)分析 第六章 回歸分析.ppt_第2頁(yè)
第2頁(yè) / 共47頁(yè)
SPSS統(tǒng)計(jì)分析 第六章 回歸分析.ppt_第3頁(yè)
第3頁(yè) / 共47頁(yè)

下載文檔到電腦,查找使用更方便

9.9 積分

下載資源

還剩頁(yè)未讀,繼續(xù)閱讀

資源描述:

《SPSS統(tǒng)計(jì)分析 第六章 回歸分析.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《SPSS統(tǒng)計(jì)分析 第六章 回歸分析.ppt(47頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、第六章 回歸分析 變量之間的聯(lián)系 確定型的關(guān)系:指某一個(gè)或某幾個(gè)現(xiàn)象的變動(dòng)必然會(huì) 引起另一個(gè)現(xiàn)象確定的變動(dòng),他們之間的關(guān)系可以使 用數(shù)學(xué)函數(shù)式確切地表達(dá)出來(lái),即 y=f(x)。當(dāng)知道 x的 數(shù)值時(shí),就可以計(jì)算出確切的 y值來(lái)。如圓的周長(zhǎng)與 半徑的關(guān)系:周長(zhǎng) =2r。 非確定關(guān)系:例如,在發(fā)育階段,隨年齡的增長(zhǎng),人 的身高會(huì)增加。但不能根據(jù)年齡找到確定的身高,即 不能得出 11歲兒童身高一定就是 1.40米公分。年齡與 身高的關(guān)系不能用一般的函數(shù)關(guān)系來(lái)表達(dá)。研究變量 之間既存在又不確定的相互關(guān)系及其密切程度的分析 稱(chēng)為相關(guān)分析。 回歸分析 如果把其中的一些因素作為自變量,而另一 些隨

2、自變量的變化而變化的變量作為因變量, 研究他們之間的非確定因果關(guān)系,這種分析 就稱(chēng)為 回歸分析 。 回歸分析是研究一個(gè)自變量或多個(gè)自變量與 一個(gè)因變量之間是否存在某種線性關(guān)系或非 線性關(guān)系的一種統(tǒng)計(jì)學(xué)方法。 線性回歸分析; 曲線回歸分析; 二維 Logistic回歸分析; 多維 Logistic回歸分析; 概率單位回歸分析; 非線性回歸分析; 權(quán)重估計(jì)分析; 二階段最小二乘分析; 最優(yōu)編碼回歸。 一、線性回歸 (一)一元線性回歸方程 直線回歸分析的任務(wù)就是根據(jù)若干個(gè)觀測(cè)( xi, yi) i=1 n 找出描述兩個(gè)變量 x、 y之間關(guān)系的直線回歸方程 y=a+bx。 y

3、是變量 y的估計(jì)值。求直線回歸方程 y=a+bx,實(shí)際上是用 回歸直線擬合散點(diǎn)圖中的各觀測(cè)點(diǎn)。常用的方法是最小二乘 法。也就是使該直線與各點(diǎn)的縱向垂直距離最小。即使實(shí)測(cè) 值 y與回歸直線 y之差的平方和 (y-y)2達(dá)到最小。 (y-y)2 也稱(chēng)為剩余(殘差)平方和。因此求回歸方程 y=a+bx的問(wèn) 題,歸根到底就是求 (y-y)2取得最小值時(shí) a和 b的問(wèn)題。 a稱(chēng) 為截距, b為回歸直線的斜率,也稱(chēng)回歸系數(shù)。 1、一元線性回歸方程的適用條件 線形趨勢(shì) :自變量與因變量的關(guān)系是線形的,如果不 是,則不能采用線性回歸來(lái)分析。 獨(dú)立性 :可表述為因變量 y的取值相互獨(dú)立,它們之 間沒(méi)有聯(lián)系

4、。反映到模型中,實(shí)際上就是要求殘差間 相互獨(dú)立,不存在自相關(guān)。 正態(tài)性: 自變量 x的任何一個(gè)線形組合,因變量 y均服 從正態(tài)分布,反映到模型中,實(shí)際上就是要求隨機(jī)誤 差項(xiàng) i服從正態(tài)分布。 方差齊性 :自變量的任何一個(gè)線形組合,因變量 y的 方差均齊性,實(shí)質(zhì)就是要求殘差的方差齊。 2、一元線性回歸方程的檢驗(yàn) 檢驗(yàn)的假設(shè)是總體回歸系數(shù)為 0。另外要檢驗(yàn)回歸方 程對(duì)因變量的預(yù)測(cè)效果如何。 ( 1)回歸系數(shù)的顯著性檢驗(yàn) 對(duì)斜率的檢驗(yàn),假設(shè)是:總體回歸系數(shù)為 0。檢驗(yàn)該 假設(shè)的 t值計(jì)算公式是; t=b/SEb,其中 SEb是回歸系 數(shù)的標(biāo)準(zhǔn)誤。 對(duì)截距的檢驗(yàn),假設(shè)是:總體回歸方程

5、截距 a=0。檢 驗(yàn)該假設(shè)的 t值計(jì)算公式是: t=a/SEa,其中 SEa是截 距的標(biāo)準(zhǔn)誤。 ( 2) R2判定系數(shù) 在判定一個(gè)線性回歸直線的擬合度的好壞時(shí), R2系 數(shù)是一個(gè)重要的判定指標(biāo)。 R2判定系數(shù)等于回歸平方和在總平方和 中所占的比率 , 即 R2體現(xiàn)了回歸模型所能解釋的因 變量變異性的百分比。 如果 R2=0.775,則說(shuō)明變量 y 的變異中有 77.5是由變量 X引起的。當(dāng) R2 1時(shí), 表示所有的觀測(cè)點(diǎn)全部落在回歸直線上。當(dāng) R2=0時(shí), 表示自變量與因變量無(wú)線性關(guān)系。 為了盡可能準(zhǔn)確的反應(yīng)模型的擬合度, SPSS輸出中 的 Adjusted R

6、 Square是消除了自變量個(gè)數(shù)影響的 R2 的修正值。 )( )( 2 2 2 yy yyR i i ( 3)方差分析 體現(xiàn)因變量觀測(cè)值與均值之間的差異的偏差平方和 SSt是由兩個(gè)部分組成: SSt=SSr SSe SSr:回歸平方和,反應(yīng)了自變量 X的重要程度; SSe :殘差平方和,它反應(yīng)了實(shí)驗(yàn)誤差以及其他意外 因素對(duì)實(shí)驗(yàn)結(jié)果的影響。 這兩部分除以各自的自由度, 得到它們的均方。 統(tǒng)計(jì)量 F=回歸均方殘差均方。當(dāng) F值很大時(shí),拒 絕接受 b=0的假設(shè)。 ( 4) Durbin Watson檢驗(yàn) 在對(duì)回歸模型的診斷中,有一個(gè)非常重要的 回歸模型假設(shè)需要診斷,那就是 回

7、歸模型中 的誤差項(xiàng)的獨(dú)立性 。如果誤差項(xiàng)不獨(dú)立,那 么對(duì)回歸模型的任何估計(jì)與假設(shè)所作出的結(jié) 論都是不可靠的。其參數(shù)稱(chēng)為 DW或 D。 D的 取值范圍是 0 D 4,統(tǒng)計(jì)學(xué)意義如下: 當(dāng)殘差與自變量互為獨(dú)立時(shí) D2; 當(dāng)相鄰兩點(diǎn)的殘差為正相關(guān)時(shí), D2 ( 5)殘差圖示法 在直角坐標(biāo)系中,以預(yù)測(cè)值 y為橫軸,以 y與 y之間的誤差 et為縱軸 (或?qū)W生化殘差與擬和 值或一個(gè)自變量),繪制殘差的散點(diǎn)圖。如 果散點(diǎn)呈現(xiàn)出明顯的規(guī)律性則 ,認(rèn)為存在自相 關(guān)性或者非線性或者非常數(shù)方差的問(wèn)題。 (二)多元線性回歸 多元線性回歸:根據(jù) 多個(gè)自變量 的最優(yōu)組合建立回歸 方程來(lái)預(yù)測(cè)因變量的回歸分析

8、稱(chēng)為多元回歸分析。多 元回歸分析的模型為: y=b0+b1x1+b2x2+ +bnxn 其中 y為根據(jù)所有自變量 x計(jì)算出的估計(jì)值 , b0為常 數(shù)項(xiàng) , b1、 b2 bn稱(chēng)為 y對(duì)應(yīng)于 x1、 x2 xn的偏回歸 系數(shù)。 偏回歸系數(shù)表示假設(shè)在其他所有自變量不變 的情況下,某一個(gè)自變量變化引起因變量變化的比 率。 多元線性回歸模型也必須滿足一元線性回歸方程中所 述的假設(shè)理論。 2.多元線性回歸分析中的參數(shù) ( l) 復(fù)相關(guān)系數(shù) R 復(fù)相關(guān)系數(shù)表示因變量 xi 與他的自變量 y之間 線性相關(guān)密切程度的指標(biāo),復(fù)相關(guān)系數(shù)使用 字母 R表示。 復(fù)相關(guān)系數(shù)的取值范圍在 0 1之間。其

9、值越 接近 1表示其線性關(guān)系越強(qiáng),越接近 0表示線 性關(guān)系越差。 ( 2) R2判定系數(shù)與經(jīng)調(diào)整的判定系數(shù) 與一元回歸方程相同,在多元回歸中也 使用判定系數(shù) R2來(lái)解釋回歸模型中自變量的變異在因變量變異中 所占比率。 但是,判定系數(shù)的值隨著進(jìn)入回歸方程的自變量的 個(gè)數(shù)(或樣本容量的大小 n)的增加而增大。因此, 為了消除自變量的個(gè)數(shù)以及樣本量的大小對(duì)判定系數(shù) 的影響,引進(jìn)了經(jīng)調(diào)整的判定系數(shù)( Adjusted R Square)。 )1( )1(1 )( )( 2 2 2 ni kni yy yyA d j u s t e d R K為自變量的個(gè)數(shù), n為觀 測(cè)量數(shù)目。自變

10、量的個(gè)數(shù) 大于 時(shí),其值小于判定系 數(shù)。自變量個(gè)數(shù)越多,與 判定系數(shù)的差值越大。 ( 3)零階相關(guān)系數(shù)、部分相關(guān)與偏相關(guān)系數(shù) 零階相關(guān)系數(shù)( Zero Order)計(jì)算所有自變量與因 變量之間的簡(jiǎn)單相關(guān)系數(shù)。 部分相關(guān)( Part Correlation)表示:在排除了其他自 變量對(duì) xi的影響后,當(dāng)一個(gè)自變量進(jìn)入回歸方程模型 后,復(fù)相關(guān)系數(shù)的平均增加量。 偏相關(guān)系數(shù)( Partial Correlation )表示:在排除了 其他變量的影響后;自變量 Xi與因變量 y之間的相關(guān) 程度。部分相關(guān)系數(shù)小于偏相關(guān)系數(shù)。偏相關(guān)系數(shù)也 可以用來(lái)作為篩選自變量的指標(biāo),即通過(guò)比較偏相關(guān) 系數(shù)的大小

11、判別哪些變量對(duì)因變量具有較大的影響力。 3、多元線性回歸分析的檢驗(yàn) 建立了多元回歸方程后,需要進(jìn)行顯著性檢 驗(yàn),以確認(rèn)建立的數(shù)學(xué)模型是否很好的擬和 了原始數(shù)據(jù),即該回歸方程是否有效。利用 殘差分析,確定回歸方程是否違反了假設(shè)理 論。對(duì)各自變量進(jìn)行檢驗(yàn)。 其假設(shè)是總體的 回歸方程自變量系數(shù)或常數(shù)項(xiàng)為 0。 以便在回 歸方程中保留對(duì)因變量 y值預(yù)測(cè)更有效的自變 量。以便確定數(shù)學(xué)模型是否有效。 ( l)方差分析 多元回歸方程也采用方差分析方法對(duì)回歸方程進(jìn)行 檢驗(yàn), 檢驗(yàn)的 H0假設(shè)是總體的回歸系數(shù)均為 0(無(wú)效 假設(shè)), H1假設(shè)是總體的回歸系數(shù)不全為 0(備選假 設(shè))。 它是對(duì)整個(gè)回歸方程

12、的顯著性檢驗(yàn)。使用統(tǒng) 計(jì)量 F進(jìn)行檢驗(yàn)。原理與一元回歸的方程分析原理相 同。 )1( )( )( MS 2 i 2 i pnyy yy F MS 殘差 回歸 ( 2)偏回歸系數(shù)與常數(shù)項(xiàng)的檢驗(yàn) 在多元回歸分析中,可能有的自變量對(duì)因變 量的影響很強(qiáng),而有的影響很弱,甚至完全 沒(méi)有作用,這樣就有必要對(duì)自變量進(jìn)行選擇, 使回歸方程中只包含對(duì)因變量有統(tǒng)計(jì)學(xué)意義 的自變量; 檢驗(yàn)的假設(shè)是:各自變量回歸系數(shù)為 0,常數(shù) 項(xiàng)為 0。它使用的統(tǒng)計(jì)量是 t; t=偏回歸系數(shù) /偏回歸系數(shù)的標(biāo)準(zhǔn)誤 ( 3)方差齊性檢驗(yàn) 方差齊性是指殘差的分布是常數(shù),與預(yù)測(cè)變 量或因變量無(wú)關(guān)。即殘差應(yīng)隨機(jī)的

13、分布在一 條穿過(guò) 0點(diǎn)的水平直線的兩側(cè)。在實(shí)際應(yīng)用中, 一般是繪制因變量預(yù)測(cè)值與學(xué)生殘差的散點(diǎn) 圖。在線性回歸 Plots對(duì)話框中的源變量表中 , 選擇 SRESID(學(xué)生氏殘差)做 Y軸;選擇 ZPRED(標(biāo)準(zhǔn)化預(yù)測(cè)值)做 X軸就可以在執(zhí) 行后的輸出信息中顯示檢驗(yàn)方差齊性的散點(diǎn) 圖。 共線性診斷 在回歸方程中,雖然各自變量對(duì)因變量都是有意義的, 但 某些自變量彼此相關(guān),即存在共線性的問(wèn)題。 給 評(píng)價(jià)自變量的貢獻(xiàn)率帶來(lái)困難。因此,需要對(duì)回歸方 程中的變量進(jìn)行共線性診斷;并且確定它們對(duì)參數(shù)估 計(jì)的影響。 當(dāng)一組自變量精確共線性時(shí),必須刪除引起共線性 的一個(gè)和多個(gè)自變量,否則不存在系數(shù)唯一的

14、最小 二乘估計(jì)。因?yàn)閯h除的自變量并不包含任何多余的 信息,所以得出的回歸方程并沒(méi)有失去什么。當(dāng)共 線性為近似時(shí),一般是將引起共線性的自變量刪除, 但需要掌握的原則是:務(wù)必使丟失的信息最少。 進(jìn)行共線性論斷常用的參數(shù)有 ( l)容許度( Tolerance) 在只有兩個(gè)自變量的情況下,自變量 X1與 X2之間共 線性體現(xiàn)在兩變量間相關(guān)系數(shù) r12上。精確共線性時(shí) 對(duì)應(yīng) r122 1,當(dāng)它們之間不存在共線性時(shí) r122 0。 r122越接近于 1,共線性越強(qiáng)。 多于兩個(gè)自變量的情況, Xi與其他自變量 X之間的復(fù) 相關(guān)系數(shù)的平方體現(xiàn)其共線性,稱(chēng)它為 Ri2。它的 值 越接近 1,說(shuō)明自變

15、量之間的 共線性程度越大 。 容許度定義為 Toli l一 Ri2 當(dāng)容許度的值較小時(shí),自變量 Xi 與其他自變量 X之間 存在共線性。 使用容許度作為共線性量度指標(biāo)的條件是,觀測(cè)量 應(yīng)大致近似于正態(tài)分布,但在大多數(shù)情況下觀測(cè)量的 正態(tài)分布的假設(shè)是不被接受的。而且,由于容許度中 相關(guān)系數(shù)對(duì)極端值極為敏感 , 所以用它來(lái)作為共線性 的量度指標(biāo)是不適合的。 ( 2)方差膨脹因子( VIF) 方差膨脹因于( VIF)定義為 VIF 1/(l一 Ri2 ),即它是 容許度的倒數(shù)。 它的值越大,自變量之間存在共線性的 可能性越大。 ( 3)條件參數(shù)( Condition Index) 條件參

16、數(shù)是在計(jì)算特征值時(shí)產(chǎn)生的一個(gè)統(tǒng)計(jì)量,其具體 含義尚不大清楚,但己經(jīng)提出一些原則: 其數(shù)值越大, 說(shuō)明自變量之間的共線性的可能性越大; 有些學(xué)者提議, 條件參數(shù) 30時(shí)認(rèn)為有共線性存在的可能性,但理論上 并沒(méi)有得到證明。 特征值( Eigenvalue)如果很小,就 應(yīng)該懷疑共線性的存在。 例 題 Data09-03美國(guó)某銀行雇員情況調(diào)查,建立一 個(gè)使用初始工資( salbegin)、工作經(jīng)驗(yàn) ( prevexp)、工作時(shí)間( jobtime)、工作 類(lèi)型( jobcat)、受教育年限( educ)預(yù)測(cè) 當(dāng)前工資( salary)的回歸方程。 1變量間線性關(guān)系的初步探索 在獲得數(shù)據(jù)后

17、,應(yīng)將所得到的數(shù)據(jù)繪圖,探索因變量 隨自變量變化的趨勢(shì)。以便確定數(shù)據(jù)是否適合線性模 型。如果數(shù)據(jù)之間大致呈線性關(guān)系,可以建立線性回 歸方程。如果圖中數(shù)據(jù)不呈線性分布,那么還可以根 據(jù)其他回歸方程模型的觀測(cè)量分布圖形特點(diǎn)以及建立 各方程后所得的判定系數(shù) R2進(jìn)行比較后確定一種最 佳模型。見(jiàn)曲線擬合及非線性回歸。 通過(guò)散點(diǎn)圖還可以發(fā)現(xiàn)奇異值,如圖中畫(huà)圈的觀測(cè)值 要認(rèn)真檢查數(shù)據(jù)的合理性。 2、選擇自變量和因變量 3、選擇回歸分析方法 Enter選項(xiàng),強(qiáng)行進(jìn)入 法 ,即所選擇的自變量 全部進(jìn)人回歸模型,該 選項(xiàng)是默認(rèn)方式。 Remove選項(xiàng),消去法, 建立的回歸方程時(shí),根 據(jù)設(shè)定的條件剔除

18、部分 自變量。 Forward選項(xiàng),向前選擇 法, 根據(jù)在 option對(duì)話框中 所設(shè)定的判據(jù),從無(wú)自變 量開(kāi)始。在擬合過(guò)程中, 對(duì)被選擇的自變量進(jìn)行方 差分析,每次加入一個(gè) F值 最大的變量,直至所有符 合判據(jù)的變量都進(jìn)入模型 為止。第一個(gè)引入歸模型 的變量應(yīng)該與因變量間相 關(guān)系數(shù)絕對(duì)值最大。 Backward選項(xiàng),向后 剔除法 ,根據(jù)在 option 對(duì)話框中所設(shè)定的判據(jù), 先建立全模型,然后根 據(jù)設(shè)置的判據(jù),每次剔 除一個(gè)使方差分析中的 F值最小的自變量,直 到回歸方程中不再含有 不符合判據(jù)的自變量為 止。 Stepwise選項(xiàng),逐步進(jìn)入法 ,它 是向前選擇變量法與向后剔除變

19、量 方法的結(jié)合。根據(jù)在 option對(duì)話框 中所設(shè)定的判據(jù),首先根據(jù)方差分 析結(jié)果選擇符合判據(jù)的自變量且對(duì) 因變量貢獻(xiàn)最大的進(jìn)入回歸方程。 根據(jù)向前選擇變量法則選入變量。 然后根據(jù)向后剔除法,將模型中 F 值最小的且符合剔除判據(jù)的變量剔 除出模型,重復(fù)進(jìn)行直到回歸方程 中的自變量均符合進(jìn)入模型的判據(jù), 模型外的自變量都不符合進(jìn)入模型 的判據(jù)為止。 4、選擇參與回歸的觀測(cè)量 根據(jù)變量值選擇參與回 歸分析的觀測(cè)量,將作 為參照的變量進(jìn)入 Selection Variable框中, 單擊 Rule按鈕。打開(kāi) Set Rule對(duì)話框。 5、 Statistics按鈕 Estimates:輸

20、出回歸系數(shù) B、 B的標(biāo)準(zhǔn)誤、標(biāo)準(zhǔn)回歸 系數(shù) beta、 B的 t值及 t值的雙側(cè)檢驗(yàn)的顯著性水平; Confidence interval:輸出每一個(gè)非標(biāo)準(zhǔn)化回歸系數(shù) 95的可信區(qū)間; Covariance maxtrix:輸出非標(biāo)準(zhǔn)化回歸系數(shù)的協(xié)方 差矩陣、各變量的相關(guān)系數(shù)矩陣; Model fit(模型擬合):輸出引入模型與從模型中剔除的變量, 提供復(fù)相關(guān)系數(shù) R, R2及其修正值,估計(jì)值的標(biāo)準(zhǔn)誤,方差分 析表; R squared change:表示回歸方差中引入或剔除一個(gè)自變量后 的 R2變化量; Descriptives:輸出合法觀測(cè)量的數(shù)目、變量的平均值、標(biāo)準(zhǔn)差、 相關(guān)

21、系數(shù)矩陣和單側(cè)檢驗(yàn)顯著性水平 Part and partial correlations:輸出部分相關(guān)系數(shù)、偏相關(guān) 系數(shù)、零階相關(guān)系數(shù); Collinearity diagnostics:輸出方差膨脹因子及特征值; Durbin Watson:輸出 Durbin Watson統(tǒng)計(jì)量及可能的 奇異值; Casewise diagnostics:輸出觀測(cè)量檢測(cè)表; 6、 plot按鈕 Dependent:因變量; ZPRED:標(biāo)準(zhǔn)化預(yù)測(cè)值 ZRESID:標(biāo)準(zhǔn)化殘差 DRESID:剔除殘差 ADJPRED:修正后預(yù)測(cè)值 SRESID:學(xué)生化殘差 SDRESID:學(xué)生化剔除殘差

22、 Histogrom:輸出帶有正態(tài)曲 線的標(biāo)準(zhǔn)化殘差的直方圖; Normal probability plot:殘 差的正態(tài)概率圖,檢查殘差 的正態(tài)性; Produce all partial plots:輸 出一個(gè)自變量殘差相對(duì)于因 變量殘差的散布圖。 Option按鈕 Stepping method criteria(設(shè) 置變量引入模型或從模型中 剔除的判據(jù) ) Use probability of F:采用 F 概率作為變量引入模型或從 模型中剔除的判據(jù)。 Entry: 0.05當(dāng)一個(gè)變量的 sigT值 0.05時(shí)該變量被引入 方程; Removal: 0.10當(dāng)一個(gè)變量

23、的 sigT值 0.10時(shí)該變量從回 歸方程剔除。 Use F values(采用 F值作為 變量引入模型或從模型中剔 除的判據(jù)) Entry: 0.05當(dāng)一個(gè)變量的 sigF值 3.84時(shí)該變量被引入 方程; Removal: 0.10當(dāng)一個(gè)變量 的 sigF值 2.71時(shí)該變量從回 歸方程剔除。 練習(xí)題 為研究男性高血壓患者血壓與年齡、身高、 體重等變量間的關(guān)系,隨機(jī)測(cè)量了 32名 40歲 以上的男性患者的血壓、年齡、體重以及吸 煙史(過(guò)去吸煙或現(xiàn)在吸煙設(shè)置為 1,不吸煙 為 0)。試建立回歸方程。 Mreg2.sav 二、曲線回歸分析 線性回歸可以滿足許多數(shù)據(jù)分析,然而線性

24、 回歸不會(huì)對(duì)所有的問(wèn)題都適用,有時(shí)因變量 與自變量是通過(guò)一個(gè)已知或未知的非線性函 數(shù)關(guān)系相聯(lián)系。盡管有可能通過(guò)一些函數(shù)的 轉(zhuǎn)換方法,在一定范圍內(nèi)將它們轉(zhuǎn)變?yōu)榫€性 關(guān)系,但這種轉(zhuǎn)換有可能導(dǎo)致更為復(fù)雜的計(jì) 算或數(shù)據(jù)失真。 在很多情況下有兩個(gè)相關(guān)的變量,用戶希望 利用其中的一個(gè)變量對(duì)另一個(gè)變量進(jìn)行預(yù)測(cè), 此時(shí)可采用的方法也很多;從簡(jiǎn)單的直線模 型到復(fù)雜的時(shí)間序列模型。如果不能馬上根 據(jù)觀測(cè)量數(shù)據(jù)確定一種最佳模型,可以利用 曲線估計(jì)在眾多的回歸模型中來(lái)建立一個(gè)簡(jiǎn) 單而又比較適合的模型。 例 題 汽車(chē)每加侖汽油行駛的里程數(shù)( mpg)與汽 車(chē)重量( weight)建立回歸方程。 Data13

25、 01 線形回歸方程 Y=b0+b1X 二次回歸方程 Y=b0+b1X+b2X2 復(fù)合曲線回歸方程 Y=b0(b1X) 等比級(jí)數(shù)曲線回歸方程 對(duì)數(shù)回歸方程 三次回歸方程 Y=b0+b1X+b2X2+b3X3 三、 Logistic回歸分析 多元線性回歸要求 Y是呈正態(tài)分布的連續(xù)型隨機(jī)變量。 難以處理因變量為二值變量的情況。 在醫(yī)學(xué)中,存在 很多二值化的狀態(tài),比如生存與死亡、感染與不感 染、有效與無(wú)效、患病與不患病等等。這時(shí),我們 往往要分析生存與死亡或感染與不感染與哪些因素 有關(guān)。而這些因素(自變量)可能是二值數(shù)據(jù)或等 級(jí)分組資料或是計(jì)量資料,此時(shí),可以使用 logistic 回歸來(lái)分

26、析因變量(二值變量)與自變量的關(guān)系。 logistic回歸的基本概念: 設(shè) P表示某事件發(fā)生的概率,取值范圍為 0 1, 1 P 是該事件不發(fā)生的概率,將比值 P/( 1 P)取自然 對(duì)數(shù)得 ln(P/1 P),即對(duì) P作 logit轉(zhuǎn)換,記為 logitP, 則 logitP的取值范圍在 - , + 之間。以 logitP為因變 量,建立線形回歸方程: logitP =b0+bixi p=exp( b0 +bixi) /1+ exp (b0 +bixi) OR=e=exp 可見(jiàn): b0表示一個(gè)不接觸危險(xiǎn)因素(自變量 取值全為 0時(shí))的個(gè)體發(fā)病(死亡或感染)的 比值的對(duì)數(shù)。

27、 b0是常數(shù)。 bi 表示危險(xiǎn)因素改變一個(gè)單位時(shí),比值的對(duì) 數(shù)的改變量。在實(shí)際比較 xi對(duì)比值的對(duì)數(shù)影響 時(shí),應(yīng)使用標(biāo)準(zhǔn)化的系數(shù),以克服自變量不 同量綱的影響。 bi稱(chēng)為 logistic回歸系數(shù)。 數(shù)據(jù)背景( data13-02) 北京醫(yī)科大學(xué)附屬人民醫(yī)院內(nèi)分泌科盧紋凱教授課題。 頸總動(dòng)脈中層厚度 imt0.8mm或有斑塊定義為動(dòng)脈硬 化,因變量 type值為 1;非硬化 imt 0.8mm且無(wú)斑塊, 因變量 type值為 0。糖尿病患者 123例數(shù)據(jù)。研究哪 些指標(biāo)可以判斷糖尿病患者是否動(dòng)脈硬化。自變量 AGE年齡、 ALB尿白蛋白、 BMI體重指數(shù)、 ISI胰島素 敏感指數(shù)、 SBP收縮壓、 TG甘油三脂、 CHO膽固醇、 DURA糖尿病程。其中尿白蛋白、甘油三脂、膽固醇 三項(xiàng)生化指標(biāo)在回歸估計(jì)過(guò)程中均使用他們的對(duì)數(shù)變 量: ALBLN、 TGLN、 CHOLN。

展開(kāi)閱讀全文
溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!