主題六、相關、迴歸與預測 主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士 1 2022/10/5 政治學研究方法班 講授主題 一、預測與變數之間的關係 二、最小平方迴歸線 三、預測的誤差 四、OLS的特性 2 五、迴歸模型中的適合度檢定 政治學研究方法班 2022/10/5 迴歸的使用時機 3 當我們的依變數是數字資料,自變數是類別或是 數字資料,可以使用迴歸分析。 以模型中的自變數的變化情況,來解釋或是預測 依變數的變化情況。 政治學研究方法班 2022/10/5 線性函數的例子一 Y=3+2X Y 18 15 12 9 6 3 X 0 0 4 1 2 3 政治學研究方法班 4 5 6 2022/10/5 圖7.1 Y β 1 Y X α+β α X 1 5 2 3 4 5 政治學研究方法班 6 7 8 9 10 2022/10/5 線性函數 自變數 依變數 截距 斜率 X軸 Y軸 6 政治學研究方法班 2022/10/5 斜率與回歸線方向 Y β>0 β=0 β<0 X 7 政治學研究方法班 2022/10/5 一、李登輝與國民黨 民眾對李登輝(X)與國民黨(Y)評價之關 聯性: r = = 8 xy x 2 y 2 (8.20) nXY ( X )( Y ) [nX ( X ) ][nY ( Y ) ] =654 / 1304 836 =0.626 2 2 政治學研究方法班 2 2 (8.21) 2022/10/5 皮爾森積差相關係數的計算與解釋實例 Y X 乘積 均差 資料 80 65 50 60 x =X- X 20 -10 36 35 58 y =Y- Y xy 15 300 400 225 10 -100 100 100 -24 -15 360 576 225 39 -2 -11 22 4 121 72 48 12 -2 -24 144 4 60 44 0 -6 0 0 36 56 48 -4 -2 8 16 4 68 61 8 11 88 xy 64 121 X =60 Y =50 654 9 y2 x2 政治學研究方法班 x2 1304 y2 836 2022/10/5 以圖形表示變數之間的關係 國民黨 100 90 對李登輝與對國民黨評價的散佈圖 民眾對李登輝(X)與國民黨(Y)評價之關 聯性的散佈圖: 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 100 李登輝 10 政治學研究方法班 2022/10/5 幾種圖形的可能 1.一直線 2.一團線 3.其他情況 4.方向 5.強弱 6.關聯性與預測 11 政治學研究方法班 2022/10/5 迴歸分析基本邏輯 以模型中的自變數(對李登輝評價_X)的變化情況, 來解釋或是預測依變數(對國民黨評價_Y)的變化 情況。 我們想找到一條預測的迴歸線,將我們觀察值與對國 民黨評價的預測值之間的誤差平方,降到最低。則這 一條就是所謂的最小平方迴歸線(least-squares regression line ),這種估計方法,就是所謂的普通 最小平方法(ordinary least squares method, OLS method)。 12 政治學研究方法班 2022/10/5 二、最小平方迴歸線 Y 0 1 X 1 13 (10.1) (8.26) Y是我們的依變數,對李登輝總統的評價。 X1是我們的自變數或是解釋變數,是一個用來解釋影響李登 輝先生評價的因素。 β0是迴歸方程式中的常數項,它的定義是當我們把其他解釋 變數的值設定為0時,依變數,Y,的平均值。 β1是解釋變數X1的係數,他表示當X1每變動1單位時,Y變 動的量。 ε則是我們模型中的誤差項,當誤差愈小,表示我們的模型 愈能夠正確地預測我們的依變數。 政治學研究方法班 2022/10/5 預測的方程式 y x (( x x ) * ( y y )) (x x) 2 y x 14 政治學研究方法班 2022/10/5 迴歸估計結果 Yˆ 19.88 0.502 X 1 (10.7) R 2 =0.392 (10.8) 15 政治學研究方法班 2022/10/5 迴歸的解釋與預測之實例 16 當民眾對李登輝的評價為0的時候,我們預測他對國 民黨的評價為19.88分 當民眾對李登輝的評價每增加1分,他的對國民黨的 評價就會增加0.502分 當一個民眾對李登輝的評價是60分的時候,我們預 測他對國民黨的評價分數就是50分 政治學研究方法班 2022/10/5 迴歸模型的適合度—R-Square 其分佈介於0到1之間,被稱之為模型解釋變異量。 R 17 2 = ˆ ( Y Y ) (Y Y ) 2 2 政治學研究方法班 (10.10) 2022/10/5 R-Square的定義 1.(樣本的)決定係數 2.模型解釋變異量(百分比) 3.自變數對依變數的影響力 4.(測量)誤差量 18 政治學研究方法班 2022/10/5 三、預測的誤差 Y 0 1 X 1 (10.1) (8.26) ε是我們模型中的誤差項,當誤差愈小,表示 我們的模型愈能夠正確地預測我們的依變數。 ˆ Y Yˆ 19 政治學研究方法班 2022/10/5 迴歸估計的標準誤S.E.E. ˆ 20 2 ˆ N 2 2 ˆ ( Y Y ) N 2 ( y 2 政治學研究方法班 ( xy) 2 x 2 ) N 2 2022/10/5 估計的標準誤的使用 S.E.E.告訴我們模型預測的精確程度,當它愈小,代 表我們做的預測更精確,也讓我們更有信心。 Achen (1982: 62)認為,因為S.E.E.不受解釋變數的變 異程度大小而影響且它的單位與依變數相同,所以, 是一個比較好的模型適合度的判斷標準。 21 政治學研究方法班 2022/10/5 四、OLS的特性 當OLS對是最佳線性無偏估計(Best Linear Unbiased Estimator, BLUE),它具有以下 幾個特性: 它對一個隨機變數是具有線性關係 它是一個無偏估計。 它的變異數最小-是最有效率的估計量。 22 政治學研究方法班 2022/10/5 OLS重要的假設 1. 依變數與解釋變數之間的關係是線性關係。 2. 誤差項的期望值為 0-- E ( ) 0 。 3. 誤差項的條件變異數均相同,具變異數齊一性(homoskedasticity)﹔誤差項之 間彼此獨立,無「自我相關」(autocorrelation): 4. 自變數為重複抽樣中固定的(fixed in repeated samples)觀察值,而依變數為 隨機變數。 5. 自變數之間彼此無線性關係。 6. 樣本數(n)大於自變數(k): n>=k+1。 7. 解釋變數須不為常數。 迴歸的模型設定(model specification)必須正確。 23 政治學研究方法班 2022/10/5 線性關係 24 政治學研究方法班 2022/10/5 誤差項的期望值為0 25 政治學研究方法班 2022/10/5 誤差項的條件變異數均相同 26 政治學研究方法班 2022/10/5 誤差項的條件變異數不相同 27 政治學研究方法班 2022/10/5 誤差項無自我相關 28 政治學研究方法班 2022/10/5 自變數為重複抽樣固定觀察值,依變數為隨 機變數 29 政治學研究方法班 2022/10/5 自變數之間彼此無線性關係 下次將會詳細說明 30 政治學研究方法班 2022/10/5 樣本數(n)大於自變數(k): n>=k+1 不然如何解釋 31 政治學研究方法班 2022/10/5 解釋變數須不為常數 常數當然無法解釋變數 32 政治學研究方法班 2022/10/5 模型經適當設定 不忽略重要變數、函數正確 33 政治學研究方法班 2022/10/5 五、迴歸模型中的適合度檢定 1.我們要看迴歸方程式中,單一解釋變數,是否 顯著,則用t 檢定。所以,該變數的估計係數與 該估計係數的標準誤,決定t 檢定的結果。 2.如果我們要考慮加入一個或是一組新變數,對 於模型的解釋力有沒有「顯著」提升,此時,可 以用 F 檢定。 3.如果要同時考慮好幾個變數,則個別變數顯著 與否,可以參考t 檢定,整組變數(整個模型) 是某顯著,則可參考F 檢定。 34 政治學研究方法班 2022/10/5 迴歸模型的各種資訊 1.R-Square/Adjuested R-Square 2. F -test 3.SEE (Standard Error of Estimator) 4. B /(S.E.)/t -value 5. Standardized B (Beta) 35 政治學研究方法班 2022/10/5 SPSS的簡單迴歸模型操作 基本問題: 政治信任是人民對於政府的信念(faith),影響的 因素可以從三個角度討論。首先是個人政治社會 化的過程、其次是政府或是政治人物的表現,第 三個因素則是制度安排。本研究針對民眾對國民 黨的喜好程度以及對於馬英九的喜好度,檢視政 治社會化以及對政治人物好惡,是否影響其政治 信任。 36 政治學研究方法班 2022/10/5 指標建構 本研究運用以上資料建構一個政治信任的指標,數值 愈大,表示信任程度愈高。數值經過重新編碼,每 一題以1表示信任感相當低,4表示信任感極高,四 個題目取其平均值,新的數值分佈介於1到3.5之間, 平均數為2.17標準差為0.44,內在一致信的信度檢 定結果(Cronbach’s α)為0.60。 37 政治學研究方法班 2022/10/5 自變數 對執政黨的喜好程度: N2—0~10 J6C—0~10 其他數值改為系統遺漏值(system missing) 38 政治學研究方法班 2022/10/5 迴歸模型的操作 Analyze Regression Linear 先放入依變數:D7NS4 自變數:N2N 39 政治學研究方法班 2022/10/5 對執政黨好惡與政治信任 研究假設: 從政治社會化的角度出發,本研究認為:民眾 對於執政黨的好惡,會影響其政治信任。 統計虛無假設: 統計對立假設: 40 政治學研究方法班 2022/10/5 對執政黨好惡與政治信任的估計結果 表一 對國民黨喜好度與政治信任 估計係數 (標準誤) 常數 1.909 *** (0.023) 對國民黨喜歡程度 0.051 *** (0.004) 模型資訊 樣本數 1,745 2 R 0.085 估計的標準誤 SEE 0.42 資料來源:游清鑫,(2009)。 說明:1.政治信任係由四個變數建構而成,詳細情 況請參閱附錄。 2.***:p<0.001。 41 政治學研究方法班 2022/10/5 對執政黨好惡與政治信任的模型解釋 統計解釋: 從表一中可以發現:民眾對國民黨的喜好程度, 對其政治信任具有顯著影響力。 42 政治學研究方法班 2022/10/5 對執政黨好惡與政治信任的模型解釋 研究論文: 本研究運用四個變數建構的政治信任量表,並 進一步分析民眾對於執政黨的好惡情況會不 會影響其政治信任。表一中發現:民眾對國 民黨的喜好程度,對於民眾政治信任具有顯 著影響。民眾對國民黨的好惡程度愈高,其 政治信任愈高。當民眾對國民黨的喜好程度 每增加一個單位,其政治信任就增加0.051單 位。 43 政治學研究方法班 2022/10/5 迴歸模型的操作 Analyze Regression Linear 先放入依變數:D7NS4 自變數:J6C 44 政治學研究方法班 2022/10/5 對執政黨好惡與政治信任 研究假設: 從政治究責(accountability)出發,本研究認 為:民眾對於執政者的好惡,會影響其政治 信任。 統計虛無假設: 統計對立假設: 45 政治學研究方法班 2022/10/5 對馬英九好惡與政治信任的估計結果 表二 對馬英九喜好度與政治信任 估計係數 (標準誤) 常數 1.882 *** (0.025) 對馬英九喜歡程度 0.048 *** (0.004) 模型資訊 樣本數 1,733 R2 0.083 估計的標準誤 SEE 0.42 資料來源:游清鑫,(2009)。 說明:1.政治信任係由四個變數建構而成,詳細情況請參閱 附錄。 46 2.***:p<0.001。 政治學研究方法班 2022/10/5 對馬英九好惡與政治信任的模型解釋 統計解釋: 從表一中可以發現:民眾對馬英九的好惡程度, 對其政治信任具有顯著影響力。 47 政治學研究方法班 2022/10/5 對執政黨好惡與政治信任的模型解釋 研究論文: 本研究運用四個變數建構的政治信任量表,並 進一步分析民眾對於執政黨的好惡情況會不 會影響其政治信任。表二中發現:民眾對馬 英九的喜好程度,對於民眾政治信任具有顯 著影響。民眾對馬英九的喜好程度愈高,其 政治信任愈高。當民眾對馬英九的喜好程度 每增加一個單位,其政治信任就增加0.048單 位。 48 政治學研究方法班 2022/10/5 尋找研究問題 政治信任 政治支持 影響因素(起源) 政治重要(後果) 49 政治學研究方法班 2022/10/5