Uploaded by Scott Wang

Correlation, Regression and Forecasting

advertisement
主題六、相關、迴歸與預測
主講人
陳陸輝 特聘研究員兼主任
政治大學選舉研究中心
美國密西根州立大學博士
1
2022/10/5
政治學研究方法班
講授主題
一、預測與變數之間的關係
二、最小平方迴歸線
三、預測的誤差
四、OLS的特性
2
五、迴歸模型中的適合度檢定
政治學研究方法班
2022/10/5
迴歸的使用時機
3

當我們的依變數是數字資料,自變數是類別或是
數字資料,可以使用迴歸分析。

以模型中的自變數的變化情況,來解釋或是預測
依變數的變化情況。
政治學研究方法班
2022/10/5
線性函數的例子一
Y=3+2X
Y
18
15
12
9
6
3
X
0
0
4
1
2
3
政治學研究方法班
4
5
6
2022/10/5
圖7.1
Y
β
1
Y    X 
α+β
α
X
1
5
2
3
4
5
政治學研究方法班
6
7
8
9
10
2022/10/5
線性函數
自變數
依變數
截距
斜率
X軸
Y軸
6
政治學研究方法班
2022/10/5
斜率與回歸線方向
Y
β>0
β=0
β<0
X
7
政治學研究方法班
2022/10/5
一、李登輝與國民黨
民眾對李登輝(X)與國民黨(Y)評價之關
聯性:
r =
=
8
 xy
x
2
y
2
(8.20)
nXY  ( X )( Y )
[nX  ( X ) ][nY  ( Y ) ]
=654 / 1304 836 =0.626
2
2
政治學研究方法班
2
2
(8.21)
2022/10/5
皮爾森積差相關係數的計算與解釋實例
Y
X
乘積
均差
資料
80
65
50
60
x =X- X
20
-10
36
35
58
y =Y- Y
xy
15
300
400
225
10
-100
100
100
-24
-15
360
576
225
39
-2
-11
22
4
121
72
48
12
-2
-24
144
4
60
44
0
-6
0
0
36
56
48
-4
-2
8
16
4
68
61
8
11
88
 xy 
64
121
X =60 Y =50
654
9
y2
x2
政治學研究方法班
 x2 
1304
 y2 
836
2022/10/5
以圖形表示變數之間的關係
國民黨
100
90
對李登輝與對國民黨評價的散佈圖
民眾對李登輝(X)與國民黨(Y)評價之關
聯性的散佈圖:
80
70
60
50
40
30
20
10
0
0
10
20
30
40
50
60
70
80
90
100
李登輝
10
政治學研究方法班
2022/10/5
幾種圖形的可能
1.一直線
2.一團線
3.其他情況
4.方向
5.強弱
6.關聯性與預測
11
政治學研究方法班
2022/10/5
迴歸分析基本邏輯
以模型中的自變數(對李登輝評價_X)的變化情況,
來解釋或是預測依變數(對國民黨評價_Y)的變化
情況。
我們想找到一條預測的迴歸線,將我們觀察值與對國
民黨評價的預測值之間的誤差平方,降到最低。則這
一條就是所謂的最小平方迴歸線(least-squares
regression line ),這種估計方法,就是所謂的普通
最小平方法(ordinary least squares method, OLS
method)。
12
政治學研究方法班
2022/10/5
二、最小平方迴歸線
Y   0  1 X 1  





13
(10.1)
(8.26)
Y是我們的依變數,對李登輝總統的評價。
X1是我們的自變數或是解釋變數,是一個用來解釋影響李登
輝先生評價的因素。
β0是迴歸方程式中的常數項,它的定義是當我們把其他解釋
變數的值設定為0時,依變數,Y,的平均值。
β1是解釋變數X1的係數,他表示當X1每變動1單位時,Y變
動的量。
ε則是我們模型中的誤差項,當誤差愈小,表示我們的模型
愈能夠正確地預測我們的依變數。
政治學研究方法班
2022/10/5
預測的方程式
y    x
(( x  x ) * ( y  y ))


 (x  x)
2
  y  x
14
政治學研究方法班
2022/10/5
迴歸估計結果
Yˆ  19.88  0.502 X 1 (10.7)
R 2 =0.392
(10.8)
15
政治學研究方法班
2022/10/5
迴歸的解釋與預測之實例



16
當民眾對李登輝的評價為0的時候,我們預測他對國
民黨的評價為19.88分
當民眾對李登輝的評價每增加1分,他的對國民黨的
評價就會增加0.502分
當一個民眾對李登輝的評價是60分的時候,我們預
測他對國民黨的評價分數就是50分
政治學研究方法班
2022/10/5
迴歸模型的適合度—R-Square
其分佈介於0到1之間,被稱之為模型解釋變異量。
R
17
2
=
ˆ
(
Y
 Y )
 (Y  Y )
2
2
政治學研究方法班
(10.10)
2022/10/5
R-Square的定義
1.(樣本的)決定係數
2.模型解釋變異量(百分比)
3.自變數對依變數的影響力
4.(測量)誤差量
18
政治學研究方法班
2022/10/5
三、預測的誤差
Y   0  1 X 1  
(10.1)
(8.26)
ε是我們模型中的誤差項,當誤差愈小,表示
我們的模型愈能夠正確地預測我們的依變數。
ˆ  Y  Yˆ
19
政治學研究方法班
2022/10/5
迴歸估計的標準誤S.E.E.
ˆ 
20
2
ˆ


N 2

2
ˆ
(
Y

Y
)

N 2
 ( y 2 
政治學研究方法班
( xy) 2
x
2
)
N 2
2022/10/5
估計的標準誤的使用
S.E.E.告訴我們模型預測的精確程度,當它愈小,代
表我們做的預測更精確,也讓我們更有信心。
Achen (1982: 62)認為,因為S.E.E.不受解釋變數的變
異程度大小而影響且它的單位與依變數相同,所以,
是一個比較好的模型適合度的判斷標準。
21
政治學研究方法班
2022/10/5
四、OLS的特性
當OLS對是最佳線性無偏估計(Best Linear
Unbiased Estimator, BLUE),它具有以下
幾個特性:
 它對一個隨機變數是具有線性關係
 它是一個無偏估計。
 它的變異數最小-是最有效率的估計量。
22
政治學研究方法班
2022/10/5
OLS重要的假設
1. 依變數與解釋變數之間的關係是線性關係。
2. 誤差項的期望值為 0-- E ( )  0 。
3. 誤差項的條件變異數均相同,具變異數齊一性(homoskedasticity)﹔誤差項之
間彼此獨立,無「自我相關」(autocorrelation):
4. 自變數為重複抽樣中固定的(fixed in repeated samples)觀察值,而依變數為
隨機變數。
5. 自變數之間彼此無線性關係。
6. 樣本數(n)大於自變數(k): n>=k+1。
7. 解釋變數須不為常數。
迴歸的模型設定(model specification)必須正確。
23
政治學研究方法班
2022/10/5
線性關係
24
政治學研究方法班
2022/10/5
誤差項的期望值為0
25
政治學研究方法班
2022/10/5
誤差項的條件變異數均相同
26
政治學研究方法班
2022/10/5
誤差項的條件變異數不相同
27
政治學研究方法班
2022/10/5
誤差項無自我相關
28
政治學研究方法班
2022/10/5
自變數為重複抽樣固定觀察值,依變數為隨
機變數
29
政治學研究方法班
2022/10/5
自變數之間彼此無線性關係
下次將會詳細說明
30
政治學研究方法班
2022/10/5
樣本數(n)大於自變數(k): n>=k+1
不然如何解釋
31
政治學研究方法班
2022/10/5
解釋變數須不為常數
常數當然無法解釋變數
32
政治學研究方法班
2022/10/5
模型經適當設定
不忽略重要變數、函數正確
33
政治學研究方法班
2022/10/5
五、迴歸模型中的適合度檢定
1.我們要看迴歸方程式中,單一解釋變數,是否
顯著,則用t 檢定。所以,該變數的估計係數與
該估計係數的標準誤,決定t 檢定的結果。
2.如果我們要考慮加入一個或是一組新變數,對
於模型的解釋力有沒有「顯著」提升,此時,可
以用 F 檢定。
3.如果要同時考慮好幾個變數,則個別變數顯著
與否,可以參考t 檢定,整組變數(整個模型)
是某顯著,則可參考F 檢定。
34
政治學研究方法班
2022/10/5
迴歸模型的各種資訊
1.R-Square/Adjuested R-Square
2. F -test
3.SEE (Standard Error of Estimator)
4. B /(S.E.)/t -value
5. Standardized B (Beta)
35
政治學研究方法班
2022/10/5
SPSS的簡單迴歸模型操作
基本問題:
政治信任是人民對於政府的信念(faith),影響的
因素可以從三個角度討論。首先是個人政治社會
化的過程、其次是政府或是政治人物的表現,第
三個因素則是制度安排。本研究針對民眾對國民
黨的喜好程度以及對於馬英九的喜好度,檢視政
治社會化以及對政治人物好惡,是否影響其政治
信任。
36
政治學研究方法班
2022/10/5
指標建構
本研究運用以上資料建構一個政治信任的指標,數值
愈大,表示信任程度愈高。數值經過重新編碼,每
一題以1表示信任感相當低,4表示信任感極高,四
個題目取其平均值,新的數值分佈介於1到3.5之間,
平均數為2.17標準差為0.44,內在一致信的信度檢
定結果(Cronbach’s α)為0.60。
37
政治學研究方法班
2022/10/5
自變數
對執政黨的喜好程度:
N2—0~10
J6C—0~10
其他數值改為系統遺漏值(system missing)
38
政治學研究方法班
2022/10/5
迴歸模型的操作
Analyze Regression Linear
先放入依變數:D7NS4
自變數:N2N
39
政治學研究方法班
2022/10/5
對執政黨好惡與政治信任
研究假設:
從政治社會化的角度出發,本研究認為:民眾
對於執政黨的好惡,會影響其政治信任。
統計虛無假設:
統計對立假設:
40
政治學研究方法班
2022/10/5
對執政黨好惡與政治信任的估計結果
表一 對國民黨喜好度與政治信任
估計係數
(標準誤)
常數
1.909 ***
(0.023)
對國民黨喜歡程度
0.051 ***
(0.004)
模型資訊
樣本數
1,745
2
R
0.085
估計的標準誤 SEE
0.42
資料來源:游清鑫,(2009)。
說明:1.政治信任係由四個變數建構而成,詳細情
況請參閱附錄。
2.***:p<0.001。
41
政治學研究方法班
2022/10/5
對執政黨好惡與政治信任的模型解釋
統計解釋:
從表一中可以發現:民眾對國民黨的喜好程度,
對其政治信任具有顯著影響力。
42
政治學研究方法班
2022/10/5
對執政黨好惡與政治信任的模型解釋
研究論文:
本研究運用四個變數建構的政治信任量表,並
進一步分析民眾對於執政黨的好惡情況會不
會影響其政治信任。表一中發現:民眾對國
民黨的喜好程度,對於民眾政治信任具有顯
著影響。民眾對國民黨的好惡程度愈高,其
政治信任愈高。當民眾對國民黨的喜好程度
每增加一個單位,其政治信任就增加0.051單
位。
43
政治學研究方法班
2022/10/5
迴歸模型的操作
Analyze Regression Linear
先放入依變數:D7NS4
自變數:J6C
44
政治學研究方法班
2022/10/5
對執政黨好惡與政治信任
研究假設:
從政治究責(accountability)出發,本研究認
為:民眾對於執政者的好惡,會影響其政治
信任。
統計虛無假設:
統計對立假設:
45
政治學研究方法班
2022/10/5
對馬英九好惡與政治信任的估計結果
表二
對馬英九喜好度與政治信任
估計係數
(標準誤)
常數
1.882
***
(0.025)
對馬英九喜歡程度
0.048
***
(0.004)
模型資訊
樣本數
1,733
R2
0.083
估計的標準誤 SEE
0.42
資料來源:游清鑫,(2009)。
說明:1.政治信任係由四個變數建構而成,詳細情況請參閱
附錄。
46
2.***:p<0.001。
政治學研究方法班
2022/10/5
對馬英九好惡與政治信任的模型解釋
統計解釋:
從表一中可以發現:民眾對馬英九的好惡程度,
對其政治信任具有顯著影響力。
47
政治學研究方法班
2022/10/5
對執政黨好惡與政治信任的模型解釋
研究論文:
本研究運用四個變數建構的政治信任量表,並
進一步分析民眾對於執政黨的好惡情況會不
會影響其政治信任。表二中發現:民眾對馬
英九的喜好程度,對於民眾政治信任具有顯
著影響。民眾對馬英九的喜好程度愈高,其
政治信任愈高。當民眾對馬英九的喜好程度
每增加一個單位,其政治信任就增加0.048單
位。
48
政治學研究方法班
2022/10/5
尋找研究問題
政治信任
政治支持
影響因素(起源)
政治重要(後果)
49
政治學研究方法班
2022/10/5
Download