3 Simple Regression
對X的簡單線性迴歸: Y = β0 + β1X + u
Y
Deriving OLS Estimates and their Algebraic Properties
最小平方法-min SSR
(Original)Least Squares Method
使殘差平方和最小的方法
目標:找出一條迴歸線使所有觀察點到該條線的的垂直距離平方和最小
假設有n個樣本: Yi = β0 + β1Xi + ϵi , i = 1, 2, 3, … , n
有很多有很多種迴歸線,但需要決定哪一條是最好的,於是使用最小平方法,找出 b0, b1使 觀察值 yi 與
預測值 y^i 之間的殘差( yi − y^i )平方和最小
推導過程:
(β^0 , β^1 ) = arg min ∑(Yi − b0 − b1 Xi )2
解一階條件:
∂SSE
ˉ =0
= −2 ∑(Yi − b0 − b1 Xi ) = 0 → n1 ∑(Yi − b0 − b1 Xi ) = 0 → Yˉ − b0 − b1 X
∂b0
ˉ
→ Yˉ = β^0 + β^1 X
ˉ
β^0 = Yˉ − β^1 X
將 β^0帶入,整理後可
∂SSE
= − ∑ Xi (Yi − b0 − b1 Xi ) = 0 → n1 ∑ Xi (Yi − b0 − b1 Xi ) = 0
∂b1
得:
ˉ )(Yi − Yˉ )
ˉ )(Yi )
ˉ Yˉ
∑(Xi − X
∑(Xi − X
∑ Xi Y i − n X
=
=
β^1 =
ˉ )2
ˉ )2
ˉ2
∑(Xi − X
∑(Xi − X
∑ Xi2 − nX
使用最小平方法求得最適 β^0, β^1後,可得估計的迴歸式: Y^i = β^0 + β^1Xi ,可計算殘差
(Residual):
u
^i = Yi − Y^i = Yi − (β^0 + β^1 Xi )
殘差是誤差項的估計值!!!
Algebraic Properties
∑u
^i = 0(from F.O.C, intercept must included)
3 Simple Regression
1
∑ xi u
^i = 0(from F.O.C)
∑ yi = ∑ y^i (intercept must included)
∂SSE
= −2 ∑(Yi − b0 − b1 Xi ) = 0 → ∑ yi − ∑ y^i = 0
∂b0
∑ y^i u
^ i = 0
∑(β^0 + β^1 xi )u
^ i = 0
動差估計法
OLS as Methods of Moment
Goodness of Fit
SST = ∑(Yi − Yˉ )2
,Y 的總變異
^
SSR = ∑(Yi − Y^i )2 = ∑u2i
SSE = ∑(Y^i − Yˉ )2
SST = SSR + SSE +
When intercept is included,
,
交乘項
交乘項=0
R2 = 1 − SSR
= SSE
0≤ R2 ≤1
SST
SST
交乘項不等於0
R2 = SSE +交乘項
, R2 可正可負
SST
若一條迴歸線提供了好的預測,則所有觀察值 yi 會在該條線上,代表殘差值 yi − y^i 趨近於零,SSE趨
近於零,此時 1 − SSR/SST → 1代表完全沒有誤差,完全配適
When intercept isn’t included,
3 Simple Regression
2
Incorporating Non-linearities
考量非線性迴歸
線性迴歸模型指的是「Y是參數的線性函數」,無論解釋變數X是根號、對數等,依然是線性迴歸
,該式中,消費是所得的非線性函數,是參數的線性函數
1
Nonlinear model: cons = β +β inc + u,該式不是參數的線性模型
Linear model: cons = β0 + β1
0
inc + u
1
Assumptions SLR.1 – SLR.5
(參數線性)& E[u] = 0
模型裡的變數X 可以是非線性的(如 X 2
但模型對參數( β0、 β1)必須是線性的。
這樣的形式才能應用 OLS(最小平方法)進行估計。
SLR.1: Linear in parameters
誤差項的期望值=0,可確保參數的不偏性
SLR.2: Random Sampling(隨機抽樣)
假設我們的樣本是:{(Xi,Yi):i=1,2,…,n}
每一筆樣本是獨立從同一個母體抽出來的,並滿足母體模型:
Yi=β0+β1Xi+ui
每一筆資料遵循同一套規則(相同的母體),
可以確保估計值代表整體,不會被特殊的樣本偏誤(例如某群體特別多或少)所影響。
這是統計推論的基本前提。
(自變數要有變異)
SLR.3: Sample variation in Xi
ˉ )2 > 0
∑(Xi − X
樣本中的自變數 X不能全部一樣。否則:
分母為 0 → OLS 估計量無法計算;
3 Simple Regression
3
沒有任何橫軸變化 → 無法判斷 X 與 Y的線性關係。
這條件可以保證迴歸斜率 β^1β^1 是可以識別的。
SLR.4 Zero conditional mean
誤差項的條件期望值為零
E[u∣X] = E[u] = 0
→ Cov[X, u] = 0
E[Xu] − E[X]E[u] = E[E[Xu∣x]] − E[X]E[u] = E[XE[u∣X]] − E[X]E[u] = 0 − 0 = 0
代表X變動時,Y的平均變動量
conditional expectation function, CEF: E[Y|X]
若 E[u∣X] = 0會怎樣?
的不偏性仍不受影響
但 β^0不再是不偏:
β^1
3 Simple Regression
4
SLR.5 Conditional Homoskedasticity
條件同質變異數
Var[u∣X] = σ 2 = Var[Y ∣X]
不論解釋變數為何,誤差項給定X的條件變異數皆為常數
但通常在實證上,這項假設不會被採納
Unconditional & Conditional Homoskedasticity
p.23
Expected Values and Variance of OLS estimators
^1
Unbiasedness of β
E[β^1 ] = β1
3 Simple Regression
5
ˉ )(β +β X +u )
ˉ )u
)
(X −X
證明: β^1 = ∑∑(X(X−−XˉX)(Y
= ∑(X −∑X(X
= β1 + ∑
ˉ)
ˉ)
ˉ ) ,取條件期望值: E[E[β1 +
−X
∑(X −X
i
i
2
i
i
0
i
ˉ )ui
∑(Xi −X
^
ˉ )2 ∣X]] = E[β1 ] = β1
∑(Xi −X
1 i
2
i
i
i
2
i
^1
Variance of β
(以下推導僅在同質變異下成立,異質變異時不成立)
ˉ )ui
∑(Xi − X
ˉ )2 ∣X]
∑(Xi − X
ˉ )2 Var[ui ∣X]
∑(Xi − X
σ2
σ2
=
=
ˉ )2 )2
ˉ )2 = SSTX
(∑(Xi − X
∑(Xi − X
Var[β^1 ∣X] = Var[β1 +
由分母可知,當樣本數n增加時,變異數會趨近於0,且 β^1為不偏估計,故 β^1為 一致估計(consistent)
當 σ2未知時,可用殘差估計:
迴歸的標準誤σ^ = n −1 2 ∑ u^
2
n-2
2
i
的原因是因為在最小平方法中的一階條件有兩個限制
^ 1 ] = σ^
^1 : Var[β
estimated variance of β
SST
2
x
Regression Through the Origin & Regression on a Constant
Regression through the origin
∑ Xi Y i
~
= arg min ∑(Yi − b1 Xi )2
β1 =
∑ Xi2
3 Simple Regression
6
Regression on a constant
3 Simple Regression
7