강의자료16 – 11장 회귀분석 요점- 회귀분석 1. 회귀분석 (Regression Analysis) 개념 1-A 변수의 종류: 독립변수, 종속변수 1-B 회귀분석의 종류: 단순회귀분석, 다중회귀분석 1-C 선형회귀모형, 비선형회귀모형 2. 산점도 (Scatter) 3. 단순회귀모형 3-A 적합된 회귀식 4. 5. 6. 7. 8. 잔차 (Residuals) 최소제곱법 (Least Squares Method) 추정의 표준오차 (Standard Error): SE 결정계수 R2 유의성 검정 t검정 8-A 기울기에 대한 추론 (신뢰구간과 가설검정) 9. 유의성 검정 F검정 10. 잔차의 검토 Chapter 11 2 회귀분석(Regression Analysis) Chapter 11 3 회귀분석(Regression Analysis) Chapter 11 4 1. 회귀분석(Regression Analysis) 개념 § 회귀분석 n n n 1) 2) 3) 한 변수가 다른 변수들의 영향을 받을 때, 변수들 사이의 연관성을 분석하는 방법 (인과관계(causal relationship) 독립변수가 종속변수에 미치는 영향력의 크기를 측정하여 독립변수의 일정한 값에 대응되는 종속변수의 값을 예측하기 위한 방법 예) 아버지의 키와 아들의 키, 광고비와 매출액 독립변수와 종속변수의 함수적 관계의 모형을 설정하여, 관계식(회귀식)을 추정하고, 특정한 값에 대한 종속변수의 값을 예측 § 분석목표 n n n Chapter 11 종속변수와 독립변수들 사이의 함수관계가 어떤 형태인지를 파악함. 종속변수에 영향을 미치는 중요한 독립변수들의 영향을 추정, 검정함. 추정된 회귀식을 이용하여 주어진 독립변수의 값에서 종속변수의 값을 예측함. 5 1-A. 독립변수와 종속변수 § 독립변수(independent variable) n n n n 설명변수(explanatory variable), 예측변수(predictor) 다른 변수에 영향을 주는 변수 (그 변수의 값을 예측하는데 사용되는 변수) 𝑋 § 종속변수(dependent variable) n n n n Chapter 11 반응변수(response variable), 결과변수 (consequence) 다른 변수의 영향을 받는 변수 (수학적 방정식을 이용하여 독립변수의 특정한 값에 따를 그의 값을 예측하고자 하는 변수) 𝑌 6 1- B. 단순회귀분석과 다중회귀분석 § 단순회귀분석 (Simple Regression Model) n 종속 변수에 영향을 미치는 독립변수가 1개일 때, 독립변수와 종속변수 간의 선형관계에 대한 분석 § 다중회귀분석 (Multiple Regression Model) n Chapter 11 종속 변수에 영향을 미치는 독립변수가 2개 이상일 때, 이들 독립변수들과 종속변수 간의 선형관계에 대한 분석 7 1- C. 선형회귀모형과 비선형회귀모형 § 선형회귀모형(Linear Regression Model) n 회귀식이 모수의 선형함수로 주어지는 모형 § 비선형회귀모형(Nonlinear Regression Model) n Chapter 11 회귀식이 모수의 비선형함수로 주어지는 모형 8 1-C. 선형회귀모형 vs. 비선형회귀모형 Chapter 11 9 2. 산점도 (Scatter diagram) 산점도(Scatter diagram): Ø 0 2 y 4 6 Ø 두 변수 사이의 관계를 대략적 / 시각적으로 알아볼 수 있음. 두 변수 간의 관련성 및 예측을 위한 상관분석이나 회귀분석을 할 만한 자료인지를 미리 알 수 있음. -1 0 1 x Chapter 11 10 2 3. 단순선형회귀모형 (Simple Regression Model) § 독립변수가 하나이며 독립변수와 종속변수 사이에 평균적으로 선형관계가 있을 때 사용하는 모형 (회귀식이 독립변수의 일차식) § 예) 약의 복용량과 약효의 지속 시간 n n 𝑋: 복용량 𝑌: 약효 지속 시간 X(복용량) Y(약효 지속시간) 3 3 4 5 6 9 5 12 9 14 16 22 18 24 22 § 예) 소득과 소비와의 관계 n n 𝑋: 소득 𝑌: 소비 § 예) 가구평수와 전기소모량의 관계 § 예) 연중평가와 연말평가와의 관계 Chapter 11 11 6 7 8 8 9 3. 단순선형회귀모형 –모형 및 가정 § 자료: 𝑥! , 𝑌! , 𝑥" , 𝑌" , … , (𝑥# , 𝑌# ) § 모형: 𝒀𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊 + 𝜺𝒊 𝑌! : i 번째 관측치에 대한 종속변수의 값 𝑥! : i번째 주어진 고정된 독립변수의 값 𝛽" , 𝛽# : 모집단의 회귀계수 𝜀! : i번째 측정된 𝑌 의 오차항 § 오차항(𝜺𝒊 )에 대한 가정 n n n § 정규성: 𝜀! 는 평균이 0, 분산이 𝜎 $ 인 정규분포를 따른다. 즉 𝑌! ~𝑁(𝛽" + 𝛽# 𝑥! , 𝜎 $ ) 독립성: 𝜀! 는 서로 독립이다. 등분산성: 𝜀! 의 분산은 분산 𝜎 $ 으로 모든 i에 대해서 같다. 회귀계수( 𝛽" 과 𝛽# ): 독립변수와 종속변수 사이의 관계를 나타내는 값 n Chapter 11 독립변수가 1단위 증가할 때, 종속변수는 𝛽! 단위만큼 변한다. 12 3. 단순선형회귀모형 § 확률모형: 모집단 모수 𝛽$와 𝛽! 그리고 확률오차항 𝜺𝒊 을 포함하는 모형 § 결정적 모형: 확률오차항 𝜺𝒊 가 포함되지 않은 모형 ) 𝟎와 𝜷 ) 𝟏 이 포함된 모형 § 추정 모형: 표본을 이용하여 추정값 𝜷 Chapter 11 13 3. 단순선형회귀모형 Chapter 11 14 3. 단순선형회귀모형 § 이상적인 관계 독립변수의 값이 𝑥" 일 때, 종속변수의 값은 𝑦" = 𝛽" + 𝛽# 𝑥" 로 일정 6 8 10 y 12 14 16 n 1 2 3 4 5 x Chapter 11 15 3. 단순선형회귀모형 § 실제 관측자료 독립변수의 값이 𝑥" 일 때, 종속변수의 값은 𝛽" + 𝛽# 𝑥" 에서 벗어난 다른 값을 가짐 10 6 8 y 12 14 n 1 2 3 4 5 x Chapter 11 16 3. 단순선형회귀모형 Chapter 11 17 단순선형회귀모형과 표본회귀모형 Chapter 11 18 3-A 적합된 회귀식 § 자료: 𝑥! , 𝑌! , 𝑥" , 𝑌" , … , (𝑥# , 𝑌# ) § 표본회귀모형: 𝒀𝒊 #𝟎 + 𝜷 # 𝟏 𝒙𝒊 + 𝒆𝒊 =𝜷 "𝟎 + 𝜷 " 𝟏 𝒙𝒊 "𝒊 = 𝜷 § 추정회귀식: 𝒀 .는 적합된 회귀식에 의해 예측된 Y의 값 § 𝒚 § 잔차(residual): 예측된 Y값과 실제 관측 값의 차이 5𝒊 𝒆𝒊 = 𝒀𝒊 − 𝒀 Chapter 11 19 오차항과 잔차의 관계 Chapter 11 20 4. 잔차 (residuals) Residuals 정의: 실제값과 예측값(회귀선의 값)의 차이다. Chapter 11 21 5. 최소제곱법(Least Squares Method) 잔차(residual)를 최소화 하는 회귀직선식을 구함 Chapter 11 22 최소제곱 추정법을 이용한 회귀계수의 추정 § 관측한 자료 𝑥! , 𝑦! , 𝑥" , 𝑦" , … , 𝑥# , 𝑦# 을 이용하여 회귀계수 𝛽$ 과 𝛽! 을 추정하는 방법은? § 임의의 직선 𝑦 = 𝑏$ + 𝑏! 𝑥에 대하여 𝑑! = 𝑦! − 𝑏" + 𝑏# 𝑥! : 편차 4 6 8 10 y 12 14 16 18 n Chapter 11 1 2 3 x 4 5 23 최소제곱법 § 최소제곱법(Ordinary Least Squares :OLS)에 의한 최소제곱추정량(Least Square Estimates) Chapter 11 24 최소제곱 추정법을 이용한 회귀계수의 추정 § 편차제곱합 𝐷 = ∑#()! 𝑦( − 𝑏$ − 𝑏! 𝑥( " 을 최소로 하는 𝑏$ 과 𝑏! 을 𝛽$ 과 𝛽! 의 추정치로 정하는 방법 § 𝛽8$ , 𝛽8! : 𝛽$ 과 𝛽! 의 추정치 § 𝑦9 = 𝛽8$ + 𝛽8! 𝑥 : 추정회귀직선 § 𝛽8$ 과 𝛽8! 을 구하는 방법 n n Chapter 11 %& %'! = −2 ∑)!(# 𝑦! − 𝑏" − 𝑏# 𝑥! = 0 %& = −2 ∑)!(# 𝑦! − 𝑏" − 𝑏# 𝑥! 𝑥! = 0 → 𝑏" ∑ 𝑥! + 𝑏# ∑ 𝑥! $ = ∑ 𝑥! 𝑦! %'" 25 → 𝑛𝑏" + 𝑏# ∑ 𝑥! = ∑ 𝑦! 최소제곱 추정법을 이용한 회귀계수의 추정 § 𝛽! 의 추정치 n n 𝑺𝒙𝒚 ∑ 𝒙𝒊 𝒚𝒊 ;𝒏= = 𝒙𝒚 " 𝜷𝟏 = ∑ 𝒙 𝟐;𝒏=𝒙𝟐 = 𝑺 𝒊 𝒙𝒙 단, 𝑆** = ∑ 𝑥( " − 𝑛𝑥̅ " = ∑ 𝑥( − 𝑥̅ " 𝑆*+ = ∑ 𝑥( 𝑦( − 𝑛𝑥̅ 𝑦B = ∑ 𝑥( − 𝑥̅ 𝑦( − 𝑦B 𝑆++ = ∑ 𝑦( " − 𝑛𝑦B " = ∑ 𝑦( − 𝑦B " § 𝛽$ 의 추정치 n Chapter 11 "𝟎 = 𝒚 "𝟏𝒙 '−𝜷 ' = (y의 평균) – 기울기 (x의 평균) 𝜷 26 최소제곱 추정법을 이용한 회귀계수의 추정 § 𝛽! 의 추정치 n n # ∑ *" +" - ∑ *" 𝛽8! = ∑ # ∑ # *" - ∑ +" *" # = ∑ *" +" -#*̅ +/ ∑ *" # -#*̅ # 0$$ 단, 𝑆** = ∑ 𝑥( " − 𝑛𝑥̅ " = ∑ 𝑥( − 𝑥̅ " 𝑆*+ = ∑ 𝑥( 𝑦( − 𝑛𝑥̅ 𝑦B = ∑ 𝑥( − 𝑥̅ 𝑦( − 𝑦B 𝑆++ = ∑ 𝑦( " − 𝑛𝑦B " = ∑ 𝑦( − 𝑦B " § 𝛽$ 의 추정치 n 𝛽8$ = 𝑦 B − 𝛽8! 𝑥̅ Chapter 11 = 0$% 27 최소제곱법에 의해서 구해진 회귀직선 5가지 성질 <가우스-마르코프정리> 1. 잔차제곱의 합은 최소이다. 2. 잔차의 합은 0이다. (연습문제-3.17(pg.405)) 3. 독립변수 Xi 에 대한 잔차의 가중치 합은 0이다. 4. ) 𝒊 에 대한 잔차의 가중치 합은 0이다. 예측치 𝒀 5. 회귀직선은 (𝑥,̅ 𝑦)를 B 지난다. 여기서 𝑥̅ 는 x의 평균, 𝑦는 B y의 평균이다. (연습문제 3-17) Chapter 11 28 잔차(residual) § 잔차: 𝑒( = 𝑌( − 𝑌R( = 𝑌( − (𝛽8$ + 𝛽8! 𝑥( ) n 잔차와 오차는 다르다. § 잔차제곱합(residual sum of squares, SSE) n SSE = ∑)!(# 𝑒! $ = ∑ 𝑦! − (𝛽<" + 𝛽<# 𝑥! ) =∑ 𝑦! − 𝑦= − 𝛽<# 𝑥! − 𝑥̅ = ∑ 𝑦! − 𝑦= = 𝑆++ + $ -## SSE = 𝑆++ − Chapter 11 $ $ + 𝛽<# ∑ 𝑥! − 𝑥̅ ,#$ $ 𝑆.. − 2 -#$% -#$ -## $ $ − 2𝛽<# ∑ 𝑥! − 𝑥̅ 𝑦! − 𝑦= 𝑆.+ -## 29 예제) 약의 복용량과 약효의 지속시간 <예제 5-pg410> § 𝑛 = 10, 𝑥̅ = 5.9, 𝑦B = 15.1 § 𝑆** = ∑ 𝑥( " − 𝑛𝑥̅ " = 389 − 10×5.9" = 40.9 § 𝑆*+ = ∑ 𝑥( 𝑦( − 𝑛𝑥̅ 𝑦B = 1003 − 10×5.9×15.1 = 112.1 0$% !!".! 8 § 𝛽! = = = 2.74 0$$ 2$.3 § 𝛽8$ = 𝑦B − 𝛽8! 𝑥̅ = 15.1 − 2.74×5.9 = −1.07 Chapter 11 30 예제) 약의 복용량과 약효의 지속시간 Chapter 11 % "# $ %& ' ( 0 3 1 5 4 6 7 8 2 09 1 1 5 4 6 6 7 8 8 2 )# $ * +, . Ч ( 2 4 03 2 05 06 33 08 35 33 31 예제) 약의 복용량과 약효의 지속시간 % "# $ %& ' ( 1 0 2 7 6 8 5 4 3 19 2 2 7 6 8 8 5 4 4 3 63 6> 3 :‗ < ╓ )# $ * +, . Ч ( "0 )0 "# ) 3 6 10 3 17 18 00 14 07 00 3 3 18 06 28 28 73 87 87 41 41 06 177 41 138 068 747 207 658 747 05 16 74 76 47 38 167 177 130 134 161 16> 1 243 # # # # # 24> 3 0861 # # # 086> 1 1992 199> 2 𝑆.. = @ 𝑥! $ − 𝑛𝑥̅ $ = 389 − 10×5.9$ = 40.9 𝑆.+ = @ 𝑥! 𝑦! − 𝑛𝑥̅ 𝑦= = 1003 − 10×5.9×15.1 = 112.1 Chapter 11 32 예제) 약의 복용량과 약효의 지속시간 % "# $ %& ' ( 1 0 2 7 6 8 5 4 3 19 2 2 7 6 8 8 5 4 4 3 63 6> 3 :‗ < ╓ Chapter 11 )# $ * +, . Ч ( "0 )0 "# ) 3 6 10 3 17 18 00 14 07 00 3 3 18 06 28 28 73 87 87 41 41 06 177 41 138 068 747 207 658 747 05 16 74 76 47 38 167 177 130 134 161 16> 1 243 # # # # # 24> 3 0861 # # # 086> 1 1992 199> 2 33 𝑆.. = 40.9 𝑆++ = 112.1 예제) 약의 복용량과 약효의 지속시간 독립변수, 종속변수, 예측값과 잔차 % 0 7 1 9 5 : 3 6 2 0 ; <‗ > ╓ "# $ %& ' ( 1 1 9 5 : : 3 6 6 2 5 2 5 4 2 ) # $ * +, - . Ч ( 2 5 0 7 2 0 9 0 : 7 7 0 6 7 9 7 7 0 5 0 0 5 4 0 3 4 0 5 3 4 0 5 2 4 6 2 0 7 4 : 1 0 5 4 1 3 0 5 4 1 3 0 6 4 0 0 7 ; 4 6 5 7 ; 4 6 5 7 1 4 5 2 0 4 6 5 8 7 4 0 5 7 4 0 0 8 1 4 : 1 8 0 4 1 3 ; 4 : 1 1 4 6 2 8 7 4 6 5 1 4 0 5 8 0 4 5 2 0 5 ; 4 2 : # # # # # # # # # ; I𝟎 + 𝜷 I 𝟏 𝒙𝒊 = −𝟏. 𝟎𝟕 + 𝟐. 𝟕𝟒𝒙𝒊 I𝒊 = 𝜷 𝒀 Chapter 11 34 예제) 약의 복용량과 약효의 지속시간 자료의 산점도와 추정회귀직선 I𝟎 + 𝜷 I 𝟏 𝒙𝒊 = −𝟏. 𝟎𝟕 + 𝟐. 𝟕𝟒𝒙𝒊 I𝒊 = 𝜷 𝒀 Chapter 11 35 자료분석의 예 Chapter 11 광고비 (X) 매출액 (Y) 1.0 6.5 1.1 8.2 1.2 8.3 1.6 10.0 2.1 12.3 2.7 13.1 3.2 14.2 4.0 14.6 5.2 15.3 6.0 15.8 36 α,β를 추정한다 자료분석의 예 Chapter 11 37 총 편차의 구분 Chapter 11 38 종속변수의 분할 § 𝑦( − 𝑦B = 𝑦9( − 𝑦B + 𝑦( − 𝑦9( n n n 𝑦! − 𝑦= : 종속변수의 변동 (평균으로부터) 𝑦P! − 𝑦= : 종속변수의 변동 중에서 회귀직선에 의하여 설명되는 부분 𝑦! − 𝑦P! : 종속변수의 변동 중에서 회귀직선에 의하여 설명되지 않는 부분 § ∑ 𝑦( − 𝑦B n n n Chapter 11 " = ∑ 𝑦9( − 𝑦B + 𝑦( − 𝑦9( = ∑ 𝑦9( − 𝑦B " + ∑ 𝑦( − 𝑦9( ∑ 𝑦! − 𝑦= $ : 총제곱합(𝑆𝑆𝑇) ∑ 𝑦P! − 𝑦= $ : 회귀제곱합(𝑆𝑆𝑅) ∑ 𝑦! − 𝑦P! $ : 잔차제곱합(𝑆𝑆𝐸) 39 " " 선형관계의 정도 u 선형관계의 정도 (Precision) /적합도 검정(goodness-offit) 회귀모형 자체에 대하여 회귀선이 모든 관측치들을 적합하도록 도출되었는지 밝히는 것. 즉, 종속변수를 얼마나 잘 설명해 주는지 회계모델 자체에 대한 검정 예) 추정의 표준오차, 결정계수 u 유의성 검정(significance test) 각 독립변수와 종속변수의 관련도가 통계적으로 유의한 지를 밝히는 것. 즉, 종속변수에 대한 설명력을 가지고 있는가를 검정. 예) t 검정, F검정 Chapter 11 40 6 추정의 표준오차 (Standard Error) u 추정의 표준오차(standard error of estimate) (pg.400) ü 표본회귀선 주위로 표본들의 실제 관찰치들이 흩어진 변동을 측정 (표준편차와 같은 개념) ü 종속변수 Y의 값을 예측하는데 오류를 발생시키는 것은 오차항 ü 오차항을 검토함으로써 회귀선에 의한 예측의 정확성을 추정 ü 오차들의 분산 대신에 추정의 표준오차를 사용 어려운 점: u 회귀선이 y값에 따라 달라지므로 다른 여러 회귀분석결과의 적합도를 직접 비교할 수 없음. u 절대평가방법. Chapter 11 41 6-A. 오차항의 분산 𝝈𝟐 의 추정 § 오차항의 분산 𝝈𝟐 의 추정량 n --2 𝜎P $ = 𝑠 $ = )3$ = 𝑀𝑆𝐸 (평균제곱오차, mean squared error) § 예) 약의 복용량과 약효의 지속시간 Chapter 11 n 𝑆𝑆𝐸 = 𝑆++ − n 𝜎P $ = 𝑠 $ = -#$% -## --2 )3$ = = 370.9 − 78.798 : ##$.#% 5".6 = 7.96 42 = 63.653 8. 모형에 대한 추론 § 주어진 자료 𝑥! , 𝑦! , 𝑥" , 𝑦" , … , 𝑥# , 𝑦# 를 이용하여 구한 회귀추정식이 𝑦9 = 𝛽8$ + 𝛽8! 𝑥 일 때, 이를 이용한 추론이 얼마나 정확할까? § 예를 들어, 약의 복용량과 약효의 지속시간에 대한 자료에서 구한 회귀추정식이 𝑦9 = −1.07 + 2.74𝑥일 때, 복용량을 1mg 증가시키면 약효의 지속시간은 2.74일 증가하며, 복용량이 𝑥 = 4.5mg일 때, 약효의 지속시간은 −1.07 + 2.74×4.5 = 11.26일이라고 예측할 수 있다. § 위의 추정값들은 주어진 자료에 따라 달라질 수 있다. 즉 새로 관측한 자료를 사용하면 다른 𝛽8$ 과 𝛽8! 을 얻게 될 것이다. § 𝛽8$ 과 𝛽8! 은 얼마나 정확한 값인가? § 독립변수의 값 𝑥 ∗에서 종속변수의 예측값 𝑦9 = 𝛽8$ + 𝛽8! 𝑥 ∗ 는 얼마나 정확할까? Chapter 11 43 8-A. 𝜷𝟏 에 대한 추론 6" -6/ *" -*̅ # 0$% ∑ * -*̅ § 𝛽8! = = ∑" 0$$ ∑ *" -*̅ 6" ∑ *" -*̅ # = 의 확률분포는? ∑ * -*̅ § 𝐸 𝛽8! = ∑" = ∑ *" -*̅ :& ;:' *" 7(6" ) = ∑ *" -*̅ # *" -*̅ # ∑ *" -*̅ ∑ *" -*̅ *" ∑ *" -*̅ # 𝛽$ ∑ + 𝛽! ∑ = 𝛽! ∑ *" -*̅ # *" -*̅ # *" -*̅ # = 𝛽! ∑ *" -*̅ 8 § 𝑉𝑎𝑟 𝛽! = ∑ = § 𝛽8! ~𝑁 𝛽! , Chapter 11 ?# 0$$ ?# 0$$ *" # <=>(6 ) " -*̅ # # , 즉 = @' -:' : ( A )$$ ∑ *" -*̅ # ?# ∑ *" -*̅ # # ~𝑁(0,1) 44 = ?# ∑ *" -*̅ # 8-A. 𝜷𝟏 에 대한 추론 § 𝜎 " 대신에 추정량인 𝑠 " 을 대신 사용하면 @' -:' : * A )$$ ~ 𝑡(𝑛 − 2) (자유도가 𝑛 − 2 인 t - 분포) § 𝛽! 에 대한 100 1 − 𝛼 % 신뢰구간: 𝛽8! ± 𝑡+⁄# (𝑛 − 2) Chapter 11 C 0$$ 45 8-A. 𝜷𝟏 에 대한 추론 § 𝐻$ : 𝛽! = 𝛽!$ 에 대한 검정통계량: 𝑡= n n n Chapter 11 @' -:'& : * A )$$ ~ 𝑡(𝑛 − 2) (귀무가설이 참일 때) 𝐻! : 𝛽! ≠ 𝛽!$ 일 때, 기각역: 𝑡 ≥ 𝑡+⁄# (𝑛 − 2) 𝐻! : 𝛽! > 𝛽!$ 일 때, 기각역: 𝑡 ≥ 𝑡D (𝑛 − 2) 𝐻! : 𝛽! < 𝛽!$ 일 때, 기각역: 𝑡 ≤ −𝑡D (𝑛 − 2) 46 예제6 &7) 약의 복용량과 약효의 지속시간 § 𝛽8! = 2.74, 𝑆** = 40.9 , 𝑠 = 2.82 (pg. 417) § 𝛽! 에 대한 95% 신뢰구간: n 𝛽<# ± 𝑡&⁄% 𝑛 − 2 , -## → 2.74 ± 1.02 → → 2.74 ± 2.306× $.:$ 5".6 1.72, 3.76 복용량이 1mg 증가할 때, 약효의 지속시간의 평균은 1.72일에서 3.76일 증가한다고 신뢰수준 95%에서 말할 수 있다. § 𝐻$ : 𝛽! = 0 대 𝐻! : 𝛽! > 0 n n Chapter 11 <"3=" = 검정통계량: 𝑡 = ' > (## $.?5 = %.*% > +!., = 6.21 > 𝑡"."9 8 = 1.860 유의수준 5%에서 기울기가 0이라는 귀무가설을 기각한다. 즉 복용량을 늘리면 약효의 지속시간은 증가한다고 할 수 있다. 47 7. 결정계수 (a) u 결정계수(coefficient of determination) (pg.419) ü 표본회귀선이 표본자료를 얼마나 잘 설명하는가를 평가하는 기준 ü 종속변수의 변동을 독립변수가 얼마만큼 설명해주는 가를 나타냄. ü 예측의 정확도, 표본회귀선의 설명력 ü 표본상관계수 r의 제곱 ü 상대평가방법. 𝑅$ = u 총편차의 구성 Chapter 11 48 𝑆𝑆𝑅 𝑆𝑆𝐸 =1− 𝑆𝑆𝑇 𝑆𝑆𝑇 7. 결정계수 (b) u 0 ≤결정계수 ≤ 1 u 결정계수= 1 ü 표본회귀선이 모든 자료에 완전히 적합함. ü 예측한 회귀식이 총변동의 100%를 설명함을 의미함. ü 두 변수X와 Y사이의 상관관계는 100% 있다는 것을 의미함. u 결정계수가 1에 가까울수록, 표본회귀선으로 종속변수의 실제관 찰치를 예측하는데 정확성이 더 높음. u 오차(잔차)가 작다는 의미임. Chapter 11 49 회귀계수의 검정 회귀계수 의 검정 § 모형 : 𝑌 = 𝛼 + 𝛽𝑋 § 가설 : 𝐻" : 𝛽 = 0 𝑣𝑠. 𝐻# : 𝛽 ≠ 0 =>독립변수가 종속변수에 영향을 주는가? (절편에 관한 검정은 중요하지 않음) n Chapter 11 Idea : 만약 가 0이라면 X의 변화가 Y에 전혀 영향을 주지 못한다. 50 8-A. 유의성 검정 t검정 Chapter 11 51 9. 유의성 검정 F검정 Chapter 11 52 <예제> 회귀분석 예제 다음은 인하 회사의 광고비 지출(X)에 따른 매출액(Y)의 변화자료이 다. 5% 유의수준에서 귀무가설 기울기는 0이다를 검정하시오. Chapter 11 53 <예제> 회귀분석 예제 Chapter 11 54 <예제> 회귀분석 결과 Chapter 11 55 회귀분석 결과 결정계수는 0.829이며, 설명될 수 있는 총 제곱합의 비율이다. 평균매출액으로부 터 흩어지는 매출액의 총변동의 82.9%는 광고와 매출액의 선형관계를 나타내는 회귀선에 의하여 설명된다. 광고비가 매출액 변동의 82.9%를 결정하므로 나머지 는 다른 요인들의 영향을 미친다. 임계치는 t8, 0.025 =2.306이고 t 통계량은 6.231이다. 채택영역은 -2.306에서 2.306이다. 즉 광고비 X에 대한 기울기의 t 통계량은 6.231이므로 귀무가설을 기 각한다. 따라서 두 변수 광고와 매출은 선형관계이고 회귀선은 유의하다고 할 수 있다. 출력결과 얻은 p-값은 0.000251로 유의수준 0.05보다 작아서 귀무가설을 기각하 며, 즉, 기울기는 0이 아니고 두 변수 광고비와 매출액의 선형관계는 유의하다고 (종속변수 매출액의 변동을)설명할 수 있다. Chapter 11 56 단순회귀모형의 ANOVA표 • 분산분석표의 작성: 분산을 발생하는 변동요인에 따라 분류하여 그 크기를 비교하는 검정하는 분석. 변동요인 제곱합 자유도 평균제곱합 회귀 1 MSR=SSR/1 SSR F -ratio MSR/ MSE 잔차 SSE (n-2) 총합 SST (n-1) MSE=SSE/(n-2) ® - 회귀모형의 유의성 검정에 이용됨 ® - 표준오차 Chapter 11 𝑆! = 𝑀𝑆𝐸 = 57 ∑(𝑦" − 𝑦̑ "# ) 𝑛−2 = 𝑆𝑆𝐸 𝑛−2 9. 기울기 대한 F 검정 출력결과 결정계수는 0.82이다. 즉 설명될 수 있는 총 제곱합의 비율이다. 즉 매출액 변동 성 가운데 82%는 광고비와 매출액의 선형관계에 의해 설명될 수 있다. 모형의 유의성을 검정하는 F 비는 38.82이고, 임계치는 5.53이므로 기각영역에 포함된다. 따라서 귀무가설이 기각되고 광고비와 매출액 간의 유의한 관계가 있 다고 결론내릴 수 있다. ‘유의한 F’(p-값)은 0.00025로 유의수준 0.05보다 작아서 귀무가설을 기각하며, 즉, 기울기는 0이 아니고 두 변수 광고비와 매출액의 선형관계는 유의하다고 (종 속변수 매출액의 변동을)설명할 수 있다. Chapter 11 58 10. 잔차의 검토 § 단순선형회귀모형 𝑌( = 𝛽$ + 𝛽! 𝑥( + 𝜀( 에 대한 가정 n n n n 𝜀! 의 평균은 0이다. 즉 𝐸 𝑌! = 𝛽" + 𝛽# 𝑥! (선형성) 𝜀! 의 분산은 𝜎 $ 으로 일정하다. (등분산성) 𝜀! 는 정규분포를 따른다. (정규성) 𝜀! 는 서로 독립이다. (독립성) § 잔차 (𝑒( = 𝑌( − 𝑌R( ) 그림을 이용하여 위의 가정이 적합한지 확인 § 기본적으로 잔차는 0을 중심으로 랜덤하게 분포되어 있어야 하며, 특정한 패턴이 있으면 안된다. Chapter 11 59 출력결과 Chapter 11 60 출력결과 Chapter 11 61 출력결과 Chapter 11 62 출력결과 출력결과 Chapter 11 63 결정계수 § 유의성 검정에서 귀무가설이 기각되더라도 이는 기울기가 0이 아니라는 것뿐이지 추정된 회귀식이 전체자료를 잘 설명해 주고 있다고 판단하기는 어렵다. 그래서 표본자료로부터 추정된 회귀선이 그 측정자료에 어느 정도 적합한가를 측정하는 측도인 결정계수(coefficient of determination)가 필요하게 된다. Chapter 11 § 관측값 y의 총변동은 회귀선에 의해 설명되는 변동과 설명되지 않는 변동으로 나누어진다 § SST=SSR+SSE § R2=SSR/SST § R2=1이면 회귀선으로 y의 총변동이 완전히 설명된다는 것을 의미한다. R2=0이면 회귀선으로 x와 y의 관계를 전혀 설명하지 못한다는 의미 64 Thank you. Chapter 11 65