KTE309 – Kinh tế lượng CHƯƠNG 5: ĐA CỘNG TUYẾN NỘI DUNG 1. 2. 3. 4. 5. Bản chất, nguyên nhân của đa cộng tuyến Ước lượng các tham số khi tồn tại đa cộng tuyến Hệ quả của đa cộng tuyến Phát hiện đa cộng tuyến Khắc phục đa cộng tuyến 5.1. BẢN CHẤT ĐA CỘNG TUYẾN 5.1. BẢN CHẤT CỦA ĐA CỘNG TUYẾN Đa cộng tuyến Trong Đa MHHQTT cộng tuyến có 2 dạng theo mức độ tương quan giữa các biến độc lập: 5.1.1. ĐA CỘNG TUYẾN HOÀN HẢO Đa cộng tuyến hoàn hảo xảy ra khi tồn tại một tổ hợp tuyến tính hoàn hảo của các biến độc lập trong mô hình. 5.1.1. ĐA CỘNG TUYẾN HOÀN HẢO Xét mô hình hồi quy tổng quát bao gồm k biến: Y i X 1i X 2i ... X ki u i 0 1 2 k Các biến độc lập X1, X2, ..., Xk được gọi là đa cộng tuyến hoàn hảo nếu: X X 0 1i 1 2 Trong đó λ1 , λ2 , λ3 ,..., λ𝑘 Nếu λ1 ≠ 0, khi đó ta có: 0 2 X 1i 1 1 X 2i ... k X ki 0 3 2i k ... X 3i 1 1 X ki VÍ DỤ 5.1.1. Xét mô hình hồi quy tuyến tính: 𝐘𝐢 = 𝛃𝟎 + 𝛃𝟏 𝐗 𝟏𝐢 + 𝛃𝟐 𝐗 𝟐𝐢 + 𝐮𝐢 Y – thu nhập hàng tháng (triệu đồng/ tháng) X1 – độ tuổi (tuổi) X2 – số năm kinh nghiệm (năm) Mẫu số liệu: STT Y X1 X2 1 5 22 0 2 6 23 1 3 8 24 2 4 15 30 8 5 30 42 20 6 42 55 33 VÍ DỤ 5.1.1. (tiếp) Mối quan hệ giữa độ tuổi và kinh nghiệm 35 30 25 20 15 10 5 0 0 10 20 30 40 50 60 5.1.2. ĐA CỘNG TUYẾN KHÔNG HOÀN HẢO Đa cộng tuyến không hoàn hảo xảy ra khi: tồn tại một mối quan hệ tuyến tính chặt chẽ giữa các biến độc lập trong mô hình 5.1.2. ĐA CỘNG TUYẾN KHÔNG HOÀN HẢO Các biến độc lập X1, X2, ..., Xk được gọi là đa cộng tuyến không hoàn hảo nếu: X X 0 1i 1 2 Trong đó λ1 , λ2 , λ3 ,..., λ𝑘 Vi 2i ... k X ki V i 0 Nếu λ1 ≠ 0, khi đó ta có: 0 2 X 1i 1 1 X 3 2i k ... X 3i 1 1 X Vi ki 1 VÍ DỤ 5.1.2. Độ tuổi như cũ nhưng số năm kinh nghiệm thay đổi STT Y X2 X3 1 5 22 1 2 6 23 0 3 8 24 3 4 15 30 10 5 30 42 19 6 42 55 33 MỨC ĐỘ CỦA ĐA CỘNG TUYẾN Y X1 Y X2 X1 X2 MỨC ĐỘ CỦA ĐA CỘNG TUYẾN Y Y X2 X1 X1 X2 5.2. ƯỚC LƯỢNG CÁC THAM SỐ CỦA MÔ HÌNH KHI CÓ ĐA CỘNG TUYẾN 5.2. ƯỚC LƯỢNG CÁC THAM SỐ KHI CÓ ĐA CỘNG TUYẾN Xét trường hợp đơn giản nhất của mô hình hồi quy tuyến tính bội là mô hình hồi quy 3 biến: Mô hình hồi quy tổng thể có dạng: Yi = β0 + β1 X1i + β2 X2i + ui Mô hình hồi quy mẫu có dạng: Yi = 𝛽0 + 𝛽1 X1i + 𝛽2 X2i + 𝑢i 5.2. ƯỚC LƯỢNG CÁC THAM SỐ ˆ0 Y ˆ1 X 1 ˆ2 X 2 ˆ1 ˆ 2 2 y x x i 1i 2i yi x2i x1i x2i x x ( x x ) y x x y x x x x ( x x ) 2 1i i 2 2i 2 1i 2i 2 1i 2 1i 2i i 1i 2 2i 1i 1i 2 2i x2i 5.2.1. TRƯỜNG HỢP ĐA CỘNG TUYẾN HOÀN HẢO Giả sử tồn tại đa cộng tuyến hoàn hảo: 𝑋2𝑖 = λ𝑋1𝑖 𝑥2𝑖 = λ𝑥1𝑖 , với λ≠0 Thế vào công thức tính tham số ta có: )( x ) ( y x )( x x ) x ( x )( x ) ( x x ) ( y x )( x ) ( y x )( x x ) ( x )( x ) ( x x ) ( y 2 i 1i 2 1i 2 1 1i i 1i 2 2 2 1i 1i 1i 1i 1i 2 i 2 1i 2 1i 1i 2 i 1i 1i 2 2 1i 1i 1i 1i 5.2.2. TRƯỜNG HỢP ĐA CỘNG TUYẾN KHÔNG HOÀN HẢO Giả sử tồn tại đa cộng tuyến không hoàn hảo: 𝑋2𝑖 = λ𝑋1𝑖 + 𝑉𝑖 𝑥2𝑖 = λ𝑥1𝑖 + 𝑣𝑖 , với λ≠0 và 𝑣𝑖 là sai số ngẫu nhiên Thế vào công thức tính tham số ta có: 1 2 ( yi x1i )( 2 x 21i v 2i ) ( yi x1i yi vi )( x 21i ) x ( x v ) ( x ) ( y x y v )( x ) ( y x )( x ) x ( x v ) ( x ) 2 1i i 1i 2 2 2 1i 2 2 1i 2 i 2 1i i i 2 1i 2 1i 2 1i i 1i 2 i 2 2 1i QUAY TRỞ LẠI VÍ DỤ 5.1.2: Khi ước lượng mô hình sử dụng số liệu trên ta được kết quả : Source SS df MS Model Residual 1136.39277 4.94056404 2 3 568.196385 1.64685468 Total 1141.33333 5 228.266667 wage Coef. age exp2 _cons 1.228248 -.0914135 -21.45055 Std. Err. .4854988 .4973841 10.43491 t 2.53 -0.18 -2.06 Number of obs F( 2, 3) Prob > F R-squared Adj R-squared Root MSE P>|t| 0.085 0.866 0.132 = = = = = = 6 345.02 0.0003 0.9957 0.9928 1.2833 [95% Conf. Interval] -.316826 -1.674312 -54.65909 2.773322 1.491485 11.758 QUAY TRỞ LẠI VÍ DỤ 5.1.2: Trong khi mô hình ban đầu (có tồn tại đa cộng tuyến hoàn hảo) chúng ta không thể ước lượng được cả 3 tham số trong mô hình, thì mô hình hồi quy với số năm kinh nghiệm thay đổi (đa cộng tuyến không hoàn hảo) các tham số của mô hình đều có thể ước lượng được. Hệ số hồi quy ứng với biến Kinh nghiệm Exp không có ý nghĩa thống kê và mang dấu ngược lại với các lý thuyết kinh tế, điều này nói lên rằng có thể biến này không còn có ý nghĩa quan trọng trong việc quyết định đến tiền lương của người lao động. QUAY TRỞ LẠI VÍ DỤ 5.1.2: Giả sử chúng ta ước lượng tiền lương của người lao động, chỉ dựa vào số năm kinh nghiệm. Source SS df MS Model Residual 1136.33714 4.99619193 1 4 1136.33714 1.24904798 Total 1141.33333 5 228.266667 wage Coef. exp _cons 1.139375 5.513328 Std. Err. .0377749 .6087107 t 30.16 9.06 Number of obs F( 1, 4) Prob > F R-squared Adj R-squared Root MSE = = = = = = 6 909.76 0.0000 0.9956 0.9945 1.1176 P>|t| [95% Conf. Interval] 0.000 0.001 1.034496 3.823276 1.244255 7.20338 Hệ số hồi quy ứng với biến kinh nghiệm đã có ý nghĩa thống kê và mang dấu dương Sự thay đổi trong ý nghĩa thống kê một phần do sai số tiêu chuẩn giảm từ 0,497 xuống 0,068. => 1 hậu quả của đa cộng tuyến không hoàn hảo là hệ số hồi quy có sai số tiêu chuẩn lớn. SO SÁNH GIỮA ĐA CỘNG TUYẾN HOÀN HẢO VÀ ĐA CỘNG TUYẾN KHÔNG HOÀN HẢO Đa cộng tuyến hoàn hảo Đa cộng tuyến không hoàn hảo 5.3. NGUỒN GỐC ĐA CỘNG TUYẾN 5.3. NGUỒN GỐC ĐA CỘNG TUYẾN Bản Do chất của vấn đề phương pháp thu thập dữ liệu Dạng Số hàm mô hình liệu vĩ mô theo chuỗi thời gian 5.4. HỆ QUẢ 5.4. HỆ QUẢ CỦA ĐA CỘNG TUYẾN KHÔNG HOÀN HẢO Hệ quả của đa cộng tuyến hoàn hảo: Hệ quả của đa cộng tuyến không hoàn hảo: 5.4.1. HỆ QUẢ VỀ MẶT LÝ THUYẾT Tính tuyến tính: Tính không chệch: Tính hiệu quả: 5.4.2. HỆ QUẢ THỰC TẾ Phương sai và sai số chuẩn của các ước lượng OLS lớn hơn. 5.4.2.1. Ví dụ 5.1.2 Xét mô hình: Yi = β0 + β1 X1i + β2 X 2i + ui Phương sai của hệ số hồi quy: var( 1 ) 2 (1 r12 )( x1i ) 2 2 ; var( 2 ) 2 (1 r12 2 )( x2i 2 ) |r12 | lớn => phương sai của các hệ số lớn 5.4.2. HỆ QUẢ THỰC TẾ 5.4.2.2. Khoảng tin cậy rộng hơn KTC của tham số β𝑗 : t j . se ( ) /2 nk j 5.4.2. HỆ QUẢ THỰC TẾ 5.4.2.3. Giá trị kiểm định t gần 0 hơn t 0 j se( ) j Làm giảm ý nghĩa thống kê của hệ số hổi quy. t quá gần 0, |ts| < tc => không bác bỏ H0 => hệ số hồi quy không có ý nghĩa thống kê. 5.4.2. HỆ QUẢ THỰC TẾ 5.4.2.4. Hệ số xác định R2 cao và các giá trị kiểm định t nhỏ Các biến độc lập có quan hệ tuyến tính với nhau tổ hợp tuyến tính nào đó của chúng có thể giải thích được những biến động trong giá trị của biến phụ thuộc. Một Ví dụ 5.1.2 5.4.2. HỆ QUẢ THỰC TẾ Các ước lượng OLS và các sai số tiêu chuẩn của chúng trở nên rất nhạy cảm với những thay đổi nhỏ trong số liệu hay thêm bớt biến giải thích. 5.4.2.5. Sai số chuẩn và khoảng tin cậy của các hệ số hồi quy lớn => thu được các ước lượng khác nhau lớn về mặt giá trị. Ví dụ 5.1.2 5.4.2. HỆ QUẢ THỰC TẾ 5.4.2.6. Dấu của các ước lượng hồi quy có thể sai Dấu của ước lượng trái với lý thuyết Ví dụ 5.1.2 5.5. PHÁT HIỆN ĐA CỘNG TUYẾN 5.5. PHÁT HIỆN RA ĐA CỘNG TUYẾN Hệ số xác định R2 cao nhưng giá trị kiểm định t thấp 5.5.1. R2 cao (R2>0,8) và các giá trị t thấp (hệ số hồi quy không có ý nghĩa thống kê) Trường hợp một vài biến độc lập có quan hệ tuyến tính 5.5. PHÁT HIỆN RA ĐA CỘNG TUYẾN Tương quan giữa các cặp biến giải thích cao 5.5.2. Lập ma trận hệ số tương quan cặp giữa các biến độc lập (correlation matrix) r > 0,8 chứng tỏ mô hình tồn tại đa cộng tuyến Tìm ma trận tương quan trong STATA Không còn chính xác với mô hình có nhiều hơn 2 biến độc lập 5.5. PHÁT HIỆN RA ĐA CỘNG TUYẾN 5.5.3. Hồi quy phụ (Auxiliary Regressions) Hồi quy mỗi biến độc lập theo tất cả các biến độc lập còn lại. Ví dụ hồi quy X1 theo X2, X3, … , Xk X X X 1 0 1 2 2 3 ... k 1 X k vi Làm tương tự với các biến X2, X3, … , Xk Xác định 𝑅𝑗2 cho các mô hình hồi quy phụ 5.5. PHÁT HIỆN RA ĐA CỘNG TUYẾN 5.5.3. Hồi quy phụ (Auxiliary Regressions) (tiếp) Mô hình hồi quy phụ có thực sự phù hợp? (các biến độc lập của mô hình ban đầu có thực sự có tương quan cao với nhau?) Kiểm định F – sự phù hợp của mô hình hồi quy: (n k ) R F (1 )(k 1) R 2 j j 2 j Bậc tự do là k-1 và n-k Nếu Fj < giá trị tới hạn F(k-1,n-k) => Xj không có mối quan hệ tuyến tính với các biến độc lập X khác. 5.5. PHÁT HIỆN RA ĐA CỘNG TUYẾN 5.5.4. Nhân tử phóng đại phương sai 1 VIFj = 2 1 R j 2 R Khi j 1, VIFj : Khi R 2 j 0, VIFj 1: VIF > 10 => Xác định VIF trong STATA 5.6. BIỆN PHÁP KHẮC PHỤC BỎ QUA ĐA CỘNG TUYẾN Khi vấn đề không quá nghiêm trọng ta có thể bỏ qua đa cộng tuyến: 5.6. BIỆN PHÁP KHẮC PHỤC 5.6.1. Sử dụng thông tin có trước Thu thập thêm số liệu hoặc lấy mẫu số liệu mới 5.6.2. 5.6.3. Kết hợp số liệu chéo và số liệu thời gian. 5.6. BIỆN PHÁP KHẮC PHỤC 5.6.4. Bỏ đi biến độc lập có đa cộng tuyến 5.6. BIỆN PHÁP KHẮC PHỤC 5.6.5 Thay đổi biến một số trường hợp chúng ta có thể thay đổi biến sử dụng trong mô hình để tránh đa cộng tuyến. Trong