Chương 9 - Nhập môn Kinh tế lượng * Jeffrey M. Wooldridge 09.12.2017 Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu MỘT SỐ VẤN ĐỀ MỞ RỘNG VỀ DẠNG HÀM VÀ DỮ LIỆU 9.1 Vấn đề xác định sai dạng hàm Chúng ta có thể kiểm định xem liệu mô hình đang xét có thiếu bình phương hay bậc cao hơn của một biến độc lập hay không bằng cách thêm các số hạng này vào mô hình và kiểm định xem thành phần thêm vào có ý nghĩa thống kê không. Ngoài ra, có thể sử dụng kiểm định chung về sai dạng hàm như RESET của Ramsey. Chương 9 Kiểm định sai dạng hàm (RESET) Ý tưởng của RESET là thêm bình phương và bậc cao hơn của giá trị ước lượng của biến phụ thuộc vào hàm hồi quy (giống với kiểm định White rút gọn) y 0 1 x1 ... k xk u Wooldridge: Introductory Econometrics: A Modern Approach, 5e y 0 1 x1 ... k xk 1 yˆ 2 yˆ saiso 2 3 9.2 9.3 Kiểm định xem có nên loại bỏ thành phần này hay không. Nếu ta không thể loại bỏ chúng, nghĩa là mô hình đã thiếu bậc cao của biến độc lập và biến tương tác, hay nói cách khác, mô hình sai dạng hàm. H0: 1=0, 2=0 H0: mô hình (9.2) có dạng hàm đúng © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU • Ví dụ 9.1: Mô hình kinh tế về vấn đề tội phạm Dependent Variable: NARR86 (MH2) Method: Least Squares Included observations: 2725 • Tập tin crime1.wf1 Dependent Variable: NARR86 (MH1) Method: Least Squares Included observations: 2725 Variable PCNV AVGSEN TOTTIME PTIME86 QEMP86 INC86 BLACK HISPAN C R-squared Adjusted R-squared Coefficient -0.133234 -0.011318 0.012022 -0.040842 -0.050540 -0.001489 0.326503 0.193914 0.568685 0.072321 0.069588 Variable Std. Error 0.040350 0.012240 0.009435 0.008812 0.014440 0.000341 0.045416 0.039711 0.036046 t-Statistic -3.301949 -0.924645 1.274210 -4.634769 -3.500045 -4.370173 7.189232 4.883099 15.77660 Mean dependent var S.D. dependent var Biến QEMP86 là 1 biến rời rạc chỉ nhận 5 giá trị. https://sites.google.com/a/ueh.edu.vn/phamtricao/ PCNV PCNV^2 AVGSEN TOTTIME PTIME86 PTIME86^2 QEMP86 INC86 INC86^2 BLACK HISPAN C Prob. 0.0010 0.3552 0.2027 0.0000 0.0005 0.0000 0.0000 0.0000 0.0000 R-squared Adjusted R-squared 0.404404 0.859077 3 Coefficient 0.552524 -0.730212 -0.017022 0.011954 0.287433 -0.029608 -0.014094 -0.003415 7.19E-06 0.292296 0.163617 0.504607 0.103454 0.099819 Std. Error 0.154237 0.156118 0.012054 0.009282 0.044258 0.003863 0.017361 0.000804 2.56E-06 0.044830 0.039451 0.036835 t-Statistic 3.582297 -4.677317 -1.412124 1.287803 6.494462 -7.663609 -0.811813 -4.249251 2.811369 6.520096 4.147388 13.69898 Mean dependent var S.D. dependent var Prob. 0.0003 0.0000 0.1580 0.1979 0.0000 0.0000 0.4170 0.0000 0.0050 0.0000 0.0000 0.0000 0.404404 0.859077 4 1 Chương 9 - Nhập môn Kinh tế lượng * Jeffrey M. Wooldridge 09.12.2017 Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU Wald Test: (MH2) Equation: EQ02 Test Statistic F-statistic Chi-square Value 31.40381 94.21144 df (3, 2713) 3 Null Hypothesis: C(2)=0,C(6)=0,C(9)=0 Null Hypothesis Summary: Normalized Restriction (= 0) C(2) C(6) C(9) Value -0.730212 -0.029608 7.19E-06 Restrictions are linear in coefficients. Ví dụ 9.2: Hàm hồi quy giá nhà Probability Bằng chứng cho thấy có sai dạng hàm 9.5 Std. Err. 0.156118 0.003863 2.56E-06 Chúng ta có thể thêm vào các bậc cao hơn của Dependent Variable: PRICE (MH 9.4) Method: Least Squares Included observations: 88 R-squared -21.77031 0.002068 0.122778 13.85252 0.672362 , hàm ý là thêm vào mô hình các RESET cung cấp ít thông tin về nguyên nhân sai dạng hàm. 5 © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU Ramsey RESET Test Equation: EQ01 Specification: PRICE C LOTSIZE SQRFT BDRMS Omitted Variables: Powers of fitted values from 2 to 3 • Tập tin hprice1.wf1 C LOTSIZE SQRFT BDRMS ŷ biến tương tác phức tạp và bậc cao hơn của các biến độc lập. PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU Coefficient Ít bằng chứng cho thấy có sai dạng hàm Thảo luận p-value = 0.0000 < 0.05 : bác bỏ H0 Vậy nên chọn mô hình 2. Variable 9.4 0.0000 0.0000 F-statistic Likelihood ratio Std. Error 29.47504 0.000642 0.013237 9.010145 t-Statistic -0.738601 3.220096 9.275093 1.537436 Mean dependent var df (2, 82) 2 Coefficient Std. Error Unrestricted Test Equation: Dependent Variable: PRICE Method: Least Squares Included observations: 88 Prob. 0.4622 0.0018 0.0000 0.1279 Variable C LOTSIZE SQRFT BDRMS FITTED^2 FITTED^3 293.5460 R-squared 7 https://sites.google.com/a/ueh.edu.vn/phamtricao/ Value 4.668205 9.489063 166.0973 0.000154 0.017599 2.174904 0.000353 1.55E-06 0.705853 317.4325 0.005203 0.299251 33.88811 0.007099 6.55E-06 Probability 0.0120 0.0087 t-Statistic 0.523252 0.029545 0.058810 0.064179 0.049786 0.235810 Mean dependent var H0: Mô hình (9.4) có dạng hàm đúng . Với = 3% p-value = 0.0120 < 0.03: bác bỏ H0 Prob. 0.6022 0.9765 0.9532 0.9490 0.9604 0.8142 293.5460 8 2 Chương 9 - Nhập môn Kinh tế lượng * Jeffrey M. Wooldridge 09.12.2017 PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU Dependent Variable: LOG(PRICE) (MH 9.5) Method: Least Squares Included observations: 88 Ramsey RESET Test Equation: EQ01 Specification: PRICE C LOTSIZE SQRFT BDRMS Omitted Variables: Powers of fitted values from 2 to 5 F-statistic Likelihood ratio Value 3.225850 13.15896 df (4, 80) 4 Coefficient Std. Error Unrestricted Test Equation: Dependent Variable: PRICE Method: Least Squares Included observations: 88 Variable C LOTSIZE SQRFT BDRMS FITTED^2 FITTED^3 FITTED^4 FITTED^5 340.2329 0.002603 0.157983 19.32476 -0.034809 0.000191 -3.93E-07 2.83E-10 Variable Probability 0.0166 0.0105 3320.583 0.080979 4.816594 542.8438 0.240737 0.000714 1.02E-06 5.70E-10 t-Statistic 0.102462 0.032149 0.032800 0.035599 -0.144595 0.267613 -0.383490 0.495886 C LOG(LOTSIZE) LOG(SQRFT) BDRMS R-squared Prob. 0.9186 0.9744 0.9739 0.9717 0.8854 0.7897 0.7024 0.6213 F-statistic Likelihood ratio Unrestricted Test Equation: Dependent Variable: LOG(PRICE) Included observations: 88 0.642965 0.651284 0.038281 0.092865 0.027531 t-Statistic -1.991517 4.387714 7.540306 1.342415 Mean dependent var Mô hình 1: 9.6 5.633180 Variable Coefficient Std. Error t-Statistic Prob. C LOG(LOTSIZE) LOG(SQRFT) BDRMS FITTED^2 FITTED^3 87.88576 -4.181019 -17.34933 -0.925342 3.910284 -0.192766 240.9739 12.59521 52.48991 2.769757 13.01429 0.752080 0.364711 -0.331953 -0.330527 -0.334088 0.300461 -0.256311 0.7163 0.7408 0.7418 0.7392 0.7646 0.7984 Dạng hàm nào sẽ phù hợp hơn? 9.7 Mô hình 2: https://sites.google.com/a/ueh.edu.vn/phamtricao/ 0.0497 0.0000 0.0000 0.1831 10 Kiểm định đối với mô hình không lồng nhau Probability 0.0831 0.0692 H0: Mô hình (9.5) có dạng hàm đúng . Với = 6% p-value = 0.0831 > 0.06: chấp nhận H0 Prob. Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu Ramsey RESET Test Specification: LOG(PRICE) C LOG(LOTSIZE) LOG(SQRFT) BDRMS Omitted Variables: Powers of fitted values from 2 to 3 df (2, 82) 2 -1.297042 0.167967 0.700232 0.036958 Std. Error 9 PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU Value 2.565041 5.340099 Coefficient Xây dựng một mô hình hỗn hợp và mỗi mô hình ban đầu là trường hợp đặc biệt của mô hình hỗn hợp và kiểm định: y 0 1 x1 2 x2 3 log( x1 ) 4 log( x2 ) u 9.8 H0: 1=0, 2=0 cho mô hình 9.7 Thảo luận 11 H0: 3=0, 4=0 cho mô hình 9.6 Luôn có thể thực hiện; tuy nhiên, không có mô hình chiếm ưu thế rõ ràng. Không thể sử dụng nếu các mô hình có biến phụ thuộc có dạng hàm khác nhau. © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. 3 Chương 9 - Nhập môn Kinh tế lượng * Jeffrey M. Wooldridge 09.12.2017 PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU Wald Test: Equation: EQ03 • Tập tin hprice1.wf1 Dependent Variable: PRICE (MH 9.8) Method: Least Squares Included observations: 88 Variable C LOTSIZE SQRFT LOG(LOTSIZE) LOG(SQRFT) R-squared Coefficient 1403.700 -0.000493 0.247463 60.21552 -282.6301 0.713293 Test Statistic Std. Error 970.6562 0.001021 0.063686 20.04305 140.5320 t-Statistic 1.446135 -0.483133 3.885688 3.004309 -2.011144 Mean dependent var F-statistic Chi-square Prob. Normalized Restriction (= 0) C(2) C(3) 293.5460 F-statistic Chi-square Value 7.259057 14.51811 Null Hypothesis: C(4)=0,C(5)=0 Null Hypothesis Summary: Normalized Restriction (= 0) C(4) C(5) df (2, 83) 2 Value 60.21552 -282.6301 Restrictions are linear in coefficients. df (2, 83) 2 Value -0.000493 0.247463 Restrictions are linear in coefficients. PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU Test Statistic 7.792740 15.58548 Null Hypothesis: C(2)=0, C(3)=0 Null Hypothesis Summary: 0.1519 0.6303 0.0002 0.0035 0.0476 13 Wald Test: Equation: EQ03 Value Probability 0.0008 0.0004 Std. Err. 0.001021 0.063686 p-value = 0.0008 < 0.05: bác bỏ H0: 1=0, 2=0 Mô hình (9.7) không chiếm ưu thế hơn (9.6) 14 PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU • Cách làm này chỉ cho ra kết quả tốt khi 1 giả thiết bị bác bỏ và 1 giả thiết được chấp nhận. • Có thể dùng kiểm định Davidson-MacKinnon, trang 350. Probability 0.0012 0.0007 Std. Err. 20.04305 140.5320 p-value = 0.0012 < 0.05: bác bỏ H0: 3=0, 4=0 Mô hình (9.6) không chiếm ưu thế hơn (9.7) https://sites.google.com/a/ueh.edu.vn/phamtricao/ 15 16 4 Chương 9 - Nhập môn Kinh tế lượng * Jeffrey M. Wooldridge 09.12.2017 Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu 9.2 Sử dụng biến đại diện cho các biến giải thích không quan sát được Ví dụ: Bỏ sót biến năng lực trong mô hình tiền lương Thay bằng biến đại diện 9.9 Thông thường, ước lượng của suất sinh lợi giáo dục và kinh nghiệm thường bị chệch bởi vì mô hình có thể bỏ sót biến năng lực không quan sát được. Ý tưởng: tìm một biến đại diện cho năng lực, có thể kiểm soát và thể hiện được năng lực khác nhau giữa các cá nhân, khi đó hệ số hồi quy của các biến khác không còn chệch. Một trong những biến đại diện cho năng lực là chỉ số IQ hoặc kết quả của các bài kiểm tra tương tự. Cách sử dụng biến đại diện trong mô hình: 9.11 Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu Giả thiết đối với biến đại diện Biến đại diện “chỉ là đại diện“ cho biến bị bỏ sót, nó không thuộc vào hàm hồi quy tổng thể, nghĩa là, nó không tương quan với nhiễu. Nếu nhiễu và biến đại diện có tương quan, biến đại diện cần có mặt trong mô hình hồi quy tổng thể Biến đại diện phải đại diện “tốt“ cho biến bị bỏ sót, nghĩa là các biến khác thêm vào không giúp gì trong dự đoán biến bị bỏ sót. 9.10 Nếu điều này không thỏa, thì x1 và x2 cần được thêm vào mô hình hồi quy của biến bị bỏ sót. Biến bỏ sót, chẳng hạn: năng lực Hồi quy biến bỏ sót theo biến đại diện của nó (x3 đại diện cho x3*) © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu Khi thỏa các giả định trên, biến đại diện được sử dụng như sau: © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu Ví dụ 9.3: IQ là biến đại diện cho năng lực abil Giống với kỳ vọng, suất sinh lợi giáo dục giảm nếu IQ được đưa vào mô hình để làm đại diện cho biến năng lực không quan sát được. Trong mô hình hồi quy này, sai số ngẫu nhiên e= u+β3v3 không tương quan với tất cả biến giải thích. Khi đó, hệ số hồi quy sẽ được ước lượng đúng bằng OLS. Hệ số của biến x1 và x2 sẽ xác định đúng. Hệ số của biến đại diện trong nhiều trường hợp cũng được quan tâm (nó là bội số của hệ số đứng trước biến bị bỏ sót). Hệ số hồi quy đứng trước biến IQ cho biết sự khác nhau trong năng lực giữa các cá nhân có ý nghĩa quan trọng đến tiền lương (ví dụ, mức chênh lệnh 15 điểm IQ dẫn đến mức chênh lên 5,4 điểm phần trăm trong tiền lương). Thảo luận về giả thiết biến đại diện trong hàm tiền lương Giả thiết 1: Chỉ số IQ phải hoàn toàn không tác động trực tiếp đến tiền lương; quan trọng Ngay cả khi chỉ số IQ không hoàn toàn giải thích sự thay đổi do năng lực, việc thêm nó vào mô hình ít nhất làm giảm tính chệch của suất sinh lợi giáo dục. là một cá nhân chứng minh năng lực trong công việc như thế nào. Giả thiết 2: Hầu hết sự biến động của biến năng lực có thể được giải thích bởi sự thay đổi trong chỉ số IQ, chỉ có một số ít được giải thích bởi học vấn và kinh nghiệm. © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. https://sites.google.com/a/ueh.edu.vn/phamtricao/ 9.13 Có thể có đa cộng tuyến cao giữa IQ và educ Tương tác giữa năng lực và học vấn không có ý nghĩa. © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. 5 Chương 9 - Nhập môn Kinh tế lượng * Jeffrey M. Wooldridge 09.12.2017 PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU • Tập tin wage2.wf1 Dependent Variable: LOG(WAGE) (MH1) Method: Least Squares Included observations: 935 Variable EDUC EXPER TENURE MARRIED SOUTH URBAN BLACK C R-squared Adjusted R-squared Coefficient 0.065431 0.014043 0.011747 0.199417 -0.090904 0.183912 -0.188350 5.395497 0.252558 0.246914 Std. Error 0.006250 0.003185 0.002453 0.039050 0.026249 0.026958 0.037667 0.113225 t-Statistic 10.46826 4.408852 4.788998 5.106691 -3.463193 6.822087 -5.000444 47.65286 Mean dependent var S.D. dependent var Dependent Variable: LOG(WAGE) (MH2) Method: Least Squares Included observations: 935 Variable Prob. EDUC EXPER TENURE MARRIED SOUTH URBAN BLACK IQ C 0.0000 0.0000 0.0000 0.0000 0.0006 0.0000 0.0000 0.0000 6.779004 0.421144 R-squared Adjusted R-squared Coefficient 0.054411 0.014146 0.011395 0.199764 -0.080169 0.181946 -0.143125 0.003559 5.176439 0.262809 0.256441 Std. Error 0.006928 0.003165 0.002439 0.038802 0.026253 0.026793 0.039492 0.000992 0.128001 t-Statistic 7.853173 4.469316 4.671302 5.148237 -3.053735 6.790848 -3.624118 3.588501 40.44074 Mean dependent var S.D. dependent var Prob. 0.0000 0.0000 0.0000 0.0000 0.0023 0.0000 0.0003 0.0004 0.0000 6.779004 0.421144 21 Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU Dependent Variable: LOG(WAGE) (MH3) Method: Least Squares Included observations: 935 Variable EDUC EXPER TENURE MARRIED SOUTH URBAN BLACK IQ EDUC*IQ C R-squared Adjusted R-squared Chọn MH2. Coefficient 0.018456 0.013907 0.011393 0.200866 -0.080235 0.183576 -0.146699 -0.000942 0.000340 5.648248 0.263438 0.256271 Std. Error 0.041061 0.003177 0.002440 0.038827 0.026256 0.026859 0.039701 0.005163 0.000383 0.546296 t-Statistic 0.449479 4.377665 4.669853 5.173393 -3.055888 6.834892 -3.695069 -0.182424 0.888386 10.33916 Mean dependent var S.D. dependent var https://sites.google.com/a/ueh.edu.vn/phamtricao/ 22 Sử dụng biến trễ của biến phụ thuộc làm biến đại diện Prob. Trong nhiều trường hợp, yếu tố không quan sát được bị bỏ sót có thể được đại diện 0.6532 0.0000 0.0000 0.0000 0.0023 0.0000 0.0002 0.8553 0.3746 0.0000 bởi giá trị của biến phụ thuộc ở các thời điểm trước. Ví dụ 9.4: Tỷ lệ tội phạm trong thành phố 6.779004 0.421144 23 9.16 Việc đưa thêm tỷ lệ tội phạm thời điểm trước vào mô hình ít nhất kiểm soát được phần nào các yếu tố bị bỏ sót có tác động đến tỷ lệ tội phạm trong năm đang xét. So sánh hai thành phố có cùng tỷ lệ tội phạm vào năm trước; nghĩa là, chúng ta đã tránh trường hợp so sánh hai thành phố có sự khác biệt rất lớn trong các yếu tố tác động đến tỷ lệ tội phạm không quan sát được. Kỳ vọng dấu của β3>0. Nếu 2 thành phố có cùng tỷ lệ tội phạm trước đây (crime-1) và tỷ lệ thất nghiệp hiện tại (unem), β2 đo lường tác động của expend lên crime. © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. 6 Chương 9 - Nhập môn Kinh tế lượng * Jeffrey M. Wooldridge 09.12.2017 PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU • Tập tin crime2.wf1 Dependent Variable: LOG(CRMRTE87) (MH2) Method: Least Squares Included observations: 46 after adjustments • Ví dụ 9.4: Tỷ lệ tội phạm trong thành phố Dependent Variable: LOG(CRMRTE87) (MH1) Method: Least Squares Included observations: 46 after adjustments Variable UNEM87 LOG(LAWEXPC87) C R-squared Adjusted R-squared Coefficient -0.029003 0.203365 3.342899 0.057117 0.013262 Std. Error 0.032339 0.172653 1.250526 Variable t-Statistic -0.896856 1.177881 2.673194 Mean dependent var S.D. dependent var Dấu của UNEM87 và LOG(LAWEXPC87) trái với kỳ vọng. Coefficient UNEM87 LOG(LAWEXPC87) LOG(CRMRTE82) C Prob. 0.3748 0.2453 0.0106 0.008621 -0.139576 1.193923 0.076450 R-squared Adjusted R-squared 4.590739 0.325302 0.679830 0.656961 Std. Error t-Statistic 0.019517 0.108641 0.132098 0.821143 0.441725 -1.284745 9.038124 0.093102 Mean dependent var S.D. dependent var Dấu của UNEM87 và LOG(LAWEXPC87) đúng với kỳ vọng. Prob. 0.6610 0.2059 0.0000 0.9263 4.590739 0.325302 25 26 Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU • Cách tạo ra biến CRMRTE82: • Tạo ra biến CRMRTE82 từ biến CRMRTE. 9.3 Mô hình với hệ số góc ngẫu nhiên (= Mô hình có hệ số ngẫu nhiên) (tự đọc) • Thêm 1 quan sát NA vào dòng đầu tiên (Insert obs…). Hệ số chặn trung bình Thành phần ngẫu nhiên Hệ số góc trung bình 9.18 Thành phần ngẫu nhiên Mô hình có hệ số chặn ngẫu nhiên và hệ số góc ngẫu nhiên Sai số Thành phần ngẫu nhiên của một cá nhân độc lập với biến giải thích Giả thiết: 27 https://sites.google.com/a/ueh.edu.vn/phamtricao/ 9.20 WLS hay OLS với sai số chuẩn cải thiện sẽ giúp ước lượng vững hệ số chặn trung bình và hệ số góc trung bình của tổng thể. © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. 7 Chương 9 - Nhập môn Kinh tế lượng * Jeffrey M. Wooldridge 09.12.2017 Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU Khi chúng ta sử dụng 1 thước đo không chính xác cho 1 biến kinh tế trong 1 mô hình hồi quy, thì có nghĩa là mô hình của chúng ta hàm chứa vấn đề sai số đo lường. 9.4 Tính chất của OLS khi có sai số trong đo lường • sav*: tiết kiệm thật sự, sav: tiết kiệm báo cáo • Khá hợp lý nếu giả thiết sai số đo lường không tương quan với inc, size, educ, age. Giá trị sai = Giá trị đúng + Sai số đo lường Hàm hồi quy tổng thể 9.25 • sav* = β0 + β1inc + β2size + β3educ + β4age + u • e0 = sav-sav* Sai số đo lường ở biến phụ thuộc 9.24 • Ví dụ 9.5: Hàm tiết kiệm với sai số đo lường Mô hình được ước lượng Hậu quả của sai số đo lường ở biến phụ thuộc Ước lượng kém hiệu quả hơn do phương sai sai số cao hơn. Tuy nhiên, ước lượng OLS vẫn không chệch và vững (với giả thiết sai số đo lường e0 không tương quan với các biến giải thích xj). Ngoài ra, các thống kê t, F, LM vẫn hợp lệ. • Chúng ta có thể không bao giờ biết được sai số đo lường có tương quan với inc, educ hay không, trừ khi chúng ta thu thập được dữ liệu về sav*. • Ví dụ 9.6: Sai số đo lường trong tỷ lệ phế phẩm • log(scrap*)= β0 + β1grant + u • scrap*: tỷ lệ phế phẩm thực tế, scrap: tỷ lệ phế phẩm công ty báo cáo • e0 = log(scrap) - log(scrap*) 30 © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu Sai số đo lường ở 1 biến giải thích 9.28 9.27 Dưới giả thiết sai số trong đo lường cổ điển (CEV), OLS cho ước lượng chệch và không vững vì biến đo sai x1 bị nội sinh. Hàm hồi quy tổng thể Có thể biểu diễn tính không vững của ước lượng như sau: Mô hình được ước lượng 9.30 Sai số không tương quan với giá trị đúng Giả thiết sai số trong đo lường cổ điển: 9.31 9.32 Hậu quả của sai số đo lường trong biến giải thích Giá trị sai = Giá trị đúng + Sai số đo lường - Giá trị sai x1 có tương quan với sai số của mô hình © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. https://sites.google.com/a/ueh.edu.vn/phamtricao/ Nhân tử này (liên quan đến phương sai của nhiễu trong hàm hồi quy giá trị đúng 9.33 của x1 theo các biến giải thích khác) luôn nhận giá trị từ 0 đến nhỏ hơn 1. Tác động của biến đo sai bị chệch suy giảm, nghĩa là độ lớn tác động của biến đo sai luôn gần với giá trị 0 hơn so với tác động của biến đúng. Ví dụ nếu β1 >0 thì β1^ sẽ có xu hướng ước lượng thấp hơn β1. Ngoài ra, tác động của các biến giải thích khác cũng bị chệch. © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. 8 Chương 9 - Nhập môn Kinh tế lượng * Jeffrey M. Wooldridge 09.12.2017 Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU • • • • • • Ví dụ 9.7: Phương trình GPA với sai số đo lường colGPA = β0 + β1faminc* + β2hsGPA + β3SAT + u faminc*: thu nhập thực tế hàng năm của hộ gia đình faminc: thu nhập hàng năm của hộ gia đình do sinh viên kê khai e1 = faminc - faminc* Nếu dùng faminc thay cho faminc* sẽ làm chệch ước lượng OLS của β1 về phía 0. Một hậu quả của sự chệch dưới là kiểm định giả thiết H0: β1 = 0 ; H1: β1 > 0 sẽ thường cho kết quả chấp nhận H0 (do |t| nhỏ). 9.5 Dữ liệu bị khuyết, mẫu phi ngẫu nhiên, các quan sát bất thường (tự đọc) Dữ liệu bị khuyết do chọn mẫu Dữ liệu khuyết là trường hợp đặc biệt của vấn đề chọn mẫu (mẫu phi ngẫu nhiên) khi quan sát bị thiếu thông tin không thể sử dụng được. Nếu mẫu được chọn dựa trên các biến độc lập thì hàm hồi quy không gặp bất kỳ vấn đề nào vì hàm hồi quy xét điều kiện dựa trên các biến dộc lập. Nói chung, việc chọn mẫu sẽ không có vấn đề gì trong trường hợp nó không liên quan tới sai số của mô hình (= chọn mẫu ngoại sinh). Việc chọn mẫu sẽ có vấn đề nếu nó dựa trên biến phụ thuộc hoặc sai số (= chọn mẫu nội sinh). 33 Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu Ví dụ về chọn mẫu ngoại sinh 9.37 Nếu mẫu phi ngẫu nhiên được chọn theo nhóm thu nhập, nhóm tuổi, quy mô gia đình, thì hàm hồi quy không có bất kỳ vấn đề gì bởi vì nó nghiên cứu tiết kiệm cho một tập con của tổng thể được xác định bởi thu nhập, tuổi và quy mô gia đình. Ví dụ về chọn mẫu nội sinh 9.38 Nếu mẫu phi ngẫu nhiên là do các cá nhân từ chối tham gia cuộc khảo sát vì giá trị tài sản của họ (wealth) quá cao hoặc thấp, kết quả ước lượng sẽ bị chệch vì những cá nhân này có sự khác biệt © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu Quan sát bất thường và quan sát có ảnh hưởng lớn Quan sát có giá trị cách xa hay bất thường là vấn đề đặc trưng của OLS vì phương pháp này dựa trên bình phương phần dư. Nếu quan sát bất thường do sai sót khi nhập liệu, ta chỉ cần bỏ đi các quan sát đó. Nếu quan sát bất thường nảy sinh do quá trình thu thập dữ liệu, việc quyết định giữ lại hay bỏ đi những quan sát này không phải dễ dàng. Ví dụ 9.8: Cường độ R&D và quy mô doanh nghiệp 9.40 một cách hệ thống với những cá nhân không từ chối tham gia mẫu khảo sát. © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. https://sites.google.com/a/ueh.edu.vn/phamtricao/ © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. 9 Chương 9 - Nhập môn Kinh tế lượng * Jeffrey M. Wooldridge 09.12.2017 Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU • Tập tin rdchem.wf1 Dependent Variable: RDINTENS Method: Least Squares Sample: 1 32 Included observations: 32 Ví dụ 9.8: Cường độ R&D và quy mô doanh nghiệp (tiếp tục) Variable C SALES PROFMARG R-squared Adjusted R-squared Giá trị bất thường này không phải là lỗi nhập liệu: Một trong các công ty trong dữ liệu có quy mô lớn hơn các công ty khác Coefficient 2.622954 5.35E-05 0.044744 0.076490 0.012800 Std. Error 0.585494 4.41E-05 0.046179 t-Statistic 4.479896 1.214138 0.968926 Mean dependent var S.D. dependent var Prob. 0.0001 0.2345 0.3406 3.265625 1.874079 Kết quả ước lượng khi không có quan sát bất thường thì có ý nghĩa hơn. 38 © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. Phân tích hồi quy bội: Vấn đề dạng hàm và dữ liệu PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU Dependent Variable: RDINTENS Method: Least Squares Sample: 1 32 IF (SALES<>39709) Included observations: 31 Variable C SALES PROFMARG R-squared Adjusted R-squared Coefficient 2.294401 0.000186 0.047974 0.173177 0.114118 9.6 Phương pháp độ lệch tuyệt đối nhỏ nhất (LAD) Std. Error 0.591756 8.42E-05 0.044480 t-Statistic 3.877273 2.206527 1.078555 Mean dependent var S.D. dependent var Phương pháp độ lệch tuyệt đối nhỏ nhất tìm cách cực tiểu hóa tổng trị tuyệt đối của các phần dư (thay vì tổng bình phương phần dư, OLS) Prob. 0.0006 0.0357 0.2900 9.45 Ít nhạy cảm hơn với các giá trị bất thường vì không bình phương phần dư. 3.254839 1.904048 Phương pháp độ lệch tuyệt đối nhỏ nhất ước lượng các tham số của trung vị có điều kiện (thay vì trung bình có điều kiện như OLS) Các ước lượng độ lệch tuyệt đối nhỏ nhất là trường hợp đặc biệt của hồi quy phân vị (ước lượng các tham số của phân vị có điều kiện). 39 https://sites.google.com/a/ueh.edu.vn/phamtricao/ © 2012 Cengage Learning. All Rights Reserved. May not be scanned, copied or duplicated, or posted to a publicly accessible website, in whole or in part. 10 Chương 9 - Nhập môn Kinh tế lượng * Jeffrey M. Wooldridge 09.12.2017 PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU • Tập tin rdchem.wf1 • • • • Nhược điểm của LAD: Không thể viết thành các công thức đối với các ước lượng LAD. LAD cần nhiều tính toán hơn so với OLS. Các suy diễn thống kê liên quan tới các ước lượng LAD chỉ đúng khi cỡ mẫu lớn. • LAD luôn luôn ước lượng không vững các tham số xuất hiện trong hàm hồi quy trung bình có điều kiện E(y/x1,…xk). • Để LAD ước lượng vững trung bình có điều kiện E(y/x1,…xk) thì cần thêm 2 giả thiết (ngoài các giả thiết đã biết): – Phân phối của u|x1,…, xk đối xứng qua giá trị 0. – u độc lập với (x1,…, xk). Dependent Variable: RDINTENS (OLS) Method: Least Squares Included observations: 32 Variable C SALES PROFMARG R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic) Coefficient 2.622954 5.35E-05 0.044744 0.076490 0.012800 1.862047 100.5493 -63.72464 1.200970 0.315429 Std. Error 0.585494 4.41E-05 0.046179 t-Statistic 4.479896 1.214138 0.968926 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. Durbin-Watson stat Prob. 0.0001 0.2345 0.3406 3.265625 1.874079 4.170290 4.307702 4.215838 1.694915 41 42 PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU PHÂN TÍCH HỒI QUY BỘI: VẤN ĐỀ DẠNG HÀM VÀ DỮ LIỆU Dependent Variable: RDINTENS (LAD) Method: Quantile Regression (Median) Included observations: 32 Huber Sandwich Standard Errors & Covariance Sparsity method: Kernel (Epanechnikov) using residuals Bandwidth method: Hall-Sheather, bw=0.30602 Estimation successfully identifies unique optimal solution • Kiểm tra giả thiết MLR4: Variable C SALES PROFMARG Pseudo R-squared Adjusted R-squared S.E. of regression Quantile dependent var Sparsity Prob(Quasi-LR stat) Coefficient 1.620740 1.87E-05 0.118251 0.059663 -0.005188 2.008451 2.620000 4.885282 0.355692 Std. Error 0.699333 4.99E-05 0.062049 t-Statistic 2.317552 0.374881 1.905760 Xem Chương 15, mục 15.5 Prob. 0.0277 0.7105 0.0666 Mean dependent var S.D. dependent var Objective 3.265625 1.874079 19.89753 Restr. objective Quasi-LR statistic 21.16000 2.067383 https://sites.google.com/a/ueh.edu.vn/phamtricao/ 43 44 11 Chương 9 - Nhập môn Kinh tế lượng * Jeffrey M. Wooldridge 09.12.2017 Môøi gheù thaêm trang web: 45 https://sites.google.com/a/ueh.edu.vn/phamtricao/ https://sites.google.com/site/phamtricao/ https://sites.google.com/a/ueh.edu.vn/phamtricao/ 12