Các giả định của mô hình hồi quy tuyến tính cổ điển và kiểm tra chẩn đoán

Chào mừng các bạn sinh viên đến với chuỗi bài học quan trọng về Mô hình Hồi quy Tuyến tính Cổ điển (CLRM). Trong kinh tế lượng, việc xây dựng một mô hình hồi quy giống như xây một ngôi nhà vậy. Phương pháp Bình phương nhỏ nhất thông thường (OLS) là một công cụ xây dựng vô cùng mạnh mẽ, nhưng để ngôi nhà đó vững chắc và đáng tin cậy, nền móng của nó phải tuân thủ những quy tắc nhất định. Những quy tắc đó chính là các giả định của CLRM.

Trong chuỗi bài học này, chúng ta sẽ đóng vai trò vừa là kỹ sư xây dựng, vừa là thanh tra chất lượng. Chúng ta sẽ không chỉ học cách xây dựng mô hình bằng OLS, mà quan trọng hơn, chúng ta sẽ học cách “kiểm tra sức khỏe” cho mô hình của mình. Chúng ta sẽ tìm hiểu điều gì xảy ra khi các giả định nền tảng bị vi phạm và làm thế nào để chẩn đoán các “căn bệnh” phổ biến của mô hình hồi quy. Việc nắm vững các kỹ thuật này là cực kỳ quan trọng, vì nó quyết định liệu kết quả nghiên cứu của bạn có đáng tin cậy hay không, và liệu những suy luận bạn đưa ra có hợp lệ hay không. Đừng lo lắng về sự phức tạp, chúng ta sẽ cùng nhau đi qua từng khái niệm, từng kiểm định một cách chi tiết và dễ hiểu nhất.

Để bắt đầu hành trình này, chúng ta sẽ tập trung vào ba vấn đề cốt lõi mà bất kỳ nhà kinh tế lượng nào cũng phải đối mặt:

Phương sai sai số thay đổi (Heteroscedasticity): Điều gì xảy ra khi độ phân tán của sai số không còn ổn định?
Tự tương quan (Autocorrelation): Sai số của mô hình ở thời điểm này có “liên quan” gì đến sai số ở các thời điểm trước đó không?
Tính ổn định của tham số (Parameter Stability): Liệu các mối quan hệ trong mô hình của chúng ta có đúng cho mọi giai đoạn thời gian không?

Nền tảng về các giả định CLRM và phương sai sai số thay đổi
Tìm hiểu 5 giả định cốt lõi và khám phá vấn đề đầu tiên: phương sai sai số thay đổi và cách phát hiện bằng kiểm định White.
Hiện tượng tự tương quan – Nguyên nhân, phát hiện và hậu quả
Giải quyết giả định về tính độc lập của sai số, học cách nhận biết tự tương quan qua đồ thị và kiểm định Durbin-Watson.
Xử lý tự tương quan và giới thiệu các mô hình động
Học các phương pháp khắc phục tự tương quan như kiểm định Breusch-Godfrey và hiểu vai trò quan trọng của các mô hình động.
Các giả định còn lại – Biến không ngẫu nhiên và phân phối chuẩn
Hoàn thiện kiến thức về các giả định CLRM, bao gồm giả định về biến giải thích không ngẫu nhiên và kiểm định phân phối chuẩn Bera-Jarque.
Các vấn đề đặc tả mô hình – Đa cộng tuyến và dạng hàm
Tìm hiểu các lỗi đặc tả phổ biến như đa cộng tuyến và cách sử dụng kiểm định RESET để chọn dạng hàm phù hợp cho mô hình.
Lỗi bỏ sót biến và kiểm định tính ổn định của tham số
Khám phá hậu quả của việc chọn sai biến và học cách sử dụng kiểm định Chow để kiểm tra tính ổn định của mô hình theo thời gian.
Triết lý xây dựng mô hình và nghiên cứu tình huống thực tế
Tổng hợp kiến thức qua các triết lý xây dựng mô hình và phân tích một nghiên cứu thực tế về xếp hạng tín dụng quốc gia.
Hướng dẫn thực hành chẩn đoán mô hình với Stata
Áp dụng tất cả các kiểm định đã học vào một bộ dữ liệu duy nhất, từ kiểm tra phương sai sai số thay đổi, tự tương quan đến tính ổn định của tham số.

KIẾN THỨC TIÊN QUYẾT

Thống kê căn bản: Hiểu về kỳ vọng, phương sai, hiệp phương sai, phân phối chuẩn, phân phối F và Chi-bình phương.
Kinh tế lượng nhập môn: Nắm vững mô hình hồi quy OLS đơn và bội, ý nghĩa của hệ số hồi quy, R-bình phương và kiểm định t, F.
Stata cơ bản: Biết cách nhập dữ liệu, sử dụng các lệnh cơ bản như summarize, regress, và tạo biến mới.

MỤC TIÊU HỌC TẬP

Hiểu sâu sắc: Nắm vững ý nghĩa và tầm quan trọng của từng giả định trong mô hình hồi quy tuyến tính cổ điển.
Chẩn đoán thành thạo: Có khả năng thực hiện và diễn giải kết quả của các kiểm định chẩn đoán quan trọng (White, Durbin-Watson, Breusch-Godfrey, Chow).
Nhận biết hậu quả: Hiểu rõ các vấn đề phát sinh (ví dụ: ước lượng chệch, sai số chuẩn không đáng tin cậy) khi một giả định bị vi phạm.
Áp dụng thực tế: Biết cách lựa chọn và áp dụng các biện pháp khắc phục phù hợp để cải thiện độ tin cậy của mô hình hồi quy.

TÀI LIỆU THAM KHẢO

Chính: Brooks, C. (2019). Introductory Econometrics for Finance. Cambridge University Press. (Chương 5).
Bổ sung dễ hiểu: Wooldridge, J.M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning.
Nâng cao: Greene, W.H. (2018). Econometric Analysis. Pearson.
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Stata Press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp các bạn dễ dàng thực hành theo các bài học, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài viết này. Bộ dữ liệu này mô phỏng mối quan hệ giữa tiền lương và các yếu tố như trình độ học vấn, kinh nghiệm làm việc và giới tính. Việc sử dụng một bộ dữ liệu nhất quán sẽ giúp chúng ta thấy rõ cách các vấn đề khác nhau (như phương sai sai số thay đổi, tự tương quan) có thể xuất hiện và cách chúng ta chẩn đoán và khắc phục chúng.

Hãy mở Stata và chạy đoạn code dưới đây để tạo và lưu bộ dữ liệu wage_data.dta vào thư mục làm việc của bạn. Chúng ta sẽ sử dụng tệp này trong các bài học tiếp theo.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu đơn giản để thực hành các kiểm định chẩn đoán
* ==================================================

* Xóa bộ nhớ và đặt số quan sát
clear
set obs 200

* Đặt seed để kết quả có thể tái lập - một thói quen tốt trong nghiên cứu!
set seed 12345

* --- TẠO CÁC BIẾN GIẢI THÍCH ---

* Tạo biến số năm đi học (education), giả sử từ 12 đến 20 năm
gen education = 12 + floor(9 * runiform())

* Tạo biến kinh nghiệm làm việc (experience), từ 1 đến 30 năm
gen experience = 1 + floor(30 * runiform())

* Tạo biến kinh nghiệm bình phương để nắm bắt hiệu ứng phi tuyến
gen experience2 = experience^2

* Tạo biến giới tính (female), 1 = Nữ, 0 = Nam (khoảng 50% là nữ)
gen female = (runiform() > 0.5)

* --- TẠO BIẾN PHỤ THUỘC (LƯƠNG) VỚI CÁC VẤN ĐỀ TIỀM ẨN ---

* 1. Tạo sai số có phương sai thay đổi (heteroscedastic)
* Phương sai của sai số tăng theo trình độ học vấn
gen hetero_error = rnormal(0, education/6)

* 2. Tạo sai số có tự tương quan (autocorrelated) bậc nhất AR(1)
* Sắp xếp dữ liệu theo một biến giả (time) để tạo cấu trúc chuỗi thời gian
gen time = _n
tsset time
gen auto_error = 0
replace auto_error = 0.7 * L.auto_error + rnormal(0,1) in 2/l

* 3. Tạo sai số chuẩn
gen normal_error = rnormal(0, 2)

* --- TẠO BIẾN LƯƠNG (wage) ---
* Lương cơ bản là 5 tr/tháng, mỗi năm học vấn tăng 1.5tr, kinh nghiệm có hiệu ứng giảm dần
* Nữ giới có lương thấp hơn 2tr
gen wage = 5 + 1.5*education + 0.4*experience - 0.005*experience2 - 2*female + normal_error + hetero_error + auto_error/5

* Đặt tên cho các biến để dễ nhận biết
label variable wage "Lương hàng tháng (triệu VND)"
label variable education "Số năm đi học"
label variable experience "Số năm kinh nghiệm"
label variable experience2 "Kinh nghiệm bình phương"
label variable female "Biến giả cho giới tính (1=Nữ)"

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
compress
save "wage_data.dta", replace

* Xem qua dữ liệu vừa tạo
describe
summarize wage education experience female

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu đơn giản để thực hành các kiểm định chẩn đoán
* ==================================================

* Xóa bộ nhớ và đặt số quan sát
clear
set obs 200

* Đặt seed để kết quả có thể tái lập - một thói quen tốt trong nghiên cứu!
set seed 12345

* --- TẠO CÁC BIẾN GIẢI THÍCH ---

* Tạo biến số năm đi học (education), giả sử từ 12 đến 20 năm
gen education = 12 + floor(9 * runiform())

* Tạo biến kinh nghiệm làm việc (experience), từ 1 đến 30 năm
gen experience = 1 + floor(30 * runiform())

* Tạo biến kinh nghiệm bình phương để nắm bắt hiệu ứng phi tuyến
gen experience2 = experience^2

* Tạo biến giới tính (female), 1 = Nữ, 0 = Nam (khoảng 50% là nữ)
gen female = (runiform() > 0.5)

* --- TẠO BIẾN PHỤ THUỘC (LƯƠNG) VỚI CÁC VẤN ĐỀ TIỀM ẨN ---

* 1. Tạo sai số có phương sai thay đổi (heteroscedastic)
* Phương sai của sai số tăng theo trình độ học vấn
gen hetero_error = rnormal(0, education/6)

* 2. Tạo sai số có tự tương quan (autocorrelated) bậc nhất AR(1)
* Sắp xếp dữ liệu theo một biến giả (time) để tạo cấu trúc chuỗi thời gian
gen time = _n
tsset time
gen auto_error = 0
replace auto_error = 0.7 * L.auto_error + rnormal(0,1) in 2/l

* 3. Tạo sai số chuẩn
gen normal_error = rnormal(0, 2)

* --- TẠO BIẾN LƯƠNG (wage) ---
* Lương cơ bản là 5 tr/tháng, mỗi năm học vấn tăng 1.5tr, kinh nghiệm có hiệu ứng giảm dần
* Nữ giới có lương thấp hơn 2tr
gen wage = 5 + 1.5*education + 0.4*experience - 0.005*experience2 - 2*female + normal_error + hetero_error + auto_error/5

* Đặt tên cho các biến để dễ nhận biết
label variable wage "Lương hàng tháng (triệu VND)"
label variable education "Số năm đi học"
label variable experience "Số năm kinh nghiệm"
label variable experience2 "Kinh nghiệm bình phương"
label variable female "Biến giả cho giới tính (1=Nữ)"

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
compress
save "wage_data.dta", replace

* Xem qua dữ liệu vừa tạo
describe
summarize wage education experience female

Sau khi chạy code, bạn sẽ có một tệp tên là wage_data.dta. Hãy giữ tệp này cẩn thận, chúng ta sẽ bắt đầu sử dụng nó ngay trong những bài học tới để “chẩn đoán” các vấn đề kinh tế lượng trong thực tế!

📚 Bài tiếp theo: Nền tảng về các giả định CLRM và phương sai sai số thay đổi

💡 Lưu ý: Hãy đảm bảo bạn đã chạy code ở trên và tạo thành công tệp dữ liệu. Việc chuẩn bị sẵn sàng sẽ giúp bạn tập trung hoàn toàn vào các khái niệm kinh tế lượng trong bài học tiếp theo.