Mô hình hồi quy tuyến tính: Các giả định cổ điển

Trong khuôn khổ của mô hình hồi quy tuyến tính cổ điển, các giả định về sai số ngẫu nhiên đóng vai trò nền tảng để đảm bảo các ước lượng Bình phương nhỏ nhất thông thường (OLS) đạt được tính chất BLUE (Best Linear Unbiased Estimator). Tuy nhiên, trong thực tế nghiên cứu, đặc biệt là với dữ liệu kinh tế – xã hội, các giả định này thường bị vi phạm. Hai trong số những vi phạm phổ biến và quan trọng nhất là hiện tượng phương sai của sai số thay đổi (heteroscedasticity) và tự tương quan (autocorrelation) của sai số. Chuỗi bài viết này sẽ đi sâu vào việc nới lỏng các giả định kinh điển này, cung cấp một cái nhìn toàn diện từ lý thuyết, phương pháp kiểm định, kỹ thuật khắc phục cho đến ứng dụng thực hành chi tiết với phần mềm Stata.

Phương sai thay đổi là một vấn đề đặc trưng của dữ liệu chéo, xảy ra khi phương sai của sai số ngẫu nhiên không phải là hằng số mà thay đổi theo các giá trị của biến độc lập. Chẳng hạn, sự biến động trong chi tiêu của các hộ gia đình có thu nhập cao thường lớn hơn nhiều so với các hộ gia đình thu nhập thấp. Ngược lại, tự tương quan lại là “căn bệnh” kinh niên của dữ liệu chuỗi thời gian, phát sinh khi các sai số ở những thời điểm khác nhau có tương quan với nhau. Điều này ngụ ý rằng sai số của kỳ hiện tại “ghi nhớ” thông tin từ các kỳ quá khứ, làm ảnh hưởng đến tính hiệu quả của mô hình. Việc bỏ qua hai hiện tượng này sẽ dẫn đến các ước lượng không còn hiệu quả, sai số chuẩn bị chệch, và các kiểm định thống kê (t-test, F-test) trở nên không đáng tin cậy. Do đó, việc nhận diện và xử lý chúng là kỹ năng tối quan trọng đối với bất kỳ nhà nghiên cứu kinh tế lượng nào.

Cấu trúc chuỗi bài học

Bài 1: Nền tảng về Phương sai thay đổi (Heteroscedasticity)
Bài 2: Các kiểm định và Sai số chuẩn hiệu chỉnh cho Phương sai thay đổi
Bài 3: Các phương pháp ước lượng khi có Phương sai thay đổi (GLS, WLS, FGLS)
Bài 4: Nền tảng về Tự tương quan (Autocorrelation)
Bài 5: Kiểm định Durbin-Watson và các phương pháp khắc phục Tự tương quan
Bài 6: Hướng dẫn thực hành tổng hợp: Phân tích và xử lý các vi phạm giả định OLS với Stata

Kiến thức tiên quyết

Kinh tế lượng cơ bản: Nắm vững mô hình hồi quy tuyến tính OLS và các giả định Gauss-Markov.
Thống kê suy luận: Hiểu rõ về các khái niệm kiểm định giả thuyết, giá trị p, và khoảng tin cậy.
Đại số tuyến tính: Có kiến thức cơ bản về ma trận, vector và các phép toán liên quan.
Sử dụng Stata: Quen thuộc với giao diện Stata, các lệnh quản lý dữ liệu và lệnh regress.

Mục tiêu học tập

Hiểu rõ bản chất, nguyên nhân và hậu quả của phương sai thay đổi và tự tương quan.
Thành thạo các phương pháp kiểm định chính thức (Breusch-Pagan, White, Durbin-Watson) trong Stata.
Nắm vững các kỹ thuật khắc phục, từ việc sử dụng sai số chuẩn bền vững (robust standard errors) đến các phương pháp ước lượng nâng cao như WLS, FGLS.
Có khả năng diễn giải kết quả một cách chính xác và đưa ra những kết luận nghiên cứu đáng tin cậy khi các giả định OLS bị vi phạm.

Tài liệu tham khảo chính

Das, P. (2019). Econometrics in theory and practice: Analysis of cross section, time series and panel data with Stata 15.1. Springer Nature Singapore.
Breusch, T.S., & Pagan, A.R. (1979). A Simple Test for Heteroscedasticity and Random Coefficient Variation. Econometrica, 47, 987–1007.
White, H. (1980). A Heteroscedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroscedasticity. Econometrica, 48, 817–838.
Wooldridge, J.M. (2019). Introductory Econometrics: A Modern Approach (7th ed.). Cengage Learning.

Phụ lục: Dữ liệu mô phỏng cho chuỗi bài viết

Để thuận tiện cho việc thực hành, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng bao gồm cả các đặc tính của dữ liệu chéo và chuỗi thời gian. Bộ dữ liệu này được thiết kế đặc biệt để minh họa cho các vấn đề về phương sai thay đổi và tự tương quan.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG
* Mục đích: Minh họa phương sai thay đổi và tự tương quan
* ==================================================

clear all
set obs 500
set seed 12345

* --- Phần 1: Dữ liệu chéo (minh họa PSSHĐ) ---
* Tạo biến ID cho các cá nhân
gen id = _n

* Tạo biến độc lập: số năm kinh nghiệm (experience)
gen experience = runiformint(1, 25)
label var experience "Số năm kinh nghiệm"

* Tạo thành phần sai số có phương sai thay đổi (phương sai tăng theo kinh nghiệm)
gen error_het = rnormal(0, experience)

* Tạo biến phụ thuộc: log của tiền lương (ln_wage)
gen ln_wage = 1.5 + 0.08*experience + 0.001*(experience^2) + error_het
label var ln_wage "Log của tiền lương hàng giờ"


* --- Phần 2: Dữ liệu chuỗi thời gian (minh họa TTQ) ---
* Chuyển sang cấu trúc dữ liệu thời gian
drop if _n > 65 // Giữ lại 65 quan sát cho chuỗi thời gian
drop id experience error_het ln_wage
gen year = 1960 + _n - 1
tsset year

* Tạo biến độc lập: log của GDP (ln_gdp)
gen gdp_trend = 1000 * (1.03^(year - 1960))
gen ln_gdp = log(gdp_trend) + rnormal(0, 0.05)
label var ln_gdp "Log của GDP thực tế"

* Tạo sai số có tự tương quan bậc nhất AR(1) với rho = 0.8
gen error_ac = 0 in 1
replace error_ac = 0.8 * L.error_ac + rnormal(0, 0.1) in 2/l

* Tạo biến phụ thuộc: log của tiêu dùng (ln_consumption)
gen ln_consumption = 0.5 + 0.9*ln_gdp + error_ac
label var ln_consumption "Log của tiêu dùng thực tế"

* Lưu dữ liệu
* compress
* save "simulation_data.dta", replace

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG
* Mục đích: Minh họa phương sai thay đổi và tự tương quan
* ==================================================

clear all
set obs 500
set seed 12345

* --- Phần 1: Dữ liệu chéo (minh họa PSSHĐ) ---
* Tạo biến ID cho các cá nhân
gen id = _n

* Tạo biến độc lập: số năm kinh nghiệm (experience)
gen experience = runiformint(1, 25)
label var experience "Số năm kinh nghiệm"

* Tạo thành phần sai số có phương sai thay đổi (phương sai tăng theo kinh nghiệm)
gen error_het = rnormal(0, experience)

* Tạo biến phụ thuộc: log của tiền lương (ln_wage)
gen ln_wage = 1.5 + 0.08*experience + 0.001*(experience^2) + error_het
label var ln_wage "Log của tiền lương hàng giờ"


* --- Phần 2: Dữ liệu chuỗi thời gian (minh họa TTQ) ---
* Chuyển sang cấu trúc dữ liệu thời gian
drop if _n > 65 // Giữ lại 65 quan sát cho chuỗi thời gian
drop id experience error_het ln_wage
gen year = 1960 + _n - 1
tsset year

* Tạo biến độc lập: log của GDP (ln_gdp)
gen gdp_trend = 1000 * (1.03^(year - 1960))
gen ln_gdp = log(gdp_trend) + rnormal(0, 0.05)
label var ln_gdp "Log của GDP thực tế"

* Tạo sai số có tự tương quan bậc nhất AR(1) với rho = 0.8
gen error_ac = 0 in 1
replace error_ac = 0.8 * L.error_ac + rnormal(0, 0.1) in 2/l

* Tạo biến phụ thuộc: log của tiêu dùng (ln_consumption)
gen ln_consumption = 0.5 + 0.9*ln_gdp + error_ac
label var ln_consumption "Log của tiêu dùng thực tế"

* Lưu dữ liệu
* compress
* save "simulation_data.dta", replace

Mô tả các biến trong dữ liệu mô phỏng

ln_wage: Log của tiền lương, được tạo ra với sai số có phương sai thay đổi phụ thuộc vào kinh nghiệm.
experience: Số năm kinh nghiệm, biến độc lập gây ra hiện tượng phương sai thay đổi.
ln_consumption: Log của tiêu dùng, được tạo ra với sai số có tự tương quan.
ln_gdp: Log của GDP, biến độc lập trong mô hình chuỗi thời gian.
year: Biến thời gian từ năm 1960 đến 2024.

📚 Bài tiếp theo: Nền tảng về Phương sai thay đổi (Heteroscedasticity)

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.