Giới thiệu về lựa chọn mô hình trong kinh tế lượng

An Introduction to Model Selection in Econometrics

TỔNG QUAN VỀ CHUỖI BÀI HỌC

Chào mừng các bạn sinh viên đã đến với chuỗi bài học chuyên sâu về Lựa chọn Mô hình. Trong nghiên cứu kinh tế lượng, chúng ta thường đối mặt với một câu hỏi hóc búa: giữa vô vàn các biến số và dạng hàm, làm thế nào để chọn ra mô hình “tốt nhất” để mô tả dữ liệu? Việc lựa chọn một mô hình quá đơn giản có thể bỏ sót những thông tin quan trọng, trong khi một mô hình quá phức tạp lại dễ dẫn đến hiện tượng “quá khớp” (overfitting), khiến kết quả dự báo trở nên thiếu tin cậy. Đây chính là bài toán cốt lõi mà lựa chọn mô hình cần giải quyết. Chuỗi bài học này sẽ trang bị cho các bạn một nền tảng lý thuyết vững chắc cùng các kỹ năng thực hành cần thiết để có thể tự tin đưa ra những quyết định lựa chọn mô hình một cách khoa học và có hệ thống. Chúng ta sẽ cùng nhau khám phá không chỉ “cách làm” mà còn cả “tại sao”, hiểu rõ những ưu nhược điểm và cả những cạm bẫy tiềm ẩn đằng sau mỗi phương pháp. Đây là một trong những kỹ năng quan trọng nhất, quyết định đến chất lượng và độ tin cậy của bất kỳ một nghiên cứu định lượng nào.

Để bắt đầu, hãy làm quen với ba khái niệm nền tảng sẽ đồng hành cùng chúng ta:

Tập mô hình ứng viên (Candidate Models): Đây là một “thực đơn” gồm nhiều mô hình khác nhau mà nhà nghiên cứu xem xét để giải thích dữ liệu. Ví dụ, mô hình A chỉ có biến X1, mô hình B có cả X1 và X2.
Tiêu chuẩn lựa chọn (Selection Criteria): Là các “thước đo” giúp chúng ta so sánh và chấm điểm các mô hình ứng viên. Các tiêu chuẩn phổ biến bao gồm AIC, BIC, hay Mallows’s Cp, mỗi loại có một triết lý và mục tiêu riêng.
Ước lượng hậu lựa chọn mô hình (Post-Model-Selection Estimator – PMSE): Đây là các hệ số hồi quy bạn nhận được từ mô hình “chiến thắng” sau quá trình lựa chọn. Một phần quan trọng của chuỗi bài là tìm hiểu xem các ước lượng này có những thuộc tính thống kê đặc biệt (và đôi khi là rủi ro) nào.

CẤU TRÚC CHUỖI BÀI HỌC

Nền tảng và các phương pháp lựa chọn
Giới thiệu các phương pháp chính dựa trên kiểm định giả thuyết và các tiêu chí thông tin như AIC, BIC.
Thuộc tính của các ước lượng PMSE
Tìm hiểu sâu về các thuộc tính thống kê quan trọng như tính nhất quán và các đặc điểm rủi ro của ước lượng.
Rủi ro và phân phối của ước lượng PMSE
Phân tích các vấn đề phức tạp như rủi ro giới hạn và làm sáng tỏ những ngộ nhận về “thuộc tính oracle”.
Lựa chọn mô hình trong không gian nhiều chiều
Khám phá các phương pháp hiện đại khi đối mặt với số lượng biến giải thích khổng lồ so với cỡ mẫu.
Thực hành lựa chọn mô hình với Stata
Hướng dẫn từng bước quy trình lựa chọn mô hình trên Stata, từ chuẩn bị dữ liệu đến diễn giải kết quả.
Tổng hợp và các chủ đề liên quan
Tổng kết kiến thức, giới thiệu các phương pháp liên quan như Shrinkage và Model Averaging, và định hướng học tập tiếp.

KIẾN THỨC TIÊN QUYẾT

Để theo dõi tốt nhất chuỗi bài học này, các bạn cần trang bị trước một số kiến thức nền tảng:

Lý thuyết xác suất thống kê: Nắm vững các khái niệm về phân phối xác suất, ước lượng điểm, ước lượng khoảng và kiểm định giả thuyết.
Kinh tế lượng cơ bản: Hiểu rõ về mô hình hồi quy tuyến tính cổ điển, các giả định OLS, và cách diễn giải hệ số hồi quy.
Đại số tuyến tính: Các kiến thức cơ bản về véc-tơ và ma trận là một lợi thế lớn để hiểu sâu các công thức.
Sử dụng Stata cơ bản: Quen thuộc với các lệnh cơ bản như use, regress, summarize, và quản lý tệp do-file.

MỤC TIÊU HỌC TẬP

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng:

Hiểu và phân biệt được các triết lý đằng sau những phương pháp lựa chọn mô hình phổ biến nhất.
Vận dụng thành thạo các tiêu chí như AIC, BIC để lựa chọn mô hình phù hợp trong Stata.
Nhận thức và lý giải được những rủi ro và hệ quả thống kê của việc lựa chọn mô hình đối với các suy diễn sau đó.
Phát triển tư duy phản biện khi đọc và đánh giá các nghiên cứu kinh tế lượng có sử dụng kỹ thuật lựa chọn mô hình.

TÀI LIỆU THAM KHẢO

Leeb, H., & Pötscher, B. M. (2009). Model Selection. In Handbook of Financial Time Series. Springer. (Đây là tài liệu gốc cho chuỗi bài viết này).
Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage learning. (Một giáo trình kinh tế lượng nhập môn tuyệt vời).
Hamilton, J. D. (1994). Time Series Analysis. Princeton university press. (Kinh điển cho các bạn muốn tìm hiểu sâu hơn về mô hình chuỗi thời gian).

PHỤ LỤC: DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC

Để giúp việc học trở nên trực quan, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản xuyên suốt các bài thực hành. Bộ dữ liệu này mô phỏng các yếu tố ảnh hưởng đến GDP của một quốc gia.

Mô tả dữ liệu:

gdp: Tốc độ tăng trưởng GDP (biến phụ thuộc).
invest: Tỷ lệ đầu tư trên GDP.
labor: Tốc độ tăng trưởng lực lượng lao động.
schooling: Số năm đi học trung bình.
noise1, noise2: Các biến nhiễu ngẫu nhiên, không có tác động thực sự đến GDP.

Các bạn có thể tự tạo dữ liệu này bằng cách chạy đoạn code Stata dưới đây. Hãy lưu lại file model_selection_data.dta để sử dụng cho các bài học sau nhé.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài lựa chọn mô hình
* SỐ QUAN SÁT: 200
* MÔ HÌNH THỰC SỰ (TRUE MODEL): gdp = 0.5 + 0.8*invest + 0.6*labor + error
* ==================================================

clear all
set obs 200
set seed 12345

* --- Tạo các biến độc lập ---
* invest và labor là các biến quan trọng
gen invest = rnormal(20, 5)
gen labor = rnormal(2, 0.5)

* schooling có tương quan với các biến khác nhưng không nằm trong mô hình thực
corr2data invest labor schooling, c(1, 0.2, 1, 0.4, 0.3, 1) means(20, 2, 10) sds(5, 0.5, 2)
drop invest_1 labor_1

* noise1, noise2 là các biến nhiễu hoàn toàn
gen noise1 = rnormal(0, 1)
gen noise2 = runiform()*10

* --- Tạo sai số ngẫu nhiên ---
gen error = rnormal(0, 2)

* --- Tạo biến phụ thuộc dựa trên mô hình thực sự ---
gen gdp = 0.5 + 0.8*invest + 0.6*labor + error

* --- Lưu dữ liệu ---
compress
save "model_selection_data.dta", replace
* Để xuất ra file CSV, bạn có thể dùng lệnh:
* export delimited using "model_selection_data.csv", replace

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài lựa chọn mô hình
* SỐ QUAN SÁT: 200
* MÔ HÌNH THỰC SỰ (TRUE MODEL): gdp = 0.5 + 0.8*invest + 0.6*labor + error
* ==================================================

clear all
set obs 200
set seed 12345

* --- Tạo các biến độc lập ---
* invest và labor là các biến quan trọng
gen invest = rnormal(20, 5)
gen labor = rnormal(2, 0.5)

* schooling có tương quan với các biến khác nhưng không nằm trong mô hình thực
corr2data invest labor schooling, c(1, 0.2, 1, 0.4, 0.3, 1) means(20, 2, 10) sds(5, 0.5, 2)
drop invest_1 labor_1

* noise1, noise2 là các biến nhiễu hoàn toàn
gen noise1 = rnormal(0, 1)
gen noise2 = runiform()*10

* --- Tạo sai số ngẫu nhiên ---
gen error = rnormal(0, 2)

* --- Tạo biến phụ thuộc dựa trên mô hình thực sự ---
gen gdp = 0.5 + 0.8*invest + 0.6*labor + error

* --- Lưu dữ liệu ---
compress
save "model_selection_data.dta", replace
* Để xuất ra file CSV, bạn có thể dùng lệnh:
* export delimited using "model_selection_data.csv", replace

📚 Bài tiếp theo: Nền tảng và các phương pháp lựa chọn mô hình

💡 Lưu ý: Hãy đảm bảo đã đọc kỹ tổng quan và mục tiêu của chuỗi bài học. Việc chạy và lưu lại bộ dữ liệu mô phỏng sẽ rất hữu ích cho các phần thực hành sau này.