Lựa chọn mô hình và kiểm định giả thuyết không lồng ghép

TÓM TẮT CHỦ ĐỀ

Chào mừng các bạn đến với chuỗi bài học chuyên sâu về một trong những kỹ năng quan trọng nhất của nhà kinh tế lượng hiện đại: Lựa chọn mô hình và Kiểm định các giả thuyết không lồng nhau. Trong nghiên cứu thực tế, chúng ta thường phải đối mặt với một câu hỏi hóc búa: giữa nhiều mô hình có vẻ hợp lý để giải thích cùng một hiện tượng kinh tế, làm thế nào để chọn ra mô hình “tốt nhất”? Hoặc làm sao để so sánh hai lý thuyết kinh tế đối lập (ví dụ, Keynes và Cổ điển mới) khi chúng dẫn đến các mô hình không thể suy ra từ nhau?

Chuỗi bài học này sẽ trang bị cho bạn một bộ công cụ toàn diện để giải quyết những vấn đề đó một cách khoa học. Chúng ta sẽ không chỉ dừng lại ở việc đo lường “độ phù hợp” (goodness-of-fit) của mô hình, mà còn xem xét “tính tinh gọn” (parsimony) – một sự đánh đổi cốt lõi trong mọi phân tích. Hành trình này sẽ giúp bạn vượt qua việc chỉ chạy hồi quy và bắt đầu tư duy như một nhà mô hình hóa thực thụ, có khả năng biện minh cho các lựa chọn phương pháp của mình một cách chặt chẽ. Hãy cùng nhau khám phá cách đưa ra những quyết định sáng suốt dựa trên bằng chứng từ dữ liệu.

CẤU TRÚC CHUỖI BÀI HỌC

Nền tảng và các tiêu chuẩn lựa chọn mô hình
Giúp bạn hiểu các khái niệm cốt lõi và cách sử dụng các tiêu chuẩn AIC, SBC, HQC để so sánh các mô hình.
Kiểm định giả thuyết không lồng nhau (phần 1)
Trang bị cho bạn các kiểm định kinh điển (N-test, NT-test, W-test) để so sánh các mô hình có các biến độc lập khác nhau.
Kiểm định giả thuyết không lồng nhau (phần 2)
Hướng dẫn bạn sử dụng các kiểm định phổ biến khác như J-test, JA-test và Encompassing test một cách hiệu quả.
So sánh mô hình tuyến tính và log-linear
Cung cấp các công cụ chuyên dụng (PE, BM, DL test) để giải quyết bài toán so sánh các dạng hàm khác nhau của biến phụ thuộc.
Các phương pháp tiếp cận nâng cao
Giới thiệu về phương pháp lựa chọn mô hình theo trường phái Bayesian và kỹ thuật LASSO cho bối cảnh dữ liệu lớn.
Bài thực hành Stata tổng hợp
Một case study ứng dụng toàn diện, giúp bạn vận dụng tất cả các kỹ năng đã học để phân tích một vấn đề kinh tế thực tế.
Bài tổng hợp và định hướng nghiên cứu
Hệ thống hóa kiến thức, cung cấp một “cây quyết định” và gợi ý các hướng nghiên cứu nâng cao cho chủ đề này.

KIẾN THỨC TIÊN QUYẾT

Kinh tế lượng cơ bản: Nắm vững mô hình hồi quy tuyến tính OLS, kiểm định giả thuyết (t-test, F-test), và các giả định của mô hình cổ điển.
Thống kê suy luận: Hiểu về hàm mật độ xác suất (p.d.f), ước lượng hợp lý tối đa (MLE), và các phân phối xác suất cơ bản.
Đại số tuyến tính: Có kiến thức cơ bản về ma trận, véc-tơ, và các phép toán liên quan là một lợi thế.
Stata cơ bản: Quen thuộc với giao diện Stata, các lệnh quản lý dữ liệu và lệnh hồi quy cơ bản (regress).

MỤC TIÊU HỌC TẬP

Nắm vững sự khác biệt giữa lựa chọn mô hình và kiểm định giả thuyết, đặc biệt là các giả thuyết không lồng nhau.
Vận dụng thành thạo Stata để tính toán các tiêu chuẩn lựa chọn mô hình (AIC, SBC) và thực hiện các kiểm định không lồng nhau.
Phát triển khả năng diễn giải kết quả, so sánh các mô hình một cách khoa học và biện minh cho lựa chọn mô hình trong nghiên cứu của mình.

TÀI LIỆU THAM KHẢO

Pesaran, M. H. (2015). Time Series and Panel Data Econometrics. Oxford University Press. (Tài liệu gốc của chuỗi bài viết)
Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning. (Tài liệu nền tảng tuyệt vời)
Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Stata Press. (Tài liệu tham khảo cho các ứng dụng Stata)

PHỤ LỤC: DỮ LIỆU MÔ PHỎNG CHO SERIES

Để giúp việc học trở nên trực quan, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản về tiêu dùng của hộ gia đình trong suốt chuỗi bài học. Dữ liệu này được thiết kế để dễ hiểu và phù hợp cho việc minh họa các khái niệm.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* CHỦ ĐỀ: Lựa chọn mô hình và Giả thuyết không lồng nhau
* SỐ QUAN SÁT: 200 (đủ lớn cho các phân tích)
* ==================================================

* Bước 1: Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 200

* Bước 2: Tạo biến thời gian (ví dụ: các quý)
gen time = _n
tsset time

* Bước 3: Tạo các biến độc lập
* 'income': Thu nhập khả dụng (giả định có xu hướng tăng theo thời gian)
gen income = 1000 + 5*time + rnormal(0, 50)

* 'wealth': Của cải/tài sản (cũng tăng theo thời gian nhưng biến động hơn)
gen wealth = 5000 + 10*time + rnormal(0, 200)

* 'interest_rate': Lãi suất (biến động ngẫu nhiên quanh một mức trung bình)
gen interest_rate = 5 + rnormal(0, 1.5)

* Bước 4: Tạo biến phụ thuộc 'consumption' (tiêu dùng)
* Giả định tiêu dùng phụ thuộc chủ yếu vào thu nhập và một phần nhỏ của lãi suất
gen consumption = 50 + 0.8*income - 20*interest_rate + rnormal(0, 75)

* Bước 5: Tạo các biến đổi log
gen log_consump = log(consumption)
gen log_income = log(income)
gen log_wealth = log(wealth)

* Bước 6: Mô tả và lưu dữ liệu
describe
summarize
label var consumption "Tiêu dùng hộ gia đình"
label var income "Thu nhập khả dụng"
label var wealth "Tài sản ròng"
label var interest_rate "Lãi suất (%)"

* Lưu dữ liệu để sử dụng cho các bài học sau
* save "model_selection_data.dta", replace

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* CHỦ ĐỀ: Lựa chọn mô hình và Giả thuyết không lồng nhau
* SỐ QUAN SÁT: 200 (đủ lớn cho các phân tích)
* ==================================================

* Bước 1: Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 200

* Bước 2: Tạo biến thời gian (ví dụ: các quý)
gen time = _n
tsset time

* Bước 3: Tạo các biến độc lập
* 'income': Thu nhập khả dụng (giả định có xu hướng tăng theo thời gian)
gen income = 1000 + 5*time + rnormal(0, 50)

* 'wealth': Của cải/tài sản (cũng tăng theo thời gian nhưng biến động hơn)
gen wealth = 5000 + 10*time + rnormal(0, 200)

* 'interest_rate': Lãi suất (biến động ngẫu nhiên quanh một mức trung bình)
gen interest_rate = 5 + rnormal(0, 1.5)

* Bước 4: Tạo biến phụ thuộc 'consumption' (tiêu dùng)
* Giả định tiêu dùng phụ thuộc chủ yếu vào thu nhập và một phần nhỏ của lãi suất
gen consumption = 50 + 0.8*income - 20*interest_rate + rnormal(0, 75)

* Bước 5: Tạo các biến đổi log
gen log_consump = log(consumption)
gen log_income = log(income)
gen log_wealth = log(wealth)

* Bước 6: Mô tả và lưu dữ liệu
describe
summarize
label var consumption "Tiêu dùng hộ gia đình"
label var income "Thu nhập khả dụng"
label var wealth "Tài sản ròng"
label var interest_rate "Lãi suất (%)"

* Lưu dữ liệu để sử dụng cho các bài học sau
* save "model_selection_data.dta", replace

Mô tả dữ liệu:

consumption: Biến phụ thuộc chính, đo lường chi tiêu tiêu dùng.
income: Biến độc lập quan trọng, đại diện cho thu nhập.
wealth: Một biến độc lập khác, đại diện cho tài sản.
interest_rate: Biến độc lập thứ ba, đại diện cho chi phí cơ hội của việc tiêu dùng.

Trong các bài học, chúng ta sẽ sử dụng dữ liệu này để xây dựng các mô hình cạnh tranh. Ví dụ, một mô hình có thể cho rằng tiêu dùng chỉ phụ thuộc vào income, trong khi một mô hình khác lại cho rằng cả income và wealth đều quan trọng. Đây chính là bối cảnh hoàn hảo để áp dụng các kỹ thuật lựa chọn mô hình.

📚 Bài tiếp theo: Nền tảng và các tiêu chuẩn lựa chọn mô hình

💡 Lưu ý: Hãy đảm bảo đã nắm vững các kiến thức tiên quyết và mục tiêu học tập trước khi chúng ta bắt đầu bài học đầu tiên.

🎯 Self-check: Bạn có thể tự giải thích tại sao chỉ số R-squared cao không phải lúc nào cũng có nghĩa là một mô hình “tốt hơn” không?