Đánh giá mô hình và suy diễn thống kê

Trong chuỗi bài học trước, chúng ta đã đi sâu vào “cơ khí” của mô hình hồi quy tuyến tính, tìm hiểu cách ước lượng các tham số bằng phương pháp OLS và chứng minh các tính chất tối ưu của nó thông qua Định lý Gauss-Markov. Chúng ta đã có trong tay một Hàm Hồi quy Mẫu (SRF) với các hệ số cụ thể. Tuy nhiên, việc có được một phương trình ước lượng mới chỉ là điểm khởi đầu. Hai câu hỏi quan trọng bậc nhất vẫn còn ở phía trước: (1) Mô hình của chúng ta giải thích thực tế “tốt” đến mức nào? và (2) Liệu các mối quan hệ mà chúng ta tìm thấy trong mẫu có đủ mạnh để chúng ta có thể tự tin suy rộng ra cho toàn bộ tổng thể hay không?

Chuỗi bài học này sẽ trang bị cho bạn bộ công cụ để trả lời hai câu hỏi đó, đưa chúng ta từ địa hạt của ước lượng sang lĩnh vực của suy diễn thống kê (statistical inference). Đầu tiên, chúng ta sẽ khám phá các thước đo độ phù hợp của mô hình (goodness of fit), với công cụ phổ biến nhất là hệ số xác định R-squared. Sau đó, chúng ta sẽ đi vào trung tâm của kinh tế lượng cổ điển: kiểm định giả thuyết (hypothesis testing). Chúng ta sẽ học cách phát biểu giả thuyết không và giả thuyết thay thế, xây dựng các thống kê kiểm định như t-statistic và F-statistic, và sử dụng chúng để đưa ra các kết luận khoa học chặt chẽ về ý nghĩa thống kê của từng biến cũng như của toàn bộ mô hình. Cuối cùng, chúng ta sẽ tìm hiểu về các kiểm định tiệm cận mạnh mẽ như LR, Wald và LM, hoàn thiện bộ kỹ năng cần thiết để đánh giá và diễn giải một mô hình hồi quy một cách toàn diện.

Cấu trúc chuỗi bài học

Bài 1: Đánh giá Độ phù hợp của Mô hình với R-squared và R-squared Điều chỉnh
Bài 2: Nền tảng Kiểm định Giả thuyết và Kiểm định t cho một Tham số
Bài 3: Kiểm định Giả thuyết Chung với Kiểm định F
Bài 4: Các Kiểm định Tiệm cận Nâng cao: LR, Wald và LM
Bài 5: Hướng dẫn Thực hành Kiểm định Giả thuyết với Stata

Kiến thức tiên quyết

Mô hình OLS: Hiểu rõ cách ước lượng các hệ số OLS và các giả định của mô hình CLM.
Định lý Gauss-Markov: Nắm được ý nghĩa của tính chất BLUE của ước lượng OLS.
Thống kê suy luận: Quen thuộc với các khái niệm về phân phối mẫu, phân phối t, phân phối F và phân phối Chi-bình phương.
Stata cơ bản: Có khả năng chạy lệnh regress và đọc các kết quả đầu ra cơ bản.

Mục tiêu học tập

Tính toán và diễn giải chính xác ý nghĩa của R-squared và R-squared điều chỉnh.
Nắm vững quy trình 4 bước của kiểm định giả thuyết cổ điển.
Thực hiện và diễn giải kết quả của kiểm định t cho ý nghĩa thống kê của một tham số.
Thực hiện và diễn giải kết quả của kiểm định F cho ý nghĩa thống kê chung của mô hình.
Hiểu được nguyên tắc và sự khác biệt giữa ba loại kiểm định tiệm cận: LR, Wald, và LM.

PHỤ LỤC: Dữ liệu thực hành cho chuỗi bài học

Chúng ta sẽ tiếp tục sử dụng bộ dữ liệu về tiền lương của người lao động tại Tây Bengal, Ấn Độ để minh họa cho các kỹ thuật kiểm định giả thuyết. Mô hình chính sẽ là phương trình tiền lương Mincerian, giải thích log của tiền lương qua số năm đi học và kinh nghiệm làm việc.

Mô hình nghiên cứu

Mô hình hồi quy bội mà chúng ta sẽ phân tích có dạng:

$$ \ln(\text{wage}) = \beta_0 + \beta_1 \ln(\text{yr\_schooling}) + \beta_2 \text{age} + \beta_3 \text{age}^2 + \epsilon $$

Code Stata để ước lượng và kiểm định

Các lệnh Stata sau sẽ được sử dụng xuyên suốt chuỗi bài học để ước lượng mô hình và thực hiện các kiểm định giả thuyết cơ bản.

Stata

* ==================================================
* ƯỚC LƯỢNG VÀ KIỂM ĐỊNH MÔ HÌNH TIỀN LƯƠNG
* Dữ liệu: West Bengal Worker Survey (NSSO Round 68)
* ==================================================

* Bước 1: Ước lượng mô hình hồi quy bội
regress ln_wage ln_yr_schooling age age2

* Kết quả từ lệnh trên sẽ cung cấp:
* - R-squared và R-squared điều chỉnh (cho độ phù hợp)
* - Các giá trị t-statistic và p-value cho từng hệ số (kiểm định t)
* - Giá trị F-statistic và p-value của nó (kiểm định F cho toàn bộ mô hình)

* Bước 2: Thực hiện kiểm định F cho một giả thuyết cụ thể
* Ví dụ: Kiểm định giả thuyết rằng cả hai biến tuổi và tuổi bình phương
* đều không có tác động đến tiền lương (beta_age = 0 và beta_age2 = 0)
test age age2

* ==================================================
* ƯỚC LƯỢNG VÀ KIỂM ĐỊNH MÔ HÌNH TIỀN LƯƠNG
* Dữ liệu: West Bengal Worker Survey (NSSO Round 68)
* ==================================================

* Bước 1: Ước lượng mô hình hồi quy bội
regress ln_wage ln_yr_schooling age age2

* Kết quả từ lệnh trên sẽ cung cấp:
* - R-squared và R-squared điều chỉnh (cho độ phù hợp)
* - Các giá trị t-statistic và p-value cho từng hệ số (kiểm định t)
* - Giá trị F-statistic và p-value của nó (kiểm định F cho toàn bộ mô hình)

* Bước 2: Thực hiện kiểm định F cho một giả thuyết cụ thể
* Ví dụ: Kiểm định giả thuyết rằng cả hai biến tuổi và tuổi bình phương
* đều không có tác động đến tiền lương (beta_age = 0 và beta_age2 = 0)
test age age2

Tải về dữ liệu thực hành (wb_wage_data.dta)

📚 Bài tiếp theo: Đánh giá Độ phù hợp của Mô hình với R-squared và R-squared Điều chỉnh

💡 Lưu ý: Suy diễn thống kê là nơi kinh tế lượng thực sự tỏa sáng, biến các con số thành những kết luận có ý nghĩa. Hãy chuẩn bị để khám phá sức mạnh của nó.