Kiểm định giả thuyết và lựa chọn mô hình

Chào mừng các bạn sinh viên đã quay trở lại với chuỗi bài học về kinh tế lượng! Trong các chương trước, chúng ta đã cùng nhau tìm hiểu hai mục đích chính của mô hình hồi quy tuyến tính là ước lượng và dự báo. Giờ đây, chúng ta sẽ bước vào một lĩnh vực vô cùng quan trọng và thú vị: kiểm định giả thuyết. Đây chính là công cụ giúp chúng ta sử dụng dữ liệu để trả lời các câu hỏi nghiên cứu một cách khoa học, chẳng hạn như “Liệu trình độ học vấn có thực sự ảnh hưởng đến thu nhập?” hay “Chính sách lãi suất của chính phủ có tác động đến đầu tư hay không?”.

Trong chuỗi bài học này, chúng ta sẽ không chỉ dừng lại ở việc chạy một mô hình hồi quy. Thay vào đó, chúng ta sẽ học cách “thẩm vấn” chính mô hình đó. Chúng ta sẽ khám phá các phương pháp luận chặt chẽ để kiểm tra xem các giả thuyết kinh tế có được dữ liệu ủng hộ hay không. Đừng lo lắng nếu bạn thấy các khái niệm ban đầu có vẻ trừu tượng. Mỗi bài học đều được thiết kế để dẫn dắt bạn đi từng bước, từ những ý tưởng cơ bản nhất đến các kỹ thuật ứng dụng phức tạp hơn, giúp bạn xây dựng một nền tảng vững chắc để tự tin phân tích dữ liệu trong tương lai. Hãy coi đây là hành trình trang bị cho mình bộ công cụ mạnh mẽ nhất của một nhà kinh tế lượng.

Ba từ khóa chính mà chúng ta sẽ làm chủ trong chuỗi bài học này là:

Kiểm định Wald (Wald Test): Phương pháp phổ biến nhất, giúp đo lường xem các hệ số ước lượng có “đủ gần” với giá trị giả thuyết (ví dụ: bằng 0) hay không.
Thống kê F (F-Statistic): Một công cụ mạnh mẽ để kiểm định đồng thời nhiều giả thuyết, ví dụ như liệu toàn bộ mô hình có ý nghĩa thống kê hay không.
Lựa chọn mô hình (Model Selection): Các kỹ thuật giúp chúng ta so sánh và lựa chọn ra mô hình “tốt nhất” giữa nhiều mô hình cạnh tranh khác nhau.

Cấu trúc chuỗi bài học

Để giúp các bạn dễ dàng theo dõi và nắm bắt kiến thức, chuỗi bài học sẽ được chia thành các phần nhỏ với mục tiêu rõ ràng, đi từ lý thuyết nền tảng đến ứng dụng thực tế.

Nền tảng về phương pháp luận kiểm định giả thuyết
Chúng ta sẽ bắt đầu với các khái niệm cốt lõi như giả thuyết gốc, giả thuyết đối, và các loại sai lầm thường gặp trong kiểm định thống kê.
Kiểm định Wald và thống kê F – công cụ phổ biến nhất
Bài học này tập trung vào các kỹ thuật được sử dụng nhiều nhất để kiểm tra ý nghĩa của từng biến và toàn bộ mô hình hồi quy.
Các phương pháp kiểm định dựa trên độ phù hợp và nhân tử Lagrange
Chúng ta sẽ khám phá hai cách tiếp cận khác để kiểm định giả thuyết bằng cách so sánh mức độ phù hợp của các mô hình khác nhau.
Mở rộng cho mẫu lớn và kiểm định các ràng buộc phi tuyến
Bài học này sẽ trang bị cho bạn các kỹ thuật nâng cao khi giả định phân phối chuẩn không được thỏa mãn hoặc khi giả thuyết có dạng phi tuyến.
Lựa chọn giữa các mô hình và kiểm định đặc tả
Chúng ta sẽ học cách sử dụng các tiêu chí như AIC, BIC để lựa chọn mô hình tốt nhất và kiểm tra xem mô hình có bị định dạng sai hay không.
Hướng dẫn thực hành kiểm định giả thuyết với Stata
Đây là bài học tổng hợp, nơi chúng ta sẽ áp dụng tất cả kiến thức đã học vào một bộ dữ liệu thực tế và thực hiện phân tích từ A đến Z.

Kiến thức tiên quyết

Để có thể tiếp thu tốt nhất chuỗi bài học này, các bạn nên trang bị trước những kiến thức nền tảng sau:

Toán học cơ bản: Đại số tuyến tính (ma trận, véc-tơ, hạng của ma trận), Giải tích (đạo hàm cơ bản).
Thống kê căn bản: Các khái niệm về phân phối xác suất (phân phối chuẩn, t, F, Chi-bình phương), ước lượng và khoảng tin cậy.
Kinh tế lượng nhập môn: Hiểu rõ mô hình hồi quy OLS, ý nghĩa của hệ số hồi quy, và cách đọc kết quả hồi quy cơ bản.
Stata cơ bản: Biết cách nhập dữ liệu, sử dụng các lệnh describe, summarize, và regress.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng:

Hiểu sâu lý thuyết: Nắm vững các phương pháp kiểm định giả thuyết phổ biến và hiểu rõ khi nào nên áp dụng chúng.
Thực hành thành thạo: Sử dụng Stata một cách tự tin để thực hiện các kiểm định t, F và các kiểm định phức tạp hơn.
Phân tích thực tế: Có khả năng diễn giải kết quả kiểm định, đưa ra kết luận thống kê có ý nghĩa và lựa chọn mô hình phù hợp cho câu hỏi nghiên cứu.
Tư duy phản biện: Nhận biết được các giả định đằng sau mỗi kiểm định và hiểu được những hạn chế của chúng.

Tài liệu tham khảo

Nội dung của chuỗi bài viết này được xây dựng chủ yếu dựa trên các tài liệu kinh điển và rất hữu ích cho sinh viên:

Chính: Greene, W. H. (2019). Econometric Analysis (8th ed.) – Nguồn tài liệu cốt lõi cho chuỗi bài viết.
Bổ sung: Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach – Sách giáo khoa tuyệt vời với nhiều ví dụ trực quan, dễ hiểu cho người mới bắt đầu.
Thực hành: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata – Hướng dẫn thực hành Stata rất chi tiết với vô số ví dụ thực tế.
Stata: Baum, C. F. (2016). An Introduction to Stata Programming – Cuốn sách cần thiết nếu bạn muốn nâng cao kỹ năng sử dụng Stata.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài viết. Bộ dữ liệu này mô phỏng mối quan hệ giữa thu nhập, học vấn và kinh nghiệm làm việc. Các bạn có thể tự tạo lại bộ dữ liệu này bằng Stata để thực hành theo các ví dụ.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu đơn giản, dễ hiểu để thực hành
* các kỹ thuật kiểm định giả thuyết và lựa chọn mô hình.
* ==================================================

* --- Bước 1: Thiết lập môi trường làm việc ---
clear all                   // Xóa mọi dữ liệu đang có trong bộ nhớ
set obs 500                 // Đặt số lượng quan sát là 500
set seed 12345              // Đặt seed để kết quả có thể tái lặp lại

* --- Bước 2: Tạo các biến độc lập ---
* Tạo biến học vấn (education) từ 10 đến 20 năm
gen education = 10 + round(10 * runiform())

* Tạo biến kinh nghiệm (experience) từ 1 đến 30 năm
gen experience = 1 + round(29 * runiform())

* Tạo biến năng lực (ability), giả sử phân phối chuẩn
gen ability = rnormal(100, 15)

* --- Bước 3: Tạo biến phụ thuộc (log của lương) theo một mô hình "thực" ---
* Giả định mô hình thực trong tổng thể là:
* ln(wage) = 1.5 + 0.08*educ + 0.04*exp + 0.02*exp^2 + 0.01*ability + error
gen ln_wage = 1.5 + 0.08*education + 0.04*experience - 0.0005*experience^2 ///
              + 0.01*ability + rnormal(0, 0.35)

* Tạo biến lương thực tế (không bắt buộc, chỉ để tham khảo)
gen wage = exp(ln_wage)

* --- Bước 4: Gán nhãn cho các biến để dễ quản lý ---
label variable ln_wage "Log của lương theo giờ"
label variable wage "Lương theo giờ ($)"
label variable education "Số năm đi học"
label variable experience "Số năm kinh nghiệm"
label variable ability "Điểm kiểm tra năng lực"

* --- Bước 5: Lưu dữ liệu để sử dụng cho các bài học sau ---
* Thay "D:/data" bằng đường dẫn thư mục của bạn
save "D:/data/hypothesis_testing_data.dta", replace

* Xem lại dữ liệu đã tạo
describe
summarize

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu đơn giản, dễ hiểu để thực hành
* các kỹ thuật kiểm định giả thuyết và lựa chọn mô hình.
* ==================================================

* --- Bước 1: Thiết lập môi trường làm việc ---
clear all                   // Xóa mọi dữ liệu đang có trong bộ nhớ
set obs 500                 // Đặt số lượng quan sát là 500
set seed 12345              // Đặt seed để kết quả có thể tái lặp lại

* --- Bước 2: Tạo các biến độc lập ---
* Tạo biến học vấn (education) từ 10 đến 20 năm
gen education = 10 + round(10 * runiform())

* Tạo biến kinh nghiệm (experience) từ 1 đến 30 năm
gen experience = 1 + round(29 * runiform())

* Tạo biến năng lực (ability), giả sử phân phối chuẩn
gen ability = rnormal(100, 15)

* --- Bước 3: Tạo biến phụ thuộc (log của lương) theo một mô hình "thực" ---
* Giả định mô hình thực trong tổng thể là:
* ln(wage) = 1.5 + 0.08*educ + 0.04*exp + 0.02*exp^2 + 0.01*ability + error
gen ln_wage = 1.5 + 0.08*education + 0.04*experience - 0.0005*experience^2 ///
              + 0.01*ability + rnormal(0, 0.35)

* Tạo biến lương thực tế (không bắt buộc, chỉ để tham khảo)
gen wage = exp(ln_wage)

* --- Bước 4: Gán nhãn cho các biến để dễ quản lý ---
label variable ln_wage "Log của lương theo giờ"
label variable wage "Lương theo giờ ($)"
label variable education "Số năm đi học"
label variable experience "Số năm kinh nghiệm"
label variable ability "Điểm kiểm tra năng lực"

* --- Bước 5: Lưu dữ liệu để sử dụng cho các bài học sau ---
* Thay "D:/data" bằng đường dẫn thư mục của bạn
save "D:/data/hypothesis_testing_data.dta", replace

* Xem lại dữ liệu đã tạo
describe
summarize

Hướng dẫn sử dụng:

Copy toàn bộ đoạn code trên vào Do-file của Stata.
Thay đổi đường dẫn "D:/data/hypothesis_testing_data.dta" thành thư mục bạn muốn lưu trữ dữ liệu.
Chạy Do-file. Stata sẽ tạo và lưu lại file dữ liệu để chúng ta sử dụng trong các bài học tiếp theo.

📚 Bài tiếp theo: Nền tảng về phương pháp luận kiểm định giả thuyết

💡 Lưu ý: Hãy đảm bảo bạn đã chạy code và tạo thành công bộ dữ liệu mô phỏng. Việc tự tay thực hành sẽ giúp bạn hiểu bài sâu sắc hơn rất nhiều!