Giới thiệu hồi quy phi tuyến cho biến kết quả nhị phân

Introduction to Nonlinear Regression for Binary outcomes

Tổng quan về chuỗi bài học hồi quy phi tuyến

Chào mừng các bạn sinh viên đến với chuỗi bài học về một trong những công cụ mạnh mẽ và phổ biến nhất trong kinh tế lượng ứng dụng: hồi quy phi tuyến. Trong thực tế, rất nhiều câu hỏi kinh tế không thể được trả lời bằng các mối quan hệ tuyến tính đơn giản. Ví dụ, quyết định đi làm hay ở nhà, lựa chọn mua một sản phẩm hay không, một doanh nghiệp quyết định phá sản hay tiếp tục hoạt động – tất cả đều là những biến kết quả chỉ nhận hai giá trị (có/không, 1/0). Đây được gọi là các biến kết quả nhị phân, và để mô hình hóa chúng, chúng ta cần một phương pháp tiếp cận khác biệt so với hồi quy OLS truyền thống.

Chuỗi bài học này được thiết kế để dẫn dắt các bạn từng bước một, từ những khái niệm cơ bản nhất đến việc ứng dụng thành thạo các mô hình Probit và Logit trong Stata. Chúng ta sẽ không chỉ học cách chạy lệnh, mà quan trọng hơn là học cách hiểu và diễn giải kết quả một cách chính xác. Một trong những điểm khác biệt lớn nhất của hồi quy phi tuyến là ý nghĩa của các hệ số hồi quy. Chúng không còn là các “tác động biên” trực tiếp như trong mô hình tuyến tính. Thay vào đó, chúng ta sẽ học cách sử dụng các lệnh hậu ước lượng (postestimation) như margins để tính toán và phân tích các tác động biên, giúp biến những con số phức tạp thành những diễn giải kinh tế sâu sắc và có ý nghĩa. Hãy bắt đầu hành trình khám phá thế giới hấp dẫn của các mô hình phi tuyến, một kỹ năng thiết yếu cho bất kỳ nhà nghiên cứu kinh tế nào trong tương lai.

Cấu trúc chuỗi bài học

Để giúp các bạn tiếp cận kiến thức một cách có hệ thống và hiệu quả, chuỗi bài học được chia thành các bài viết nhỏ, mỗi bài tập trung vào một chủ đề cốt lõi. Chúng ta sẽ đi từ lý thuyết nền tảng đến các ứng dụng thực tế phức tạp hơn.

Mô hình Probit – Lý thuyết và thực hành ước lượng trong Stata
Nắm vững khái niệm mô hình Probit, cách chạy lệnh và diễn giải ý nghĩa dấu và mức độ quan trọng của các hệ số.
Diễn giải kết quả Probit – Sức mạnh của tác động biên
Học cách tính toán và phân tích tác động biên trung bình (AME) để hiểu rõ hơn về ảnh hưởng của các biến độc lập.
Mô hình Logit và so sánh với Probit, mô hình xác suất tuyến tính
Khám phá mô hình Logit, so sánh sự khác biệt và tương đồng với Probit, và hiểu những hạn chế của mô hình OLS.
Các chủ đề nâng cao và bài tập thực hành tổng hợp
Tìm hiểu về các phương pháp ước lượng khác như NLS, biến tương tác và áp dụng tất cả kiến thức vào một bài tập lớn.
Tổng kết kiến thức về các mô hình lựa chọn nhị phân
Ôn tập, hệ thống hóa toàn bộ kiến thức, và nhận định các hướng phát triển nâng cao cho nghiên cứu của bạn.

Kiến thức tiên quyết cần có

Để theo dõi tốt nhất chuỗi bài học này, các bạn cần có sự chuẩn bị kỹ lưỡng về một số kiến thức nền tảng. Việc này sẽ giúp bạn không bị bỡ ngỡ và có thể tập trung vào các khái niệm mới một cách hiệu quả nhất.

Bạn cần chuẩn bị gì?

Kinh tế lượng cơ bản: Nắm vững các khái niệm của mô hình hồi quy tuyến tính cổ điển (OLS), bao gồm cách diễn giải hệ số, kiểm định giả thuyết (kiểm định t, kiểm định F), và ý nghĩa của R-squared.
Xác suất thống kê: Hiểu biết về các khái niệm như hàm mật độ xác suất (PDF), hàm phân phối tích lũy (CDF), phân phối chuẩn, và ước lượng hợp lý tối đa (MLE).
Sử dụng Stata cơ bản: Thành thạo các lệnh cơ bản như use, describe, summarize, regress, và cách đọc kết quả output của Stata.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ không chỉ tích lũy thêm kiến thức mà còn phát triển được những kỹ năng phân tích dữ liệu quan trọng. Đây là những mục tiêu cụ thể mà chúng ta sẽ cùng nhau đạt được.

Hiểu rõ sự khác biệt: Phân biệt được khi nào nên sử dụng mô hình hồi quy tuyến tính và khi nào cần đến các mô hình phi tuyến như Probit và Logit.
Thực hành thành thạo: Có khả năng tự tin sử dụng Stata để ước lượng các mô hình Probit và Logit với các tùy chọn khác nhau (ví dụ: sử dụng sai số chuẩn vững).
Diễn giải chuyên sâu: Nắm vững cách tính toán và diễn giải các tác động biên (marginal effects), thay vì chỉ diễn giải các hệ số hồi quy một cách máy móc.
Tư duy phản biện: Có khả năng so sánh ưu và nhược điểm của các mô hình khác nhau (Probit, Logit, LPM) để lựa chọn phương pháp phù hợp nhất cho câu hỏi nghiên cứu.
Nền tảng vững chắc: Xây dựng một nền tảng kiến thức vững chắc để tiếp tục khám phá các mô hình kinh tế lượng nâng cao hơn như mô hình đa lựa chọn, mô hình dữ liệu đếm.

Tài liệu tham khảo chính

Kiến thức trong chuỗi bài học này được xây dựng và tham khảo chủ yếu từ các nguồn tài liệu uy tín và kinh điển trong lĩnh vực kinh tế lượng. Các bạn nên tìm đọc thêm để có cái nhìn sâu sắc và toàn diện hơn.

Cameron, A. C., & Trivedi, P. K. (2022). Microeconometrics Using Stata, Volume I: Cross-Sectional and Panel Data. Stata Press. – Đây là tài liệu tham khảo chính cho toàn bộ chuỗi bài viết. Chương 10 trong sách cung cấp một cái nhìn tổng quan tuyệt vời về hồi quy phi tuyến.
Wooldridge, J. M. (2019). Introductory econometrics: A modern approach. Cengage learning. – Một giáo trình kinh tế lượng nhập môn kinh điển, giải thích các khái niệm về mô hình biến nhị phân một cách rất trực quan và dễ hiểu.

Phụ lục: Dữ liệu mô phỏng cho chuỗi bài học

Để giúp các bạn tập trung vào việc học các kỹ thuật mô hình hóa, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài học. Dữ liệu này mô tả quyết định có đi làm thêm hay không của 500 sinh viên, dựa trên một số đặc điểm cá nhân.

Mô tả các biến:

co_lam_them: Biến nhị phân. Bằng 1 nếu sinh viên có đi làm thêm, bằng 0 nếu không.
diem_tbc: Điểm trung bình tích lũy của sinh viên (thang 4).
gioi_tinh_nu: Biến giả. Bằng 1 nếu sinh viên là nữ, bằng 0 nếu là nam.
nam_sinh: Năm sinh của sinh viên.
thu_nhap_gd: Thu nhập hàng tháng của gia đình (đơn vị: triệu VND).

Dưới đây là đoạn code Stata để tạo ra bộ dữ liệu này. Các bạn có thể chạy đoạn code này một lần và lưu lại file dữ liệu để sử dụng cho các bài học tiếp theo.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng về quyết định đi làm thêm
* SỐ QUAN SÁT: 500 sinh viên
* ==================================================

clear
set obs 500
set seed 12345

* --- Tạo các biến độc lập ---
* Điểm trung bình (từ 2.0 đến 4.0)
gen diem_tbc = 2 + 2 * runiform()

* Giới tính (tỷ lệ nữ khoảng 55%)
gen gioi_tinh_nu = (runiform() < 0.55)

* Năm sinh (từ 1999 đến 2003)
gen nam_sinh = 1999 + floor(5 * runiform())

* Thu nhập gia đình (từ 5 đến 50 triệu)
gen thu_nhap_gd = 5 + 45 * runiform()

* --- Tạo biến phụ thuộc (biến nhị phân) ---
* Giả định một mô hình Probit tiềm ẩn
gen y_star = -8 + 2*diem_tbc + 0.5*gioi_tinh_nu - 0.1*thu_nhap_gd + rnormal()
gen co_lam_them = (y_star > 0)

* --- Gán nhãn cho các biến ---
label variable co_lam_them "1 neu co di lam them"
label variable diem_tbc "Diem trung binh tich luy (thang 4)"
label variable gioi_tinh_nu "1 neu la nu"
label variable nam_sinh "Nam sinh"
label variable thu_nhap_gd "Thu nhap gia dinh (trieu VND)"

* --- Lưu dữ liệu ---
save "sinh_vien_lam_them.dta", replace

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng về quyết định đi làm thêm
* SỐ QUAN SÁT: 500 sinh viên
* ==================================================

clear
set obs 500
set seed 12345

* --- Tạo các biến độc lập ---
* Điểm trung bình (từ 2.0 đến 4.0)
gen diem_tbc = 2 + 2 * runiform()

* Giới tính (tỷ lệ nữ khoảng 55%)
gen gioi_tinh_nu = (runiform() < 0.55)

* Năm sinh (từ 1999 đến 2003)
gen nam_sinh = 1999 + floor(5 * runiform())

* Thu nhập gia đình (từ 5 đến 50 triệu)
gen thu_nhap_gd = 5 + 45 * runiform()

* --- Tạo biến phụ thuộc (biến nhị phân) ---
* Giả định một mô hình Probit tiềm ẩn
gen y_star = -8 + 2*diem_tbc + 0.5*gioi_tinh_nu - 0.1*thu_nhap_gd + rnormal()
gen co_lam_them = (y_star > 0)

* --- Gán nhãn cho các biến ---
label variable co_lam_them "1 neu co di lam them"
label variable diem_tbc "Diem trung binh tich luy (thang 4)"
label variable gioi_tinh_nu "1 neu la nu"
label variable nam_sinh "Nam sinh"
label variable thu_nhap_gd "Thu nhap gia dinh (trieu VND)"

* --- Lưu dữ liệu ---
save "sinh_vien_lam_them.dta", replace