Lựa chọn nhị phân

Chào mừng các bạn sinh viên đến với chuỗi bài học về Mô hình Lựa chọn Nhị phân (Binary Choice Models). Trong kinh tế và cuộc sống, chúng ta thường xuyên đối mặt với những quyết định chỉ có hai kết quả: một sinh viên quyết định học cao học hay đi làm, một người tiêu dùng chọn mua hay không mua một sản phẩm, một ngân hàng phê duyệt hay từ chối một khoản vay. Các mô hình lựa chọn nhị phân chính là công cụ kinh tế lượng mạnh mẽ giúp chúng ta phân tích và dự báo xác suất xảy ra của những sự kiện “có/không” này.

Chuỗi bài học này được thiết kế đặc biệt để dẫn dắt các bạn đi từ những khái niệm cơ bản nhất đến các kỹ thuật phân tích nâng cao, dựa trên nền tảng kiến thức từ giáo trình “Econometrics” (2022) của Giáo sư Bruce E. Hansen. Chúng ta sẽ không chỉ học lý thuyết suông, mà còn tập trung vào việc xây dựng trực giác kinh tế đằng sau các công thức toán học và quan trọng nhất là áp dụng chúng vào thực tế bằng phần mềm Stata. Mục tiêu cuối cùng là giúp các bạn tự tin phân tích các biến phụ thuộc dạng nhị phân trong các bài tập và dự án nghiên cứu của riêng mình.

Để bắt đầu hành trình này, chúng ta sẽ làm quen với ba khái niệm cốt lõi sẽ xuyên suốt chuỗi bài học:

Mô hình Xác suất Tuyến tính (LPM): Cách tiếp cận đơn giản nhất, xem xác suất như một hàm tuyến tính của các biến giải thích.
Mô hình Probit: Một mô hình chỉ số mạnh mẽ hơn, sử dụng hàm phân phối chuẩn tích lũy để đảm bảo xác suất luôn nằm trong khoảng [0, 1].
Mô hình Logit: Tương tự như Probit nhưng sử dụng hàm phân phối logistic, thường cho kết quả rất giống nhau nhưng có một số ưu điểm về tính toán.

Hãy cùng nhau bắt đầu khám phá lĩnh vực hấp dẫn và có tính ứng dụng cao này!

Cấu trúc chuỗi bài học

Bài 1: Giới thiệu về mô hình lựa chọn nhị phân
Chúng ta sẽ bắt đầu bằng cách tìm hiểu tại sao mô hình OLS thông thường không phù hợp và khám phá các khái niệm nền tảng như xác suất phản ứng.
Bài 2: Tìm hiểu sâu về mô hình Probit và Logit
Bài học này sẽ giải thích chi tiết cách mô hình Probit và Logit hoạt động, thông qua khái niệm trực quan về biến tiềm ẩn và hàm liên kết.
Bài 3: Ước lượng mô hình Probit và Logit bằng MLE
Chúng ta sẽ học về phương pháp Ước lượng Hợp lý Tối đa (MLE), nền tảng toán học để tìm ra các hệ số phù hợp nhất cho mô hình.
Bài 4: Suy luận thống kê và diễn giải hiệu ứng biên
Sau khi có kết quả, làm thế nào để diễn giải chúng? Bài học này tập trung vào sai số chuẩn và cách tính hiệu ứng biên có ý nghĩa kinh tế.
Bài 5: Các chủ đề nâng cao trong mô hình lựa chọn nhị phân
Chúng ta sẽ mở rộng kiến thức với các kỹ thuật phức tạp hơn như xử lý biến nội sinh (IV Probit) và phân tích dữ liệu bảng (Panel Data).
Bài 6: Hướng dẫn thực hành phân tích lựa chọn nhị phân với Stata
Bài học cuối cùng sẽ là một hướng dẫn thực hành toàn diện, áp dụng tất cả lý thuyết đã học để phân tích một bộ dữ liệu từ đầu đến cuối.

KIẾN THỨC TIÊN QUYẾT

Xác suất Thống kê: Hiểu về hàm phân phối xác suất (PDF, CDF), kỳ vọng, phương sai, và phân phối chuẩn.
Kinh tế lượng cơ bản: Nắm vững mô hình hồi quy OLS, ý nghĩa của hệ số hồi quy, kiểm định giả thuyết (t-test, F-test).
Toán học: Hiểu biết cơ bản về đạo hàm và các khái niệm tối ưu hóa.
Stata cơ bản: Quen thuộc với giao diện Stata, cách nhập dữ liệu, và các lệnh cơ bản như summarize, regress.

MỤC TIÊU HỌC TẬP

Hiểu bản chất: Nắm vững lý do tại sao và khi nào nên sử dụng các mô hình lựa chọn nhị phân thay vì OLS.
Phân biệt mô hình: Hiểu rõ sự khác biệt, ưu và nhược điểm của các mô hình LPM, Probit và Logit.
Thực hành thành thạo: Có khả năng sử dụng Stata để ước lượng các mô hình Probit, Logit và tính toán hiệu ứng biên.
Diễn giải kết quả: Đọc và diễn giải kết quả từ Stata một cách chính xác, rút ra các kết luận kinh tế có ý nghĩa.
Tư duy phản biện: Nhận biết được các giả định và hạn chế của từng mô hình.

TÀI LIỆU THAM KHẢO

Chính: Hansen, B. E. (2022). Econometrics. Princeton University Press.
Bổ sung: Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning. (Rất phù hợp cho sinh viên đại học).
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Stata Press. (Nguồn tài liệu tuyệt vời cho các ví dụ thực hành).

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan và dễ dàng thực hành, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài này. Bộ dữ liệu này mô tả quyết định nộp đơn xin học cao học của 500 sinh viên năm cuối, dựa trên một số yếu tố.

Các biến trong dữ liệu:

apply: Biến nhị phân. Bằng 1 nếu sinh viên nộp đơn học cao học, bằng 0 nếu không.
gpa: Điểm trung bình tích lũy của sinh viên (thang 4.0).
internships: Số kỳ thực tập mà sinh viên đã hoàn thành.
is_stem: Biến giả. Bằng 1 nếu sinh viên thuộc khối ngành STEM (Khoa học, Công nghệ, Kỹ thuật, Toán học), bằng 0 nếu không.

Các bạn hãy chạy đoạn code Stata dưới đây để tự tạo ra bộ dữ liệu này và lưu lại với tên grad_application.dta để sử dụng cho các bài học tiếp theo. Việc tự tạo dữ liệu sẽ giúp các bạn hiểu sâu hơn về cấu trúc của vấn đề mà chúng ta đang cố gắng mô hình hóa.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo bộ dữ liệu về quyết định học cao học
* Số quan sát: 500 sinh viên
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 500
set seed 12345 // Đặt seed để kết quả có thể tái lặp lại

* --- Tạo các biến độc lập ---

* Tạo biến GPA từ phân phối chuẩn cắt cụt trong khoảng [2.5, 4.0]
gen double gpa = rnormal(3.3, 0.4)
replace gpa = 2.5 if gpa < 2.5
replace gpa = 4.0 if gpa > 4.0

* Tạo biến số kỳ thực tập (0, 1, 2, hoặc 3)
gen internships = rpoisson(1)
replace internships = 3 if internships > 3

* Tạo biến giả cho ngành STEM (khoảng 40% là STEM)
gen is_stem = (runiform() < 0.4)

* --- Tạo biến tiềm ẩn và biến phụ thuộc nhị phân ---

* Giả định một mô hình "thực" (latent variable model)
* Quyết định nộp đơn phụ thuộc vào GPA, thực tập, và ngành học
gen latent_apply = -8 + 2.5*gpa + 0.5*internships + 0.8*is_stem + rnormal(0, 1.5)

* Tạo biến nhị phân 'apply' dựa trên biến tiềm ẩn
* Nếu latent_apply > 0, sinh viên sẽ nộp đơn (apply = 1)
gen apply = (latent_apply > 0)

* --- Hoàn thiện và lưu dữ liệu ---

* Xóa biến không cần thiết
drop latent_apply

* Gán nhãn cho các biến để dễ hiểu hơn
label variable apply "Nộp đơn học cao học (1=Có, 0=Không)"
label variable gpa "Điểm GPA (thang 4.0)"
label variable internships "Số kỳ thực tập đã hoàn thành"
label variable is_stem "Thuộc ngành STEM (1=Có, 0=Không)"

* Xem qua một vài dòng dữ liệu đầu tiên
list in 1/10

* Lưu bộ dữ liệu để sử dụng sau này
save "grad_application.dta", replace

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo bộ dữ liệu về quyết định học cao học
* Số quan sát: 500 sinh viên
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 500
set seed 12345 // Đặt seed để kết quả có thể tái lặp lại

* --- Tạo các biến độc lập ---

* Tạo biến GPA từ phân phối chuẩn cắt cụt trong khoảng [2.5, 4.0]
gen double gpa = rnormal(3.3, 0.4)
replace gpa = 2.5 if gpa < 2.5
replace gpa = 4.0 if gpa > 4.0

* Tạo biến số kỳ thực tập (0, 1, 2, hoặc 3)
gen internships = rpoisson(1)
replace internships = 3 if internships > 3

* Tạo biến giả cho ngành STEM (khoảng 40% là STEM)
gen is_stem = (runiform() < 0.4)

* --- Tạo biến tiềm ẩn và biến phụ thuộc nhị phân ---

* Giả định một mô hình "thực" (latent variable model)
* Quyết định nộp đơn phụ thuộc vào GPA, thực tập, và ngành học
gen latent_apply = -8 + 2.5*gpa + 0.5*internships + 0.8*is_stem + rnormal(0, 1.5)

* Tạo biến nhị phân 'apply' dựa trên biến tiềm ẩn
* Nếu latent_apply > 0, sinh viên sẽ nộp đơn (apply = 1)
gen apply = (latent_apply > 0)

* --- Hoàn thiện và lưu dữ liệu ---

* Xóa biến không cần thiết
drop latent_apply

* Gán nhãn cho các biến để dễ hiểu hơn
label variable apply "Nộp đơn học cao học (1=Có, 0=Không)"
label variable gpa "Điểm GPA (thang 4.0)"
label variable internships "Số kỳ thực tập đã hoàn thành"
label variable is_stem "Thuộc ngành STEM (1=Có, 0=Không)"

* Xem qua một vài dòng dữ liệu đầu tiên
list in 1/10

* Lưu bộ dữ liệu để sử dụng sau này
save "grad_application.dta", replace

📚 Bài tiếp theo: Giới thiệu về mô hình lựa chọn nhị phân

💡 Lưu ý: Hãy đảm bảo bạn đã chạy code Stata ở trên và lưu lại file dữ liệu. Việc chuẩn bị sẵn sàng sẽ giúp bạn theo dõi các bài học thực hành một cách hiệu quả nhất.