Kết quả nhị phân và lựa chọn rời rạc

Giới thiệu chuỗi bài học

Chào mừng các bạn sinh viên đến với chuỗi bài học chuyên sâu về các mô hình lựa chọn nhị phân. Đây là một trong những công cụ quan trọng và được sử dụng rộng rãi nhất trong lĩnh vực kinh tế lượng vi mô (microeconometrics). Tại sao chúng ta lại quan tâm đến các lựa chọn “có/không” hay “mua/không mua”? Bởi vì rất nhiều quyết định kinh tế trong thực tế đều có dạng như vậy: một người quyết định có tham gia lực lượng lao động hay không, một hộ gia đình lựa chọn có mua bảo hiểm y tế hay không, hay một cử tri quyết định bỏ phiếu cho ứng viên nào. Các mô hình hồi quy tuyến tính OLS quen thuộc không còn phù hợp để phân tích những kết quả rời rạc này. Thay vào đó, chúng ta sẽ bước vào một thế giới mới, nơi chúng ta mô hình hóa xác suất xảy ra của một sự kiện.

Trong chuỗi bài học này, chúng ta sẽ cùng nhau xây dựng một nền tảng vững chắc, bắt đầu từ những ý tưởng trực quan nhất đằng sau các quyết định của cá nhân. Đừng lo lắng về các công thức toán học phức tạp, vì mỗi khái niệm sẽ được giải thích một cách cặn kẽ và đi kèm với các ví dụ minh họa dễ hiểu. Mục tiêu cuối cùng là giúp các bạn không chỉ hiểu được lý thuyết, mà còn có thể tự tin áp dụng các mô hình này vào việc phân tích dữ liệu thực tế bằng phần mềm Stata. Hãy cùng nhau khám phá cách các nhà kinh tế lượng “giải mã” hành vi lựa chọn của con người nhé!

Ba khái niệm cốt lõi mà chúng ta sẽ nắm vững trong chuỗi bài học này là:

Mô hình lựa chọn nhị phân (Binary Choice Model): Đây là công cụ chính để phân tích các biến kết quả chỉ có hai giá trị (ví dụ: 0 hoặc 1, có hoặc không). Chúng ta sẽ học cách mô hình hóa xác suất của một kết quả dựa trên các yếu tố tác động.
Mô hình tiện ích ngẫu nhiên (Random Utility Model): Là nền tảng lý thuyết vi mô đằng sau các mô hình lựa chọn. Ý tưởng cơ bản là một cá nhân sẽ chọn phương án mang lại cho họ mức “tiện ích” hay sự hài lòng cao nhất.
Ước lượng hợp lý cực đại (Maximum Likelihood Estimation – MLE): Đây là phương pháp ước lượng chủ đạo cho các mô hình phi tuyến tính như Probit và Logit. Chúng ta sẽ tìm hiểu cách MLE hoạt động và tại sao nó lại phù hợp cho các mô hình xác suất.

Cấu trúc chuỗi bài học

Để giúp các bạn có một lộ trình học tập rõ ràng và hiệu quả, chuỗi bài viết này được cấu trúc thành 8 bài học tuần tự, đi từ lý thuyết nền tảng đến các ứng dụng nâng cao và thực hành chuyên sâu.

Nền tảng về mô hình lựa chọn nhị phân
Bài học này sẽ giới thiệu các khái niệm cốt lõi, giúp bạn xây dựng trực giác về lý do tại sao và khi nào chúng ta cần sử dụng các mô hình này.
Ước lượng, suy luận và đo lường độ phù hợp
Chúng ta sẽ tìm hiểu các kỹ thuật ước lượng, cách diễn giải hệ số, kiểm định giả thuyết và đánh giá mức độ phù hợp của mô hình với dữ liệu thực tế.
Phân tích tác động biên và diễn giải kết quả
Bài học này sẽ tập trung hoàn toàn vào việc hiểu, tính toán và diễn giải các tác động biên: Tác động biên tại giá trị trung bình (MEM) và Tác động biên trung bình (AME).
Phân tích cấu hình và các vấn đề đặc tả mô hình
Bài học này đi sâu vào các vấn đề thực tế như biến bị bỏ sót và phương sai thay đổi, giúp bạn xây dựng các mô hình đáng tin cậy hơn.
Mô hình với biến nội sinh và hiệu ứng xử lý
Chúng ta sẽ khám phá các kỹ thuật nâng cao để giải quyết vấn đề biến nội sinh, một thách thức lớn trong các nghiên cứu đánh giá tác động chính sách.
Mô hình dữ liệu bảng cho lựa chọn nhị phân
Bài học này mở rộng các mô hình lựa chọn nhị phân cho dữ liệu bảng, cho phép chúng ta kiểm soát các yếu tố không quan sát được của cá nhân.
Mô hình Probit đa biến và các mở rộng
Chúng ta sẽ học cách phân tích các quyết định có liên quan với nhau, chẳng hạn như quyết định đi khám bác sĩ và quyết định nhập viện của một người.
Hướng dẫn thực hành tổng hợp với Stata
Bài học cuối cùng này sẽ tổng hợp tất cả kiến thức đã học thông qua một dự án phân tích dữ liệu hoàn chỉnh, từ khâu chuẩn bị dữ liệu đến diễn giải kết quả.

Kiến thức tiên quyết

Để có thể tiếp thu tốt nhất các nội dung trong chuỗi bài học này, các bạn sinh viên nên trang bị trước một số kiến thức nền tảng sau:

Toán học cơ bản: Các khái niệm về đạo hàm, ma trận và các phép toán cơ bản. Hiểu biết về tối ưu hóa hàm số là một lợi thế.
Xác suất thống kê: Nắm vững các khái niệm về biến ngẫu nhiên, hàm mật độ xác suất (PDF), hàm phân phối tích lũy (CDF), kỳ vọng, phương sai và các phân phối xác suất cơ bản (đặc biệt là phân phối chuẩn).
Kinh tế lượng nhập môn: Hiểu rõ về mô hình hồi quy tuyến tính OLS, ý nghĩa của hệ số hồi quy, kiểm định giả thuyết (kiểm định t, kiểm định F) và các giả định của mô hình OLS.
Stata cơ bản: Có khả năng nhập và quản lý dữ liệu, sử dụng các lệnh cơ bản như describe, summarize, và regress.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng:

Hiểu sâu lý thuyết: Nắm vững các khái niệm nền tảng của mô hình lựa chọn nhị phân, đặc biệt là mô hình Probit và Logit, từ cơ sở lý thuyết tiện ích đến các vấn đề đặc tả mô hình.
Thực hành thành thạo: Sử dụng Stata một cách tự tin để ước lượng, kiểm định và diễn giải kết quả từ các mô hình lựa chọn nhị phân, bao gồm cả các mô hình dữ liệu bảng và mô hình có biến nội sinh.
Phân tích thực tế: Áp dụng các mô hình đã học để phân tích các bộ dữ liệu thực tế, tính toán và diễn giải các tác động biên (marginal effects) để đưa ra các kết luận kinh tế có ý nghĩa.
Tư duy phản biện: Nhận biết được các hạn chế của từng mô hình, kiểm tra các giả định quan trọng và lựa chọn phương pháp phân tích phù hợp nhất cho câu hỏi nghiên cứu.

Tài liệu tham khảo

Nội dung của chuỗi bài viết này chủ yếu dựa trên tài liệu kinh điển sau đây, cùng với một số sách giáo khoa bổ sung rất hữu ích cho sinh viên:

Chính: Greene, W. H. (2019). Econometric Analysis (8th ed.). Pearson. (Chương 17).
Bổ sung (dễ hiểu): Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach (7th ed.). Cengage Learning.
Thực hành nâng cao: Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics: Methods and Applications. Cambridge University Press.
Hướng dẫn Stata: Baum, C. F. (2016). An Introduction to Stata Programming (2nd ed.). Stata Press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học và thực hành trở nên trực quan, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài viết. Bộ dữ liệu này mô phỏng các yếu tố ảnh hưởng đến quyết định nộp đơn vào một chương trình sau đại học của sinh viên.

Bối cảnh: Chúng ta có dữ liệu của 500 sinh viên năm cuối, bao gồm quyết định nộp đơn (hoặc không) vào chương trình thạc sĩ, điểm trung bình tích lũy (GPA), điểm thi đầu vào (ví dụ: GRE/GMAT), và liệu họ có tham gia nghiên cứu khoa học hay không.

Các biến số:

apply: Biến nhị phân (1 = có nộp đơn, 0 = không nộp đơn).
gpa: Điểm trung bình tích lũy, thang 4.0.
test_score: Điểm thi đầu vào, thang 800.
research: Biến nhị phân (1 = có kinh nghiệm nghiên cứu, 0 = không).

Các bạn có thể tạo bộ dữ liệu này và lưu lại để sử dụng trong các bài thực hành bằng cách chạy đoạn code Stata dưới đây. Hãy chắc chắn rằng bạn đã mở Stata trước khi chạy code.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu đơn giản để thực hành
* các mô hình lựa chọn nhị phân.
* Tác giả: Giáo sư Kinh tế lượng
* ==================================================

* Xóa dữ liệu cũ trong bộ nhớ
clear

* Đặt số lượng quan sát là 500 sinh viên
set obs 500

* Đặt một seed để kết quả có thể tái lập
set seed 12345

* --- TẠO CÁC BIẾN GIẢI THÍCH ---

* Tạo biến GPA từ phân phối chuẩn cắt cụt trong khoảng [2.5, 4.0]
* Trung bình 3.4, độ lệch chuẩn 0.3
gen gpa = rnormal(3.4, 0.3)
replace gpa = 2.5 if gpa < 2.5
replace gpa = 4.0 if gpa > 4.0

* Tạo biến điểm thi đầu vào từ phân phối chuẩn
* Trung bình 600, độ lệch chuẩn 80
gen test_score = rnormal(600, 80)

* Tạo biến kinh nghiệm nghiên cứu (biến nhị phân)
* Giả sử 40% sinh viên có kinh nghiệm nghiên cứu
gen research = (runiform() < 0.4)

* --- TẠO BIẾN PHỤ THUỘC NHỊ PHÂN (apply) ---

* 1. Tạo biến tiềm ẩn (latent variable) y*
* y* = -8 + 2*gpa + 0.01*test_score + 0.6*research + nhiễu
* Các hệ số được chọn để tạo ra xác suất hợp lý
gen y_star = -8 + 2*gpa + 0.01*test_score + 0.6*research + rnormal(0, 1)

* 2. Tạo biến nhị phân 'apply' dựa trên biến tiềm ẩn
* Nếu y* > 0, sinh viên sẽ nộp đơn (apply = 1)
gen apply = (y_star > 0)

* --- HOÀN THIỆN BỘ DỮ LIỆU ---

* Gán nhãn cho các biến để dễ hiểu hơn
label variable apply "Quyết định nộp đơn Thạc sĩ (1=Có)"
label variable gpa "Điểm GPA hệ 4.0"
label variable test_score "Điểm thi đầu vào (GRE/GMAT)"
label variable research "Có kinh nghiệm nghiên cứu (1=Có)"

* Xem qua một vài quan sát đầu tiên
list in 1/10

* Thống kê mô tả bộ dữ liệu
summarize

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
* Hãy thay "D:\StataData" bằng đường dẫn thư mục của bạn
save "D:\StataData\student_application_data.dta", replace

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu đơn giản để thực hành
* các mô hình lựa chọn nhị phân.
* Tác giả: Giáo sư Kinh tế lượng
* ==================================================

* Xóa dữ liệu cũ trong bộ nhớ
clear

* Đặt số lượng quan sát là 500 sinh viên
set obs 500

* Đặt một seed để kết quả có thể tái lập
set seed 12345

* --- TẠO CÁC BIẾN GIẢI THÍCH ---

* Tạo biến GPA từ phân phối chuẩn cắt cụt trong khoảng [2.5, 4.0]
* Trung bình 3.4, độ lệch chuẩn 0.3
gen gpa = rnormal(3.4, 0.3)
replace gpa = 2.5 if gpa < 2.5
replace gpa = 4.0 if gpa > 4.0

* Tạo biến điểm thi đầu vào từ phân phối chuẩn
* Trung bình 600, độ lệch chuẩn 80
gen test_score = rnormal(600, 80)

* Tạo biến kinh nghiệm nghiên cứu (biến nhị phân)
* Giả sử 40% sinh viên có kinh nghiệm nghiên cứu
gen research = (runiform() < 0.4)

* --- TẠO BIẾN PHỤ THUỘC NHỊ PHÂN (apply) ---

* 1. Tạo biến tiềm ẩn (latent variable) y*
* y* = -8 + 2*gpa + 0.01*test_score + 0.6*research + nhiễu
* Các hệ số được chọn để tạo ra xác suất hợp lý
gen y_star = -8 + 2*gpa + 0.01*test_score + 0.6*research + rnormal(0, 1)

* 2. Tạo biến nhị phân 'apply' dựa trên biến tiềm ẩn
* Nếu y* > 0, sinh viên sẽ nộp đơn (apply = 1)
gen apply = (y_star > 0)

* --- HOÀN THIỆN BỘ DỮ LIỆU ---

* Gán nhãn cho các biến để dễ hiểu hơn
label variable apply "Quyết định nộp đơn Thạc sĩ (1=Có)"
label variable gpa "Điểm GPA hệ 4.0"
label variable test_score "Điểm thi đầu vào (GRE/GMAT)"
label variable research "Có kinh nghiệm nghiên cứu (1=Có)"

* Xem qua một vài quan sát đầu tiên
list in 1/10

* Thống kê mô tả bộ dữ liệu
summarize

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
* Hãy thay "D:\StataData" bằng đường dẫn thư mục của bạn
save "D:\StataData\student_application_data.dta", replace

Lưu ý: Hãy nhớ thay đổi đường dẫn "D:\StataData\student_application_data.dta" thành thư mục làm việc của bạn trên máy tính để lưu file dữ liệu thành công.

📚 Bài tiếp theo: Bài 1: Nền tảng về mô hình lựa chọn nhị phân

💡 Lưu ý: Hãy chạy đoạn code Stata trên và lưu lại bộ dữ liệu. Chúng ta sẽ cần nó cho các bài học thực hành sắp tới. Chúc các bạn học tốt!