Sử dụng các mô hình logit và probit cho thất nghiệp và lựa chọn trường học

Chào mừng các bạn sinh viên đã đến với chuỗi bài học mới về một trong những công cụ mạnh mẽ nhất của kinh tế lượng ứng dụng: các mô hình lựa chọn nhị phân. Trong thực tế, rất nhiều câu hỏi kinh tế quan trọng không phải là “bao nhiêu?” mà là “có hoặc không?”. Ví dụ, một người lao động có việc làm hay thất nghiệp? Một học sinh theo học trường tư hay trường công? Một hộ gia đình có quyết định vay vốn hay không? Những câu hỏi này đòi hỏi một phương pháp phân tích khác biệt so với mô hình hồi quy OLS tuyến tính mà chúng ta đã quen thuộc.

Trong chuỗi bài học này, chúng ta sẽ cùng nhau khám phá hai mô hình phổ biến nhất để trả lời những câu hỏi dạng “có/không” này: mô hình Probit và mô hình Logit. Đừng lo lắng nếu những cái tên này nghe có vẻ phức tạp! Chúng ta sẽ tiếp cận chúng một cách từ từ, bắt đầu từ trực giác kinh tế đằng sau chúng, được gọi là “mô hình biến tiềm ẩn”, trước khi đi vào các công thức toán học. Chúng ta sẽ sử dụng hai ví dụ thực tế xuyên suốt các bài học để làm cho kiến thức trở nên sống động: phân tích các yếu tố quyết định tình trạng thất nghiệp ở Nam Phi và tìm hiểu lý do một học sinh được cho theo học trường tư ở Ấn Độ.

Mục tiêu cuối cùng của chuỗi bài viết này là trang bị cho các bạn không chỉ kiến thức lý thuyết mà còn cả kỹ năng thực hành vững chắc để có thể tự tin áp dụng các mô hình này vào nghiên cứu của riêng mình bằng phần mềm Stata. Hãy cùng nhau bắt đầu hành trình khám phá này!

Cấu trúc chuỗi bài học

Giới thiệu các mô hình lựa chọn nhị phân
Tìm hiểu tại sao mô hình OLS không phù hợp cho biến nhị phân và xây dựng trực giác về mô hình Probit và Logit qua khái niệm biến tiềm ẩn.
Diễn giải hệ số và hiệu ứng cận biên
Khám phá sự khác biệt cốt lõi trong việc diễn giải kết quả và học cách sử dụng hiệu ứng cận biên để lượng hóa tác động của các biến giải thích.
Tính toán hiệu ứng cận biên trong Stata
Hướng dẫn thực hành chi tiết lệnh margins, phân biệt Hiệu ứng Cận biên Trung bình (AME) và tại Giá trị Trung bình (MEM), bao gồm cả các biến phi tuyến.
Đánh giá độ phù hợp của mô hình
Học cách đo lường mức độ thành công của mô hình thông qua Pseudo R-squared, phần trăm dự đoán đúng và áp dụng vào ví dụ về thất nghiệp.
Ứng dụng phân tích lựa chọn trường học ở Ấn Độ
Củng cố kiến thức bằng cách áp dụng toàn bộ quy trình phân tích vào một bộ dữ liệu mới, từ ước lượng, diễn giải đến đánh giá mô hình.
Hướng dẫn thực hành tổng hợp với Stata
Thực hành một nghiên cứu hoàn chỉnh từ A-Z, bao gồm việc chuẩn bị dữ liệu, chạy các mô hình, so sánh kết quả và rút ra kết luận kinh tế.

KIẾN THỨC TIÊN QUYẾT

Xác suất thống kê: Hiểu về hàm mật độ xác suất (PDF), hàm phân phối tích lũy (CDF), phân phối chuẩn.
Kinh tế lượng cơ bản: Nắm vững mô hình hồi quy OLS, cách diễn giải hệ số, kiểm định giả thuyết (t-test, F-test), và khái niệm biến giả.
Stata cơ bản: Quen thuộc với việc nhập dữ liệu, sử dụng các lệnh cơ bản như summarize, regress, và tabulate.

MỤC TIÊU HỌC TẬP

Hiểu bản chất: Nắm vững lý thuyết đằng sau mô hình Probit và Logit, đặc biệt là khái niệm biến tiềm ẩn và tính phi tuyến.
Diễn giải chính xác: Phân biệt được ý nghĩa của hệ số hồi quy và hiệu ứng cận biên, đồng thời diễn giải chúng một cách có ý nghĩa kinh tế.
Thực hành thành thạo: Sử dụng Stata để ước lượng mô hình, tính toán các loại hiệu ứng cận biên khác nhau và đánh giá độ phù hợp của mô hình.
Tư duy phân tích: Có khả năng áp dụng quy trình phân tích mô hình lựa chọn nhị phân vào một câu hỏi nghiên cứu thực tế.

TÀI LIỆU THAM KHẢO

Chính: Francis, D. (2015). Empirical Development Economics. Chương 17.
Nền tảng: Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. – Rất phù hợp cho sinh viên để hiểu các khái niệm cơ bản.
Nâng cao: Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics: Methods and Applications. – Cung cấp nhiều ví dụ và chi tiết kỹ thuật sâu hơn.
Thực hành Stata: Baum, C. F. (2016). An Introduction to Stata Programming. – Hướng dẫn chi tiết về lập trình và sử dụng Stata hiệu quả.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp các bạn tập trung vào việc học phương pháp mà không phải lo lắng về việc tìm kiếm và làm sạch dữ liệu, chúng ta sẽ tạo và sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài học. Bộ dữ liệu này sẽ về quyết định “có” hoặc “không” trong việc nộp đơn xin học bổng của sinh viên.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG VỀ QUYẾT ĐỊNH XIN HỌC BỔNG
* Mục đích: Tạo một bộ dữ liệu sạch, dễ hiểu để thực hành
* ==================================================

* Xóa dữ liệu cũ trong bộ nhớ
clear

* Đặt số lượng quan sát (sinh viên) là 1000
set obs 1000

* Tạo biến ID cho mỗi sinh viên
gen student_id = _n

* Tạo các biến độc lập (các yếu tố ảnh hưởng)
* 1. Điểm GPA (từ 2.5 đến 4.0, phân phối đều)
gen gpa = 2.5 + (4 - 2.5) * runiform()

* 2. Thu nhập gia đình (đơn vị: triệu VND/tháng, phân phối chuẩn)
gen income = rnormal(20, 10)
replace income = 5 if income < 5 // Giả định thu nhập tối thiểu

* 3. Tham gia hoạt động ngoại khóa (biến giả: 1 = có, 0 = không)
gen extracurricular = (runiform() > 0.4)

* Tạo biến tiềm ẩn (propensity to apply) - đây là phần chúng ta không quan sát được
* Giả định: GPA và hoạt động ngoại khóa tác động dương, thu nhập tác động âm
gen apply_latent = -8 + 2.5*gpa - 0.05*income + 1.5*extracurricular + rnormal(0, 1.5)

* Tạo biến phụ thuộc quan sát được (quyết định nộp đơn)
* Nếu biến tiềm ẩn > 0 thì sinh viên sẽ nộp đơn
gen apply_scholarship = (apply_latent > 0)

* Gán nhãn cho các biến để dễ hiểu hơn
label variable gpa "Điểm trung bình tích lũy (GPA)"
label variable income "Thu nhập hàng tháng của gia đình (triệu VND)"
label variable extracurricular "Có tham gia hoạt động ngoại khóa"
label variable apply_scholarship "Quyết định nộp đơn xin học bổng"
label define apply_label 0 "Không nộp đơn" 1 "Có nộp đơn"
label values apply_scholarship apply_label

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
* Hãy chắc chắn rằng bạn thay "D:\stata_data" bằng đường dẫn thư mục của bạn
save "D:\stata_data\scholarship_data.dta", replace

* Xem qua dữ liệu vừa tạo
summarize
tabulate apply_scholarship extracurricular

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG VỀ QUYẾT ĐỊNH XIN HỌC BỔNG
* Mục đích: Tạo một bộ dữ liệu sạch, dễ hiểu để thực hành
* ==================================================

* Xóa dữ liệu cũ trong bộ nhớ
clear

* Đặt số lượng quan sát (sinh viên) là 1000
set obs 1000

* Tạo biến ID cho mỗi sinh viên
gen student_id = _n

* Tạo các biến độc lập (các yếu tố ảnh hưởng)
* 1. Điểm GPA (từ 2.5 đến 4.0, phân phối đều)
gen gpa = 2.5 + (4 - 2.5) * runiform()

* 2. Thu nhập gia đình (đơn vị: triệu VND/tháng, phân phối chuẩn)
gen income = rnormal(20, 10)
replace income = 5 if income < 5 // Giả định thu nhập tối thiểu

* 3. Tham gia hoạt động ngoại khóa (biến giả: 1 = có, 0 = không)
gen extracurricular = (runiform() > 0.4)

* Tạo biến tiềm ẩn (propensity to apply) - đây là phần chúng ta không quan sát được
* Giả định: GPA và hoạt động ngoại khóa tác động dương, thu nhập tác động âm
gen apply_latent = -8 + 2.5*gpa - 0.05*income + 1.5*extracurricular + rnormal(0, 1.5)

* Tạo biến phụ thuộc quan sát được (quyết định nộp đơn)
* Nếu biến tiềm ẩn > 0 thì sinh viên sẽ nộp đơn
gen apply_scholarship = (apply_latent > 0)

* Gán nhãn cho các biến để dễ hiểu hơn
label variable gpa "Điểm trung bình tích lũy (GPA)"
label variable income "Thu nhập hàng tháng của gia đình (triệu VND)"
label variable extracurricular "Có tham gia hoạt động ngoại khóa"
label variable apply_scholarship "Quyết định nộp đơn xin học bổng"
label define apply_label 0 "Không nộp đơn" 1 "Có nộp đơn"
label values apply_scholarship apply_label

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
* Hãy chắc chắn rằng bạn thay "D:\stata_data" bằng đường dẫn thư mục của bạn
save "D:\stata_data\scholarship_data.dta", replace

* Xem qua dữ liệu vừa tạo
summarize
tabulate apply_scholarship extracurricular

Hướng dẫn sử dụng: Các bạn hãy chạy đoạn code trên trong Stata để tạo file scholarship_data.dta. Chúng ta sẽ sử dụng file dữ liệu này trong các bài học thực hành tiếp theo để ước lượng mô hình Probit và Logit.

📚 Bài tiếp theo: Giới thiệu các mô hình lựa chọn nhị phân

💡 Lưu ý: Hãy đảm bảo bạn đã chạy thành công đoạn code Stata trên và tạo ra bộ dữ liệu. Việc chuẩn bị sẵn sàng sẽ giúp bạn theo dõi bài học tiếp theo một cách tốt nhất.