Tính không đồng nhất, chọn lọc và hiệu ứng điều trị biên MTE

Chào mừng các bạn sinh viên đến với một trong những chủ đề hấp dẫn và hiện đại nhất của kinh tế lượng ứng dụng! Khi phân tích tác động của một chính sách, chẳng hạn như lợi ích của việc học đại học, chúng ta thường có xu hướng tìm kiếm một con số “trung bình” duy nhất. Tuy nhiên, thực tế phức tạp hơn nhiều: tác động của giáo dục không phải là một hằng số, nó thay đổi rất nhiều giữa các cá nhân. Có những người hưởng lợi rất nhiều từ việc học đại học, trong khi những người khác thì ít hơn. Đây chính là khái niệm cốt lõi mà chúng ta sẽ khám phá: tính không đồng nhất (heterogeneity).

Chuỗi bài học này sẽ dẫn dắt các bạn đi từ những khái niệm quen thuộc về biến công cụ (IV) đến các phương pháp tiên tiến để nắm bắt sự đa dạng trong hiệu ứng điều trị. Chúng ta sẽ học cách kinh tế lượng hiện đại không chỉ hỏi “Tác động trung bình là bao nhiêu?” mà còn đi sâu hơn vào các câu hỏi như “Tác động lên những nhóm người cụ thể nào?” hay “Tác động lên những người đang do dự nhất là gì?”. Việc hiểu rõ những khái niệm này không chỉ quan trọng cho các bài nghiên cứu học thuật mà còn cực kỳ hữu ích khi đánh giá các chính sách công trong thực tế.

Để chinh phục chủ đề này, chúng ta sẽ tập trung vào ba từ khóa chính:

Hiệu ứng điều trị không đồng nhất (Heterogeneous Treatment Effects): Thừa nhận rằng tác động của một can thiệp (ví dụ: một chương trình đào tạo, một chính sách hỗ trợ) là khác nhau đối với những người khác nhau.
Hiệu ứng điều trị trung bình cục bộ (LATE): Một phương pháp thông minh sử dụng biến công cụ để đo lường hiệu ứng điều trị cho một nhóm dân số rất đặc biệt – những người thay đổi hành vi của họ chính vì sự có mặt của biến công cụ.
Hiệu ứng điều trị biên (MTE): Một công cụ mạnh mẽ cho phép chúng ta hiểu được toàn bộ bức tranh về sự không đồng nhất, đặc biệt là tác động lên những cá nhân đang ở “ranh giới” của việc đưa ra quyết định.

Mục tiêu của chúng ta không chỉ là hiểu các công thức toán học, mà là xây dựng một tư duy trực quan về cách các nhà kinh tế lượng đối mặt với vấn đề lựa chọn và sự đa dạng trong hành vi con người. Hãy cùng nhau bắt đầu hành trình khám phá này!

Cấu trúc chuỗi bài học

Để giúp các bạn tiếp cận chủ đề phức tạp này một cách có hệ thống, chúng ta sẽ chia nội dung thành các bài học nhỏ, mỗi bài xây dựng dựa trên kiến thức của bài trước.

Bài 1: Biến công cụ và vấn đề hiệu ứng không đồng nhất
Chúng ta sẽ ôn lại cách biến công cụ (IV) giải quyết vấn đề nội sinh và khám phá những thách thức mới khi hiệu ứng điều trị không còn đồng nhất.
Bài 2: Giải mã hiệu ứng điều trị trung bình cục bộ (LATE)
Bài học này sẽ đi sâu vào định lý LATE, giúp bạn hiểu IV thực sự đo lường điều gì và làm quen với các nhóm “tuân thủ”, “luôn tham gia”.
Bài 3: Hiệu ứng điều trị biên (MTE) và mô hình lựa chọn
Chúng ta sẽ kết nối các khái niệm trên với mô hình lựa chọn Roy và giới thiệu MTE, một công cụ mạnh mẽ để mô tả sự không đồng nhất.
Bài 4: Ứng dụng MTE để phân tích lợi tức giáo dục
Bài học sẽ phân tích các ví dụ nghiên cứu thực tế, cho thấy MTE giúp chúng ta hiểu sâu hơn về lợi tức thực sự của việc học đại học như thế nào.
Bài 5: Hướng dẫn thực hành ước lượng MTE với Stata
Đây là bài học quan trọng nhất, nơi chúng ta sẽ áp dụng toàn bộ lý thuyết đã học để thực hiện một phân tích MTE hoàn chỉnh từ A-Z với dữ liệu mô phỏng.

KIẾN THỨC TIÊN QUYẾT

Kinh tế lượng cơ bản: Hiểu rõ mô hình hồi quy OLS, vấn đề nội sinh (endogeneity) và thiên vị do biến bị bỏ sót (omitted variable bias).
Biến công cụ (IV): Nắm vững các giả định của ước lượng IV (liên quan, điều kiện loại trừ) và cách diễn giải ước lượng 2SLS.
Mô hình xác suất nhị phân: Có kiến thức cơ bản về mô hình Probit/Logit và khái niệm điểm xu hướng (propensity score).
Stata cơ bản: Quen thuộc với các lệnh như regress, ivregress, và probit.

MỤC TIÊU HỌC TẬP

Hiểu sâu sắc LATE: Diễn giải được ước lượng IV trong bối cảnh hiệu ứng không đồng nhất, xác định được nhóm dân số mà LATE áp dụng.
Nắm vững khái niệm MTE: Hiểu được MTE là gì, nó được xây dựng từ đâu và tại sao nó lại là một công cụ mạnh để phân tích chính sách.
Kết nối lý thuyết: Thấy được mối liên hệ chặt chẽ giữa phương pháp IV, mô hình lựa chọn Roy và các tham số hiệu ứng điều trị (ATE, ATT, LATE).
Thực hành thành thạo: Có khả năng sử dụng Stata để ước lượng các mô hình liên quan và diễn giải kết quả một cách có ý nghĩa.

TÀI LIỆU THAM KHẢO

Nền tảng: Angrist, J. D. and Pischke, J. (2009). Mostly Harmless Econometrics. Cuốn sách kinh điển về các phương pháp đánh giá tác động hiện đại.
Tổng quan nâng cao: Imbens, G. W. và Wooldridge, J. M. (2009). “Recent developments in the econometrics of program evaluation”, Journal of Economic Literature.
Bài báo gốc về MTE: Heckman, J. J. (2010). “Building bridges between structural and program evaluation approaches to estimating policy”, Journal of Economic Literature.
Ứng dụng thực tế: Carneiro, P., Heckman, J. J. và Vytlacil, E. (2011). “Estimating marginal returns to education”, American Economic Review.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài. Bộ dữ liệu này mô phỏng bài toán ước lượng lợi tức từ việc hoàn thành bậc trung học ở một quốc gia giả định. Hãy chạy đoạn code Stata dưới đây để tạo ra file tanzania_edu_return.dta và lưu nó vào thư mục làm việc của bạn.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO BÀI HỌC VỀ MTE
* Mục đích: Tạo một bộ dữ liệu đơn giản có vấn đề nội sinh
* để thực hành ước lượng LATE và MTE.
* ==================================================

clear
set obs 5000
set seed 12345

* ---- TẠO CÁC BIẾN CƠ BẢN ----
* Tuổi (age) và giới tính (male)
gen age = 25 + round(20 * runiform())
gen male = (runiform() < 0.5)

* ---- TẠO BIẾN CÔNG CỤ (INSTRUMENT) ----
* z: có trường cấp 3 trong vòng 2km (hassecondary)
* Giả định biến này ảnh hưởng đến quyết định đi học nhưng không ảnh hưởng trực tiếp đến thu nhập
gen hassecondary = (runiform() < 0.4 + 0.1*male)

* ---- TẠO THÀNH PHẦN KHÔNG QUAN SÁT ĐƯỢC (UNOBSERVABLES) ----
* u: Năng lực/động lực cá nhân không quan sát được
* v: Các yếu tố ngẫu nhiên khác ảnh hưởng đến quyết định đi học
corr2data u v, n(5000) corr(0.6)
* Giả định quan trọng: Năng lực (u) và các yếu tố trong quyết định đi học (v) có tương quan dương (0.6)
* Điều này có nghĩa là những người có năng lực cao hơn cũng có xu hướng muốn đi học hơn.

* ---- MÔ HÌNH LỰA CHỌN ĐI HỌC (SELECTION MODEL) ----
* Quyết định hoàn thành cấp 3 (secondary) phụ thuộc vào biến công cụ (z) và yếu tố không quan sát được (v)
gen secondary_latent = 0.5 + 1.5*hassecondary - v
gen secondary = (secondary_latent > 0)
* secondary = 1 nếu hoàn thành cấp 3, = 0 nếu không

* ---- MÔ HÌNH KẾT QUẢ (OUTCOME MODEL) ----
* logincome: log của thu nhập
* Thu nhập phụ thuộc vào học vấn, tuổi, giới tính và NĂNG LỰC (u)
* Vì secondary và u có tương quan (thông qua v), OLS sẽ bị chệch!
gen logincome = 1.5 + 0.8*secondary + 0.1*age - 0.05*male + 0.5*u + rnormal(0, 0.5)

* ---- DỌN DẸP VÀ GHI NHÃN ----
label var logincome "Log thu nhập hàng tháng"
label var secondary "Hoàn thành bậc trung học (1=Có)"
label var hassecondary "Có trường THPT trong vòng 2km (1=Có)"
label var age "Tuổi"
label var male "Giới tính (1=Nam)"
keep logincome secondary hassecondary age male

* ---- LƯU DỮ LIỆU ----
compress
save "tanzania_edu_return.dta", replace
describe
summarize

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO BÀI HỌC VỀ MTE
* Mục đích: Tạo một bộ dữ liệu đơn giản có vấn đề nội sinh
* để thực hành ước lượng LATE và MTE.
* ==================================================

clear
set obs 5000
set seed 12345

* ---- TẠO CÁC BIẾN CƠ BẢN ----
* Tuổi (age) và giới tính (male)
gen age = 25 + round(20 * runiform())
gen male = (runiform() < 0.5)

* ---- TẠO BIẾN CÔNG CỤ (INSTRUMENT) ----
* z: có trường cấp 3 trong vòng 2km (hassecondary)
* Giả định biến này ảnh hưởng đến quyết định đi học nhưng không ảnh hưởng trực tiếp đến thu nhập
gen hassecondary = (runiform() < 0.4 + 0.1*male)

* ---- TẠO THÀNH PHẦN KHÔNG QUAN SÁT ĐƯỢC (UNOBSERVABLES) ----
* u: Năng lực/động lực cá nhân không quan sát được
* v: Các yếu tố ngẫu nhiên khác ảnh hưởng đến quyết định đi học
corr2data u v, n(5000) corr(0.6)
* Giả định quan trọng: Năng lực (u) và các yếu tố trong quyết định đi học (v) có tương quan dương (0.6)
* Điều này có nghĩa là những người có năng lực cao hơn cũng có xu hướng muốn đi học hơn.

* ---- MÔ HÌNH LỰA CHỌN ĐI HỌC (SELECTION MODEL) ----
* Quyết định hoàn thành cấp 3 (secondary) phụ thuộc vào biến công cụ (z) và yếu tố không quan sát được (v)
gen secondary_latent = 0.5 + 1.5*hassecondary - v
gen secondary = (secondary_latent > 0)
* secondary = 1 nếu hoàn thành cấp 3, = 0 nếu không

* ---- MÔ HÌNH KẾT QUẢ (OUTCOME MODEL) ----
* logincome: log của thu nhập
* Thu nhập phụ thuộc vào học vấn, tuổi, giới tính và NĂNG LỰC (u)
* Vì secondary và u có tương quan (thông qua v), OLS sẽ bị chệch!
gen logincome = 1.5 + 0.8*secondary + 0.1*age - 0.05*male + 0.5*u + rnormal(0, 0.5)

* ---- DỌN DẸP VÀ GHI NHÃN ----
label var logincome "Log thu nhập hàng tháng"
label var secondary "Hoàn thành bậc trung học (1=Có)"
label var hassecondary "Có trường THPT trong vòng 2km (1=Có)"
label var age "Tuổi"
label var male "Giới tính (1=Nam)"
keep logincome secondary hassecondary age male

* ---- LƯU DỮ LIỆU ----
compress
save "tanzania_edu_return.dta", replace
describe
summarize

Hướng dẫn sử dụng:

Sao chép toàn bộ đoạn code trên.
Mở Stata, vào File -> New Do-file.
Dán code vào cửa sổ Do-file và chạy (Execute).
Một file tên là tanzania_edu_return.dta sẽ được tạo trong thư mục làm việc hiện tại của bạn. Chúng ta sẽ sử dụng file này trong các bài thực hành sau.

📚 Bài tiếp theo: Biến công cụ và vấn đề hiệu ứng không đồng nhất

💡 Lưu ý: Hãy đảm bảo bạn đã nắm vững các kiến thức tiên quyết và chạy thành công code tạo dữ liệu ở trên trước khi chúng ta bắt đầu bài học đầu tiên nhé!