Giới thiệu về Ước lượng Hiệu ứng Điều trị Trung bình (ATE)

Chào các bạn sinh viên, chào mừng đến với chuỗi bài học chuyên sâu về một trong những chủ đề hấp dẫn và quan trọng nhất trong kinh tế lượng ứng dụng: Ước lượng Hiệu ứng Điều trị Trung bình, hay còn gọi là ATE (Average Treatment Effect). Đây là một hành trình khám phá cách chúng ta có thể trả lời những câu hỏi nhân quả quan trọng trong kinh tế và chính sách xã hội, vượt ra ngoài những mối tương quan đơn thuần.

Hãy tưởng tượng bạn là một nhà hoạch định chính sách và cần trả lời câu hỏi: “Liệu một chương trình đào tạo nghề có thực sự giúp người lao động tăng thu nhập không?” hoặc “Một chương trình học bổng có cải thiện kết quả học tập của sinh viên không?”. Việc trả lời những câu hỏi này không đơn giản chỉ bằng cách so sánh thu nhập của người tham gia và không tham gia, bởi vì những người chọn tham gia có thể đã có động lực hoặc khả năng khác biệt ngay từ đầu. Đây chính là lúc các công cụ ước lượng hiệu ứng điều trị phát huy tác dụng. Chúng cung cấp cho chúng ta một khung lý thuyết và các phương pháp thực nghiệm chặt chẽ để tách bạch hiệu ứng thực sự của “điều trị” (chương trình đào tạo, chính sách,…) khỏi các yếu tố gây nhiễu khác.

Trong chuỗi bài học này, chúng ta sẽ tìm hiểu ba khái niệm nền tảng. Đầu tiên là khung phản thực (counterfactual framework), một cách tư duy mạnh mẽ giúp chúng ta hình dung về những gì “đã có thể xảy ra” nếu một cá nhân không nhận điều trị. Thứ hai là vấn đề tự lựa chọn (self-selection problem), thách thức cốt lõi khiến việc so sánh đơn giản trở nên sai lệch. Cuối cùng, chúng ta sẽ khám phá các giả định quan trọng như tính bỏ qua được (ignorability), nền tảng cho nhiều phương pháp ước lượng mạnh mẽ. Mục tiêu của chúng ta không chỉ là hiểu lý thuyết, mà còn là trang bị kỹ năng để tự tin áp dụng các phương pháp này vào nghiên cứu của riêng bạn.

CẤU TRÚC CHUỖI BÀI HỌC

Nền tảng xác định ATE
Hiểu rõ các giả định cốt lõi như tính bỏ qua được và tính chồng lấn để xác định hiệu ứng nhân quả một cách chặt chẽ.
Ước lượng ATE bằng điều chỉnh hồi quy
Học cách sử dụng các mô hình hồi quy OLS để kiểm soát các biến quan sát được và ước lượng hiệu ứng điều trị.
Sức mạnh của điểm xu hướng
Nắm vững các kỹ thuật khớp điểm xu hướng (PSM) và trọng số xác suất nghịch đảo (IPW) để phân tích hiệu quả hơn.
Phương pháp biến công cụ (IV)
Giải quyết vấn đề tự lựa chọn dựa trên các yếu tố không quan sát được bằng cách sử dụng biến công cụ mạnh mẽ.
Thiết kế gián đoạn hồi quy (RD)
Khai thác các ngưỡng chính sách tự nhiên để xác định hiệu ứng nhân quả một cách đáng tin cậy và thuyết phục.
Thực hành và tổng kết
Áp dụng tất cả các kỹ thuật đã học vào một case study Stata hoàn chỉnh và tổng hợp kiến thức toàn diện.

KIẾN THỨC TIÊN QUYẾT

Để có thể theo dõi tốt nhất chuỗi bài học này, các bạn nên trang bị trước những kiến thức nền tảng sau:

Toán học cơ bản: Các khái niệm về kỳ vọng có điều kiện, xác suất và các phép toán ma trận cơ bản.
Thống kê căn bản: Hiểu về ước lượng điểm, khoảng tin cậy và kiểm định giả thuyết thống kê.
Kinh tế lượng nhập môn: Nắm vững mô hình hồi quy tuyến tính cổ điển (OLS), các giả định và cách diễn giải hệ số.
Stata cơ bản: Quen thuộc với giao diện Stata, cách nhập dữ liệu, thực hiện các lệnh thống kê mô tả và hồi quy (regress).

MỤC TIÊU HỌC TẬP

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng:

Nắm vững lý thuyết: Hiểu sâu sắc về khung phản thực, các giả định và các phương pháp ước lượng hiệu ứng điều trị phổ biến nhất.
Vận dụng thành thạo Stata: Thực hành các kỹ thuật từ điều chỉnh hồi quy, điểm xu hướng, biến công cụ đến gián đoạn hồi quy trên phần mềm Stata.
Diễn giải và phân tích: Có khả năng đọc, hiểu và phân tích kết quả từ các nghiên cứu đánh giá tác động, cũng như tự thực hiện các phân tích tương tự.

TÀI LIỆU THAM KHẢO

Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data (2nd ed.). MIT press. (Đây là tài liệu gốc cho chuỗi bài học này).
Angrist, J. D., & Pischke, J. S. (2009). Mostly harmless econometrics: An empiricist’s companion. Princeton university press. (Một tài liệu tham khảo tuyệt vời với cách tiếp cận trực quan và thực tế).
Imbens, G. W., & Rubin, D. B. (2015). Causal inference in statistics, social, and biomedical sciences. Cambridge University Press. (Tài liệu chuyên sâu về suy luận nhân quả).

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài học

Để giúp các bạn dễ dàng thực hành, tôi đã tạo một bộ dữ liệu mô phỏng đơn giản về chương trình đào tạo nghề. Bộ dữ liệu này sẽ được sử dụng trong các ví dụ xuyên suốt chuỗi bài học.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học ATE
* SỐ QUAN SÁT: 1000 người lao động
* ==================================================

clear
set obs 1000
set seed 12345

* Tạo các biến cơ bản
gen id = _n
gen education = 10 + rnormal(2, 1.5) // Số năm đi học
gen experience = 5 + rnormal(5, 2)   // Số năm kinh nghiệm
replace experience = 0 if experience < 0

* Tạo chỉ số tham gia đào tạo (treatment)
* Giả định người có học vấn thấp và kinh nghiệm ít có xu hướng tham gia nhiều hơn
gen latent_treat = 1 - 0.1*education - 0.05*experience + rnormal(0, 1)
gen training = (latent_treat > 0)

* Tạo kết quả tiềm năng (potential outcomes)
* y0: Lương nếu không tham gia đào tạo
gen wage0 = 5 + 0.8*education + 0.4*experience + rnormal(0, 2)

* y1: Lương nếu tham gia đào tạo (hiệu ứng điều trị là 1.5)
gen wage1 = wage0 + 1.5

* Tạo biến lương quan sát được
gen wage = wage0 if training == 0
replace wage = wage1 if training == 1

* Dọn dẹp các biến không cần thiết
drop latent_treat wage0 wage1

* Gán nhãn cho các biến
label variable id "Mã định danh"
label variable education "Số năm đi học"
label variable experience "Số năm kinh nghiệm"
label variable training "Tham gia đào tạo (1=Có, 0=Không)"
label variable wage "Lương hàng tháng (đơn vị: triệu VND)"

* Mô tả dữ liệu
describe
summarize

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học ATE
* SỐ QUAN SÁT: 1000 người lao động
* ==================================================

clear
set obs 1000
set seed 12345

* Tạo các biến cơ bản
gen id = _n
gen education = 10 + rnormal(2, 1.5) // Số năm đi học
gen experience = 5 + rnormal(5, 2)   // Số năm kinh nghiệm
replace experience = 0 if experience < 0

* Tạo chỉ số tham gia đào tạo (treatment)
* Giả định người có học vấn thấp và kinh nghiệm ít có xu hướng tham gia nhiều hơn
gen latent_treat = 1 - 0.1*education - 0.05*experience + rnormal(0, 1)
gen training = (latent_treat > 0)

* Tạo kết quả tiềm năng (potential outcomes)
* y0: Lương nếu không tham gia đào tạo
gen wage0 = 5 + 0.8*education + 0.4*experience + rnormal(0, 2)

* y1: Lương nếu tham gia đào tạo (hiệu ứng điều trị là 1.5)
gen wage1 = wage0 + 1.5

* Tạo biến lương quan sát được
gen wage = wage0 if training == 0
replace wage = wage1 if training == 1

* Dọn dẹp các biến không cần thiết
drop latent_treat wage0 wage1

* Gán nhãn cho các biến
label variable id "Mã định danh"
label variable education "Số năm đi học"
label variable experience "Số năm kinh nghiệm"
label variable training "Tham gia đào tạo (1=Có, 0=Không)"
label variable wage "Lương hàng tháng (đơn vị: triệu VND)"

* Mô tả dữ liệu
describe
summarize

Mô tả các biến trong dữ liệu

id: Mã định danh duy nhất cho mỗi người lao động.
education: Số năm đi học đã hoàn thành.
experience: Số năm kinh nghiệm làm việc.
training: Biến nhị phân, bằng 1 nếu người lao động tham gia chương trình đào tạo, và bằng 0 nếu không.
wage: Mức lương hàng tháng quan sát được, đơn vị triệu VND.

Các bạn có thể sao chép đoạn code Stata trên để tự tạo dữ liệu và thực hành theo các bài học. Chúc các bạn có một hành trình học tập hiệu quả và thú vị!

📚 Bài tiếp theo: Nền tảng Xác định ATE

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.

🎯 Self-check: Bạn có thể giải thích sự khác biệt giữa tương quan và quan hệ nhân quả cho một người bạn không chuyên được không?