Đánh giá chương trình: phương pháp sai biệt gián đoạn và ghép đôi

Chào mừng các bạn sinh viên đến với chuỗi bài học chuyên sâu về các phương pháp đánh giá tác động chính sách trong kinh tế học phát triển. Trong thực tế, chúng ta hiếm khi có được dữ liệu từ các thí nghiệm ngẫu nhiên hoàn hảo. Vậy làm thế nào để đo lường hiệu quả của một chương trình, chẳng hạn như cung cấp tín dụng vi mô hay viện trợ lương thực, khi mà các nhóm nhận và không nhận chương trình vốn đã khác nhau ngay từ đầu? Đây chính là câu hỏi lớn mà chuỗi bài học này sẽ giúp các bạn trả lời một cách khoa học và có hệ thống.

Chúng ta sẽ cùng nhau khám phá hai công cụ kinh tế lượng vô cùng mạnh mẽ và phổ biến trong các nghiên cứu hiện đại. Thay vì chỉ chạy một mô hình hồi quy thông thường, các phương pháp này giúp chúng ta xây dựng được một “nhóm đối chứng” đáng tin cậy, từ đó tách bạch được tác động thực sự của chính sách khỏi các yếu tố gây nhiễu khác. Việc nắm vững những kỹ thuật này không chỉ giúp các bạn đọc hiểu các bài báo nghiên cứu hàng đầu mà còn trang bị một bộ công cụ thiết yếu để tự mình thực hiện các phân tích kinh tế lượng trong tương lai. Hãy cùng nhau bắt đầu hành trình khám phá những phương pháp thú vị này!

Ba từ khóa chính chúng ta sẽ tập trung trong chuỗi bài này là:

Thiết kế Hồi quy Gián đoạn (RDD): Một phương pháp thông minh tận dụng các “ngưỡng” hoặc quy tắc xét duyệt của chính sách để tạo ra một so sánh gần như ngẫu nhiên.
Ghép cặp theo Điểm xu hướng (PSM): Một kỹ thuật mạnh mẽ giúp “ghép cặp” những cá nhân có đặc điểm tương đồng từ nhóm được điều trị và nhóm đối chứng để so sánh một cách công bằng.
Đánh giá tác động: Mục tiêu cuối cùng là ước lượng một cách đáng tin cậy hiệu quả nhân quả của một can thiệp chính sách lên các kết quả mà chúng ta quan tâm.

Cấu trúc chuỗi bài học

Bài 1: Giới thiệu về thiết kế hồi quy gián đoạn
Chúng ta sẽ tìm hiểu nền tảng lý thuyết của RDD, phân biệt giữa thiết kế sắc nét và mờ, và cách diễn giải kết quả một cách trực quan.
Bài 2: Sức mạnh của ghép cặp theo điểm xu hướng
Bài học này giải thích tại sao PSM là một công cụ hữu ích, cách ước lượng điểm xu hướng và các kỹ thuật ghép cặp phổ biến nhất hiện nay.
Bài 3: Phân tích các nghiên cứu điển hình
Chúng ta sẽ áp dụng lý thuyết vào thực tế qua hai nghiên cứu về viện trợ lương thực ở Ethiopia và quyền sở hữu đất đai ở Peru.
Bài 4: Hướng dẫn thực hành đánh giá tác động với Stata
Đây là bài thực hành tổng hợp, hướng dẫn bạn từng bước sử dụng Stata để thực hiện phân tích PSM, từ chuẩn bị dữ liệu đến diễn giải kết quả cuối cùng.

KIẾN THỨC TIÊN QUYẾT

Thống kê căn bản: Hiểu về giá trị trung bình, phương sai, kiểm định giả thuyết (t-test).
Kinh tế lượng nhập môn: Nắm vững mô hình hồi quy OLS, ý nghĩa của hệ số hồi quy, biến giả và các vấn đề như nội sinh, thiên vị do biến bị bỏ sót.
Stata cơ bản: Biết cách nhập dữ liệu, sử dụng các lệnh cơ bản như summarize, regress, và tạo biến mới với generate.

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Nắm vững cơ sở lý thuyết, các giả định và trực giác đằng sau hai phương pháp RDD và PSM.
Thực hành thành thạo: Có khả năng sử dụng Stata để thực hiện một phân tích ghép cặp theo điểm xu hướng hoàn chỉnh.
Phân tích thực tế: Biết cách diễn giải kết quả từ các mô hình đánh giá tác động và rút ra kết luận kinh tế có ý nghĩa.
Tư duy phản biện: Nhận biết được ưu và nhược điểm của mỗi phương pháp, cũng như các điều kiện cần thiết để áp dụng chúng một cách hợp lệ.

TÀI LIỆU THAM KHẢO

Chính: Angrist, J. D. & Pischke, J. (2009). Mostly Harmless Econometrics – Cuốn sách gối đầu giường về các phương pháp kinh tế lượng ứng dụng.
Nền tảng: Rosenbaum, P. R. & Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects – Bài báo kinh điển khai sinh ra phương pháp PSM.
Thực hành Stata: Cameron, A. C. & Trivedi, P. K. (2010). Microeconometrics Using Stata – Hướng dẫn thực hành chi tiết với nhiều ví dụ.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp các bạn dễ dàng thực hành theo các bài học, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản về tác động của một chương trình đào tạo kỹ năng đến thu nhập của người lao động. Bộ dữ liệu này được thiết kế để dễ hiểu và tập trung vào các kỹ thuật chúng ta sẽ học.

Hãy mở Stata và chạy đoạn code dưới đây để tạo và lưu file dữ liệu training_impact.dta. Chúng ta sẽ sử dụng file này trong suốt chuỗi bài học.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu đơn giản để thực hành RDD và PSM
* Tác giả: Giáo sư Kinh tế lượng
* ==================================================

clear
set obs 1000
set seed 12345

* ---- TẠO CÁC BIẾN ĐẶC ĐIỂM CÁ NHÂN ----
* Tuổi (từ 22 đến 50)
gen age = 22 + floor(rnormal(10, 5)^2)
replace age = 50 if age > 50

* Trình độ học vấn (năm đi học, từ 9 đến 18)
gen education = 9 + rpoisson(4)
replace education = 18 if education > 18

* Kinh nghiệm làm việc (năm)
gen experience = age - education - 6 + rnormal(0,1)
replace experience = 1 if experience < 1

* ---- TẠO CƠ CHẾ THAM GIA CHƯƠNG TRÌNH (TREATMENT) ----
* Giả sử chương trình ưu tiên người có kinh nghiệm thấp
* Điểm xét duyệt (forcing variable cho RDD)
gen score = 50 - 2*experience + 0.5*education + rnormal(0, 10)

* Biến điều trị cho RDD (ngưỡng là 40)
gen rdd_treat = (score >= 40)

* Biến điều trị cho PSM (xác suất tham gia phụ thuộc vào các đặc điểm)
gen pscore_latent = -1 + 0.05*age - 0.1*education + rnormal(0, 0.5)
gen psm_treat = (runiform() < invlogit(pscore_latent))

* ---- TẠO BIẾN KẾT QUẢ (THU NHẬP) ----
* Thu nhập cơ bản phụ thuộc vào các đặc điểm
gen base_income = 5 + 0.1*age + 0.8*education + 0.3*experience + rnormal(0, 2)

* Tác động thực sự của chương trình là 2.5 (triệu VND)
scalar true_effect = 2.5

* Tạo thu nhập cuối cùng với tác động từ psm_treat
gen income = base_income + true_effect*psm_treat + rnormal(0, 1.5)

* ---- HOÀN THIỆN DỮ LIỆU ----
label variable age "Tuổi của người lao động"
label variable education "Số năm đi học"
label variable experience "Số năm kinh nghiệm"
label variable score "Điểm xét duyệt tham gia chương trình"
label variable rdd_treat "Nhận điều trị (RDD, ngưỡng=40)"
label variable psm_treat "Tham gia chương trình đào tạo (PSM)"
label variable income "Thu nhập hàng tháng (triệu VND)"

* Lưu dữ liệu để sử dụng
compress
save "training_impact.dta", replace

* Xem qua dữ liệu đã tạo
describe
summarize

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu đơn giản để thực hành RDD và PSM
* Tác giả: Giáo sư Kinh tế lượng
* ==================================================

clear
set obs 1000
set seed 12345

* ---- TẠO CÁC BIẾN ĐẶC ĐIỂM CÁ NHÂN ----
* Tuổi (từ 22 đến 50)
gen age = 22 + floor(rnormal(10, 5)^2)
replace age = 50 if age > 50

* Trình độ học vấn (năm đi học, từ 9 đến 18)
gen education = 9 + rpoisson(4)
replace education = 18 if education > 18

* Kinh nghiệm làm việc (năm)
gen experience = age - education - 6 + rnormal(0,1)
replace experience = 1 if experience < 1

* ---- TẠO CƠ CHẾ THAM GIA CHƯƠNG TRÌNH (TREATMENT) ----
* Giả sử chương trình ưu tiên người có kinh nghiệm thấp
* Điểm xét duyệt (forcing variable cho RDD)
gen score = 50 - 2*experience + 0.5*education + rnormal(0, 10)

* Biến điều trị cho RDD (ngưỡng là 40)
gen rdd_treat = (score >= 40)

* Biến điều trị cho PSM (xác suất tham gia phụ thuộc vào các đặc điểm)
gen pscore_latent = -1 + 0.05*age - 0.1*education + rnormal(0, 0.5)
gen psm_treat = (runiform() < invlogit(pscore_latent))

* ---- TẠO BIẾN KẾT QUẢ (THU NHẬP) ----
* Thu nhập cơ bản phụ thuộc vào các đặc điểm
gen base_income = 5 + 0.1*age + 0.8*education + 0.3*experience + rnormal(0, 2)

* Tác động thực sự của chương trình là 2.5 (triệu VND)
scalar true_effect = 2.5

* Tạo thu nhập cuối cùng với tác động từ psm_treat
gen income = base_income + true_effect*psm_treat + rnormal(0, 1.5)

* ---- HOÀN THIỆN DỮ LIỆU ----
label variable age "Tuổi của người lao động"
label variable education "Số năm đi học"
label variable experience "Số năm kinh nghiệm"
label variable score "Điểm xét duyệt tham gia chương trình"
label variable rdd_treat "Nhận điều trị (RDD, ngưỡng=40)"
label variable psm_treat "Tham gia chương trình đào tạo (PSM)"
label variable income "Thu nhập hàng tháng (triệu VND)"

* Lưu dữ liệu để sử dụng
compress
save "training_impact.dta", replace

* Xem qua dữ liệu đã tạo
describe
summarize

Sau khi chạy code, bạn sẽ có file training_impact.dta trong thư mục làm việc của Stata. Hãy chắc chắn rằng bạn đã lưu file này cẩn thận. Chúc các bạn có một hành trình học tập hiệu quả và thú vị!

📚 Bài tiếp theo: Giới thiệu về thiết kế hồi quy gián đoạn

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.