Phương pháp đánh giá chương trình trong chính sách phát triển

Chào mừng các bạn sinh viên đã đến với một trong những lĩnh vực hấp dẫn và quan trọng nhất của kinh tế lượng ứng dụng: Đánh giá chương trình và chính sách phát triển. Trong thực tế, các chính phủ và tổ chức luôn đặt ra những câu hỏi tưởng chừng đơn giản: Liệu một chương trình học bổng có thực sự cải thiện kết quả học tập không? Một dự án xây dựng đường cao tốc có giúp người dân thoát nghèo không? Hay việc cung cấp hạt giống mới có thực sự làm tăng năng suất nông nghiệp không? Để trả lời những câu hỏi này một cách khoa học, chúng ta không thể chỉ đơn giản so sánh “trước” và “sau”, hay so sánh nhóm “có” và “không có” can thiệp.

Vấn đề cốt lõi nằm ở một câu hỏi hóc búa mang tên “phản thực” (counterfactual): Điều gì sẽ xảy ra với những người đã tham gia chương trình nếu họ đã không tham gia? Đây là một câu hỏi chúng ta không bao giờ có thể quan sát trực tiếp, và nó chính là gốc rễ của mọi thách thức trong suy luận nhân quả. Chuỗi bài học này sẽ trang bị cho các bạn một bộ công cụ tư duy và phương pháp luận mạnh mẽ để giải quyết vấn đề này, giúp bạn đi từ việc quan sát sự tương quan đến việc xác định hiệu ứng nhân quả thực sự. Chúng ta sẽ cùng nhau tìm hiểu các khái niệm nền tảng, các giả định cần thiết và cách áp dụng chúng vào phân tích dữ liệu thực tế.

Ba từ khóa chính bạn sẽ nắm vững sau chuỗi bài này là: Mô hình Nhân quả Rubin (khung lý thuyết để suy nghĩ về các kết quả tiềm năng), Thiên lệch chọn mẫu (kẻ thù chính của suy luận nhân quả), và Hiệu ứng Can thiệp Trung bình (thước đo tác động của chính sách).

Cấu trúc chuỗi bài học

Nền tảng đánh giá tác động và mô hình nhân quả Rubin
Chúng ta sẽ bắt đầu với vấn đề phản thực, sau đó tìm hiểu khung lý thuyết về kết quả tiềm năng, hiệu ứng ATE và ATT.
Các phương pháp ước lượng và lựa chọn dựa trên biến quan sát được
Bài học này sẽ giới thiệu cách khắc phục thiên lệch chọn mẫu bằng cách kiểm soát các biến quan sát được và các giả định đi kèm.
Hướng dẫn thực hành và giải bài tập về đánh giá tác động
Chúng ta sẽ áp dụng toàn bộ kiến thức đã học để giải quyết các bài tập cuối chương, kết nối lý thuyết với các mô hình OLS, FE và IV.

KIẾN THỨC TIÊN QUYẾT

Thống kê căn bản: Hiểu về giá trị kỳ vọng (E), phương sai, và các khái niệm kiểm định giả thuyết cơ bản.
Kinh tế lượng nhập môn: Nắm vững mô hình hồi quy OLS, ý nghĩa của hệ số hồi quy và giả định về sai số.
Dữ liệu bảng (Panel Data): Có kiến thức cơ bản về mô hình Hiệu ứng Cố định (Fixed Effects) sẽ là một lợi thế.
Stata cơ bản: Quen thuộc với các lệnh cơ bản như regress, summarize, và cách quản lý dữ liệu.

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Nắm vững khái niệm kết quả tiềm năng, phân biệt được ATE và ATT, và nhận diện được vấn đề thiên lệch chọn mẫu.
Tư duy phản biện: Hiểu rõ các giả định đằng sau mỗi phương pháp ước lượng và biết khi nào chúng có thể bị vi phạm.
Kết nối kiến thức: Liên kết được khung đánh giá chương trình với các mô hình kinh tế lượng quen thuộc như OLS, FE và IV.
Phân tích thực tế: Có khả năng đọc và hiểu các nghiên cứu đánh giá tác động, cũng như tự mình phân tích các vấn đề tương tự.

TÀI LIỆU THAM KHÁO

Chính: Angrist, J. D., & Pischke, J. S. (2009). Mostly Harmless Econometrics – Cuốn sách gối đầu giường về kinh tế lượng ứng dụng.
Nền tảng: Holland, P. W. (1986). ‘Statistics and causal inference’ – Bài báo kinh điển giới thiệu về các vấn đề trong suy luận nhân quả.
Bổ sung: Wooldridge, J.M. (2019). Introductory Econometrics: A Modern Approach – Giáo trình tuyệt vời cho sinh viên đại học.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp các bạn dễ hình dung các khái niệm, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản về thành tích học tập của học sinh. Bộ dữ liệu này sẽ được dùng trong các ví dụ xuyên suốt các bài học. Hãy chạy đoạn code Stata dưới đây để tự tạo ra bộ dữ liệu này nhé!

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG: THÀNH TÍCH HỌC TẬP
* Mục đích: Minh họa khái niệm thiên lệch chọn mẫu
* Giả định: Gia đình giàu có hơn có xu hướng cho con học trường tư,
*           và bản thân sự giàu có cũng ảnh hưởng đến thành tích.
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 1000
set seed 12345 // Để đảm bảo kết quả có thể lặp lại

* BƯỚC 1: TẠO CÁC BIẾN CƠ BẢN
* gen id: Tạo mã định danh duy nhất cho mỗi học sinh
gen id = _n

* gen wealth: Tạo biến "sự giàu có" của gia đình (từ 0 đến 10)
* runiform() tạo ra số ngẫu nhiên trong khoảng [0, 1]
gen wealth = 10 * runiform()

* gen ability: Tạo biến "năng lực" không quan sát được (phân phối chuẩn)
* rnormal(0, 1) tạo số ngẫu nhiên từ phân phối chuẩn có trung bình 0, sd 1
gen ability = rnormal(0, 1)


* BƯỚC 2: TẠO BIẾN CAN THIỆP (HỌC TRƯỜNG TƯ) CÓ CHỌN LỌC
* Giả định: Xác suất học trường tư (private=1) tăng theo sự giàu có
* Đây chính là nguồn gây ra "thiên lệch chọn mẫu"
gen prob_private = 0.1 + 0.08 * wealth
gen private = (runiform() < prob_private)


* BƯỚC 3: TẠO BIẾN KẾT QUẢ (THÀNH TÍCH HỌC TẬP)
* Thành tích bị ảnh hưởng bởi:
* - Nền tảng chung (50 điểm)
* - Tác động thực sự của trường tư (10 điểm) -> Đây là ATE
* - Ảnh hưởng của sự giàu có (2 điểm cho mỗi bậc wealth)
* - Ảnh hưởng của năng lực (5 điểm cho mỗi bậc ability)
* - Nhiễu ngẫu nhiên
gen achievement = 50 + 10*private + 2*wealth + 5*ability + rnormal(0, 5)

* Làm tròn điểm cho đẹp
replace achievement = round(achievement, 0.1)
replace wealth = round(wealth, 0.1)

* Gán nhãn cho các biến để dễ hiểu
label variable id "Mã học sinh"
label variable wealth "Mức độ giàu có của gia đình"
label variable ability "Năng lực bẩm sinh (không quan sát được)"
label variable private "Học trường tư (1=Có, 0=Không)"
label variable achievement "Điểm thành tích học tập"

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "student_achievement.dta", replace

* Xem qua 10 dòng dữ liệu đầu tiên
list in 1/10

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG: THÀNH TÍCH HỌC TẬP
* Mục đích: Minh họa khái niệm thiên lệch chọn mẫu
* Giả định: Gia đình giàu có hơn có xu hướng cho con học trường tư,
*           và bản thân sự giàu có cũng ảnh hưởng đến thành tích.
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 1000
set seed 12345 // Để đảm bảo kết quả có thể lặp lại

* BƯỚC 1: TẠO CÁC BIẾN CƠ BẢN
* gen id: Tạo mã định danh duy nhất cho mỗi học sinh
gen id = _n

* gen wealth: Tạo biến "sự giàu có" của gia đình (từ 0 đến 10)
* runiform() tạo ra số ngẫu nhiên trong khoảng [0, 1]
gen wealth = 10 * runiform()

* gen ability: Tạo biến "năng lực" không quan sát được (phân phối chuẩn)
* rnormal(0, 1) tạo số ngẫu nhiên từ phân phối chuẩn có trung bình 0, sd 1
gen ability = rnormal(0, 1)


* BƯỚC 2: TẠO BIẾN CAN THIỆP (HỌC TRƯỜNG TƯ) CÓ CHỌN LỌC
* Giả định: Xác suất học trường tư (private=1) tăng theo sự giàu có
* Đây chính là nguồn gây ra "thiên lệch chọn mẫu"
gen prob_private = 0.1 + 0.08 * wealth
gen private = (runiform() < prob_private)


* BƯỚC 3: TẠO BIẾN KẾT QUẢ (THÀNH TÍCH HỌC TẬP)
* Thành tích bị ảnh hưởng bởi:
* - Nền tảng chung (50 điểm)
* - Tác động thực sự của trường tư (10 điểm) -> Đây là ATE
* - Ảnh hưởng của sự giàu có (2 điểm cho mỗi bậc wealth)
* - Ảnh hưởng của năng lực (5 điểm cho mỗi bậc ability)
* - Nhiễu ngẫu nhiên
gen achievement = 50 + 10*private + 2*wealth + 5*ability + rnormal(0, 5)

* Làm tròn điểm cho đẹp
replace achievement = round(achievement, 0.1)
replace wealth = round(wealth, 0.1)

* Gán nhãn cho các biến để dễ hiểu
label variable id "Mã học sinh"
label variable wealth "Mức độ giàu có của gia đình"
label variable ability "Năng lực bẩm sinh (không quan sát được)"
label variable private "Học trường tư (1=Có, 0=Không)"
label variable achievement "Điểm thành tích học tập"

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "student_achievement.dta", replace

* Xem qua 10 dòng dữ liệu đầu tiên
list in 1/10

Sau khi chạy code, bạn sẽ có file student_achievement.dta trong thư mục làm việc của Stata. Chúng ta sẽ sử dụng file này để minh họa các khái niệm trong bài học tiếp theo. Chúc các bạn học tốt!

📚 Bài tiếp theo: Hãy nhập “Nền tảng đánh giá tác động và mô hình nhân quả Rubin” để bắt đầu bài học đầu tiên.

💡 Lưu ý: Hãy đảm bảo bạn đã chạy code Stata ở trên và tạo thành công bộ dữ liệu. Việc tự tay tạo ra dữ liệu sẽ giúp bạn hiểu sâu hơn về nguồn gốc của các vấn đề kinh tế lượng.