Giới thiệu về thí nghiệm và tựa thí nghiệm

An Introduction to Experiments and Quasi-experiments

Giới thiệu tổng quan

Chào các bạn sinh viên, trong hành trình khám phá kinh tế lượng, một trong những câu hỏi quan trọng và thách thức nhất mà chúng ta luôn phải đối mặt là: “Làm thế nào để xác định được tác động nhân quả thực sự của một chính sách hay một sự kiện?” Ví dụ, một chương trình đào tạo việc làm có thực sự giúp tăng thu nhập của người lao động không? Hay việc giảm quy mô lớp học có thực sự cải thiện kết quả học tập của học sinh? Trả lời những câu hỏi này một cách đáng tin cậy đòi hỏi chúng ta phải vượt qua những khó khăn của dữ liệu quan sát, nơi mà mối tương quan không phải lúc nào cũng đồng nghĩa với quan hệ nhân quả.

Chuỗi bài học này sẽ trang bị cho các bạn những công cụ mạnh mẽ để giải quyết vấn đề hóc búa này. Chúng ta sẽ bắt đầu với “tiêu chuẩn vàng” trong việc ước lượng tác động nhân quả: các thí nghiệm ngẫu nhiên có kiểm soát (Randomized Controlled Experiments – RCTs). Đây là phương pháp cung cấp một hệ quy chiếu lý tưởng để đánh giá các ước lượng nhân quả. Tuy nhiên, trong kinh tế và khoa học xã hội, việc tiến hành các thí nghiệm thực sự thường rất tốn kém, phức tạp, hoặc thậm chí là phi đạo đức. Đây là lúc các tựa thí nghiệm (Quasi-Experiments) hay thí nghiệm tự nhiên (Natural Experiments) phát huy vai trò. Các phương pháp này tận dụng những biến cố hoặc hoàn cảnh đặc biệt trong thực tế tạo ra sự phân bổ “gần như ngẫu nhiên”, cho phép chúng ta ước lượng tác động nhân quả một cách thuyết phục từ dữ liệu phi thực nghiệm. Nắm vững các kỹ thuật này không chỉ giúp bạn đọc hiểu các nghiên cứu kinh tế hiện đại mà còn cung cấp nền tảng để bạn tự thực hiện những phân tích đánh giá chính sách có giá trị.

Trong chuỗi bài này, chúng ta sẽ cùng nhau đi từ những khái niệm nền tảng nhất, phân tích các nghiên cứu điển hình, cho đến việc tìm hiểu các phương pháp nâng cao và các vấn đề tiềm ẩn. Mục tiêu cuối cùng là giúp các bạn có thể tự tin xác định, phân tích và diễn giải các tác động nhân quả trong nghiên cứu của mình.

CẤU TRÚC CHUỖI BÀI HỌC

Nền tảng thí nghiệm ngẫu nhiên có kiểm soát
Hiểu rõ về kết quả tiềm năng, tác động nhân quả trung bình và các mối đe dọa đến tính hợp lệ của một thí nghiệm.
Phân tích dữ liệu thí nghiệm qua case study
Học cách phân tích dữ liệu từ một thí nghiệm thực tế nổi tiếng về ảnh hưởng của quy mô lớp học đến kết quả học tập.
Giới thiệu về tựa thí nghiệm
Khám phá các phương pháp mạnh mẽ như Sai biệt của các Sai biệt (DiD) và Hồi quy Gián đoạn (RD) để phân tích dữ liệu.
Các vấn đề nâng cao và tác động không đồng nhất
Tìm hiểu về các thách thức của tựa thí nghiệm và khái niệm quan trọng về Hiệu ứng xử lý trung bình cục bộ (LATE).
Thực hành phân tích tựa thí nghiệm với stata
Hướng dẫn từng bước thực hiện phân tích Sai biệt của các Sai biệt (DiD) trên Stata với bộ dữ liệu mô phỏng.
Tổng hợp và so sánh các phương pháp
Hệ thống hóa toàn bộ kiến thức, so sánh ưu nhược điểm của các phương pháp và định hướng các nghiên cứu tiếp theo.

KIẾN THỨC TIÊN QUYẾT

Kinh tế lượng cơ bản: Nắm vững mô hình hồi quy OLS, kiểm định giả thuyết, và hiểu về các vấn đề như phương sai thay đổi và sai số chuẩn.
Hồi quy với biến công cụ (IV Regression): Hiểu khái niệm về biến nội sinh, điều kiện hợp lệ của biến công cụ và phương pháp ước lượng 2SLS.
Phân tích dữ liệu bảng (Panel Data): Có kiến thức cơ bản về mô hình ảnh hưởng cố định (fixed effects) và ảnh hưởng ngẫu nhiên (random effects).
Stata cơ bản: Quen thuộc với các lệnh cơ bản trong Stata như regress, summarize, và quản lý dữ liệu.

MỤC TIÊU HỌC TẬP

Nắm vững khung lý thuyết về kết quả tiềm năng để hiểu sâu sắc về tác động nhân quả.
Phân biệt được sự khác nhau giữa thí nghiệm ngẫu nhiên có kiểm soát và tựa thí nghiệm, cùng các ưu nhược điểm.
Vận dụng thành thạo các phương pháp ước lượng phổ biến như Sai biệt của các Sai biệt (DiD) và Hồi quy Gián đoạn (RD).
Nhận diện và phân tích được các mối đe dọa đến tính hợp lệ nội và ngoại của một nghiên cứu.
Diễn giải kết quả ước lượng trong bối cảnh tác động không đồng nhất (heterogeneous effects) và LATE.
Sử dụng Stata để thực hiện các phân tích đánh giá tác động một cách tự tin.

TÀI LIỆU THAM KHẢO

Stock, J. H., & Watson, M. W. (2020). Introduction to Econometrics, Updated Fourth Edition. (Tài liệu gốc của chuỗi bài viết này).
Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. (Một tài liệu giáo khoa kinh điển khác với nhiều ví dụ ứng dụng).
Angrist, J. D., & Pischke, J. S. (2009). Mostly Harmless Econometrics: An Empiricist’s Companion. (Cuốn sách tuyệt vời cho những ai muốn đi sâu vào các phương pháp thực nghiệm).

PHỤ LỤC: Dữ liệu mô phỏng cho series

Để chuẩn bị cho bài thực hành, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng về tác động của một chương trình đào tạo việc làm. Dữ liệu này được thiết kế đơn giản để tập trung vào phương pháp luận. Các bạn có thể tự tạo lại bộ dữ liệu này bằng các lệnh Stata dưới đây.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho phân tích DiD
* CHỦ ĐỀ: Đánh giá tác động của chương trình đào tạo việc làm
* SỐ QUAN SÁT: 1000 cá nhân trong 2 năm
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 2000

* Tạo mã định danh cho mỗi cá nhân
gen id = mod(_n-1, 1000) + 1

* Tạo biến thời gian (0 = trước can thiệp, 1 = sau can thiệp)
gen time = ( _n > 1000 )

* Tạo biến nhóm (1 = nhóm được xử lý, 0 = nhóm kiểm soát)
gen treated = (id > 500)

* Tạo biến can thiệp (chỉ có tác động với nhóm được xử lý ở giai đoạn sau)
gen post_treat = treated * time

* Tạo các đặc điểm cá nhân không đổi theo thời gian
bysort id: gen education = rnormal(12, 2)
bysort id: gen experience = runiformint(1, 5)

* Tạo thành phần sai số
gen error = rnormal(0, 500)

* Mô phỏng biến kết quả (thu nhập)
* Thu nhập cơ bản phụ thuộc vào học vấn, kinh nghiệm
* Tác động của thời gian (xu hướng chung): thu nhập tăng 200 đơn vị
* Tác động của chương trình (tác động nhân quả): thu nhập tăng thêm 500 đơn vị
gen wage = 1500 + 300*education + 100*experience + 200*time + 500*post_treat + error

* Sắp xếp dữ liệu để dễ xem
sort id time
order id time treated post_treat wage education experience

* Gán nhãn cho các biến để dễ hiểu
label var time "Giai đoạn (1=Sau, 0=Trước)"
label var treated "Nhóm (1=Được xử lý, 0=Kiểm soát)"
label var wage "Thu nhập hàng tháng"
label var education "Số năm đi học"
label var experience "Số năm kinh nghiệm"

* Mô tả dữ liệu
describe
summarize wage if time==0 & treated==0
summarize wage if time==0 & treated==1
summarize wage if time==1 & treated==0
summarize wage if time==1 & treated==1

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho phân tích DiD
* CHỦ ĐỀ: Đánh giá tác động của chương trình đào tạo việc làm
* SỐ QUAN SÁT: 1000 cá nhân trong 2 năm
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 2000

* Tạo mã định danh cho mỗi cá nhân
gen id = mod(_n-1, 1000) + 1

* Tạo biến thời gian (0 = trước can thiệp, 1 = sau can thiệp)
gen time = ( _n > 1000 )

* Tạo biến nhóm (1 = nhóm được xử lý, 0 = nhóm kiểm soát)
gen treated = (id > 500)

* Tạo biến can thiệp (chỉ có tác động với nhóm được xử lý ở giai đoạn sau)
gen post_treat = treated * time

* Tạo các đặc điểm cá nhân không đổi theo thời gian
bysort id: gen education = rnormal(12, 2)
bysort id: gen experience = runiformint(1, 5)

* Tạo thành phần sai số
gen error = rnormal(0, 500)

* Mô phỏng biến kết quả (thu nhập)
* Thu nhập cơ bản phụ thuộc vào học vấn, kinh nghiệm
* Tác động của thời gian (xu hướng chung): thu nhập tăng 200 đơn vị
* Tác động của chương trình (tác động nhân quả): thu nhập tăng thêm 500 đơn vị
gen wage = 1500 + 300*education + 100*experience + 200*time + 500*post_treat + error

* Sắp xếp dữ liệu để dễ xem
sort id time
order id time treated post_treat wage education experience

* Gán nhãn cho các biến để dễ hiểu
label var time "Giai đoạn (1=Sau, 0=Trước)"
label var treated "Nhóm (1=Được xử lý, 0=Kiểm soát)"
label var wage "Thu nhập hàng tháng"
label var education "Số năm đi học"
label var experience "Số năm kinh nghiệm"

* Mô tả dữ liệu
describe
summarize wage if time==0 & treated==0
summarize wage if time==0 & treated==1
summarize wage if time==1 & treated==0
summarize wage if time==1 & treated==1

Mô tả dữ liệu:

id: Mã định danh duy nhất cho mỗi cá nhân.
time: Biến giả, bằng 1 cho năm sau khi chương trình diễn ra, và 0 cho năm trước đó.
treated: Biến giả, bằng 1 nếu cá nhân thuộc nhóm được tham gia chương trình đào tạo (nhóm xử lý), và 0 nếu thuộc nhóm không tham gia (nhóm kiểm soát).
wage: Biến kết quả, là thu nhập hàng tháng của cá nhân.
education, experience: Các biến kiểm soát, thể hiện trình độ học vấn và kinh nghiệm làm việc.

📚 Bài tiếp theo: Nền tảng Thí nghiệm Ngẫu nhiên có Kiểm soát (RCTs)

💡 Lưu ý: Hãy đọc kỹ các mục tiêu học tập và kiến thức tiên quyết để chuẩn bị tốt nhất cho chuỗi bài học này.

🎯 Self-check: Bạn có thể giải thích sự khác biệt cơ bản giữa tương quan và quan hệ nhân quả cho một người bạn không?