Tổng quan về các phương pháp ước lượng tác động can thiệp nội sinh

An Overview of Methods for Endogenous Treatment Effects

Giới thiệu về vấn đề tác động can thiệp nội sinh

Chào các bạn, chào mừng đến với chuỗi bài học chuyên sâu về một trong những chủ đề quan trọng và thách thức nhất trong kinh tế lượng ứng dụng: ước lượng tác động can thiệp khi có sự hiện diện của tính nội sinh. Trong thực tế, khi đánh giá hiệu quả của một chính sách, một chương trình đào tạo, hay một chiến dịch marketing, chúng ta thường không thể thực hiện các thí nghiệm ngẫu nhiên có đối chứng (RCTs) hoàn hảo. Thay vào đó, chúng ta phải làm việc với dữ liệu quan sát, nơi các cá nhân hoặc đơn vị tự lựa chọn có tham gia “can thiệp” hay không. Ví dụ, một người lao động quyết định tham gia một khóa đào tạo kỹ năng có thể vì họ có động lực cao hơn, và chính động lực này (một yếu tố không quan sát được) cũng ảnh hưởng đến thu nhập của họ sau này. Nếu chúng ta chỉ đơn giản so sánh thu nhập của nhóm tham gia và không tham gia, kết quả sẽ bị chệch, vì chúng ta không phân biệt được đâu là tác động thực sự của khóa học và đâu là tác động của động lực sẵn có.

Vấn đề này được gọi là tính nội sinh (endogeneity) của biến can thiệp. Việc bỏ qua tính nội sinh sẽ dẫn đến các ước lượng không nhất quán và những kết luận chính sách sai lầm. Chuỗi bài học này sẽ trang bị cho các bạn một bộ công cụ toàn diện, từ các phương pháp tham số kinh điển đến các kỹ thuật thí nghiệm bán tự nhiên hiện đại, để giải quyết vấn đề phức tạp này. Chúng ta sẽ cùng nhau đi từng bước, từ việc hiểu bản chất của vấn đề, các giả định cần có, cách triển khai trong Stata, và quan trọng nhất là cách diễn giải kết quả một cách chính xác. Đây là một kỹ năng cực kỳ giá trị, giúp bạn thực hiện những nghiên cứu có ý nghĩa và đáng tin cậy.

Cấu trúc chuỗi bài học

Để giúp các bạn tiếp cận chủ đề phức tạp này một cách có hệ thống, chúng tôi đã xây dựng chuỗi bài học theo một lộ trình logic, đi từ các khái niệm nền tảng đến các kỹ thuật ứng dụng nâng cao.

Các phương pháp tham số trong ước lượng tác động can thiệp nội sinh
Nắm vững các khái niệm cốt lõi về nội sinh, biến công cụ và các mô hình cấu trúc tham số để giải quyết vấn đề lựa chọn trên các yếu tố không quan sát được.
Hướng dẫn thực hành với lệnh eregress và etregress trong Stata
Học cách triển khai các mô hình hồi quy mở rộng (ERM) và mô hình tác động can thiệp (ET) trong Stata để xử lý các biến can thiệp liên tục, nhị phân và đa cấp.
Phương pháp thí nghiệm bán tự nhiên – ước lượng LATE và sai biệt kép (DID)
Khám phá hai công cụ mạnh mẽ trong bộ công cụ thí nghiệm bán tự nhiên, hiểu rõ các giả định và cách diễn giải tác động can thiệp trung bình cục bộ (LATE) và tác động từ DID.
Các kỹ thuật nâng cao – phương pháp kiểm soát tổng hợp và hồi quy gián đoạn (RDD)
Tiếp cận các phương pháp tiên tiến để đánh giá tác động khi chỉ có một đơn vị được can thiệp (Synthetic Control) hoặc khi can thiệp được xác định bởi một ngưỡng cụ thể (RDD).
Hồi quy phân vị với biến nội sinh và phân vị vô điều kiện
Mở rộng phân tích ra ngoài tác động trung bình, tìm hiểu cách can thiệp ảnh hưởng đến các phân vị khác nhau của phân phối kết quả, cả có điều kiện và vô điều kiện.
Tổng kết, so sánh và lựa chọn mô hình phù hợp
Hệ thống hóa toàn bộ kiến thức, học cách so sánh ưu nhược điểm của từng phương pháp và xây dựng một khung tư duy để lựa chọn kỹ thuật phù hợp cho các vấn đề nghiên cứu cụ thể.

Kiến thức tiên quyết

Để có thể tiếp thu tốt nhất các kiến thức trong chuỗi bài học này, các bạn cần có một nền tảng vững chắc về các chủ đề sau đây.

Kinh tế lượng cơ bản: Hiểu rõ về mô hình hồi quy tuyến tính, phương pháp Bình phương nhỏ nhất thông thường (OLS), các giả định Gauss-Markov, và cách kiểm định giả thuyết thống kê.
Vấn đề Nội sinh và Biến công cụ (IV): Nắm vững khái niệm về tính nội sinh, các nguồn gây ra nội sinh (biến bỏ sót, sai số đo lường, quan hệ đồng thời), và logic của phương pháp biến công cụ, bao gồm hồi quy hai giai đoạn (2SLS).
Mô hình Biến phụ thuộc Giới hạn: Có kiến thức cơ bản về các mô hình Probit và Logit, vì chúng thường được sử dụng để mô hình hóa quyết định tham gia can thiệp.
Sử dụng Stata cơ bản: Thành thạo các lệnh cơ bản trong Stata như regress, summarize, tạo biến, và quản lý dữ liệu.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng áp dụng các kiến thức đã học vào nghiên cứu thực tế một cách tự tin. Cụ thể, các bạn sẽ đạt được những mục tiêu sau:

Nhận diện và chẩn đoán được vấn đề nội sinh của biến can thiệp trong các bối cảnh nghiên cứu khác nhau.
Hiểu rõ các giả định, ưu điểm và nhược điểm của từng phương pháp, từ mô hình tham số đến các kỹ thuật thí nghiệm bán tự nhiên.
Thực hành thành thạo việc ước lượng các mô hình phức tạp trong Stata, bao gồm các lệnh eregress, etregress, ivregress, didregress, và rdrobust.
Diễn giải một cách chính xác các kết quả ước lượng, chẳng hạn như Tác động Can thiệp Trung bình (ATE), Tác động trên nhóm được can thiệp (ATET), và Tác động Can thiệp Trung bình Cục bộ (LATE).
Phát triển tư duy phản biện để lựa chọn phương pháp phù hợp nhất cho câu hỏi nghiên cứu và bộ dữ liệu cụ thể của mình.

Tài liệu tham khảo

Nội dung của chuỗi bài học này được xây dựng và phát triển chủ yếu dựa trên kiến thức từ chương 25 của cuốn sách kinh điển sau đây, cùng với các tài liệu tham khảo bổ sung để mở rộng kiến thức.

Cameron, A. C., & Trivedi, P. K. (2022). Microeconometrics Using Stata, Volume 2: Nonlinear Models and Causal Inference Methods. Stata Press. Đây là tài liệu cốt lõi, cung cấp nền tảng lý thuyết chi tiết và các hướng dẫn thực hành Stata toàn diện cho tất cả các chủ đề được đề cập.
Angrist, J. D., & Pischke, J. S. (2009). Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton University Press. Một cuốn sách tuyệt vời giúp xây dựng trực giác về các phương pháp suy luận nhân quả, đặc biệt là Biến công cụ, RDD và DID, với ngôn ngữ dễ tiếp cận.
Cunningham, S. (2021). Causal Inference: The Mixtape. Yale University Press. Cung cấp một cái nhìn hiện đại và thực tế về các phương pháp suy luận nhân quả, với nhiều ví dụ minh họa và mã code đi kèm.

Phụ lục: Dữ liệu mô phỏng cho chuỗi bài học

Để giúp việc học trở nên trực quan và dễ dàng, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt các bài học đầu tiên. Bộ dữ liệu này mô tả tác động của một chương trình đào tạo việc làm lên thu nhập hàng tháng của người lao động.

Bối cảnh dữ liệu:

Biến kết quả (outcome): wage (thu nhập hàng tháng, đơn vị: triệu VND).
Biến can thiệp (treatment): training (biến nhị phân, 1 = có tham gia chương trình đào tạo, 0 = không tham gia).
Vấn đề nội sinh: Việc tham gia chương trình đào tạo là tự nguyện. Những người có motivation (động lực, một yếu tố không quan sát được) cao hơn có xu hướng vừa tham gia chương trình, vừa có khả năng kiếm được thu nhập cao hơn bất kể có tham gia hay không.
Biến công cụ (instrument): distance (khoảng cách từ nhà đến trung tâm đào tạo, đơn vị: km). Giả định rằng khoảng cách ảnh hưởng đến quyết định tham gia (nhà xa hơn sẽ ít có khả năng tham gia hơn) nhưng không ảnh hưởng trực tiếp đến thu nhập (ngoại trừ thông qua việc tham gia).
Biến kiểm soát (control): education (số năm đi học).

Chúng ta sẽ sử dụng bộ dữ liệu này để minh họa cách OLS thông thường đưa ra kết quả chệch và cách các phương pháp như Biến công cụ có thể khắc phục vấn đề này.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* VẤN ĐỀ: Tác động của chương trình đào tạo lên lương
* TÍNH NỘI SINH: Động lực (không quan sát được) ảnh hưởng
* đến cả việc tham gia và kết quả lương.
* ==================================================

* Bước 1: Khởi tạo dữ liệu
clear
set obs 2000
set seed 123

* Bước 2: Tạo các biến cơ bản
* Động lực (không quan sát được)
gen motivation = rnormal(5, 2)
* Số năm đi học
gen education = 12 + rchi2(4)
* Khoảng cách đến trung tâm (biến công cụ)
gen distance = runiform(1, 50)
* Sai số ngẫu nhiên cho phương trình lương
gen u = rnormal(0, 5)

* Bước 3: Mô hình hóa quyết định tham gia (can thiệp)
* Quyết định tham gia phụ thuộc vào động lực và khoảng cách
gen participate_prob = 1 / (1 + exp(-(0.5*motivation - 0.1*distance)))
gen training = (runiform() < participate_prob)

* Bước 4: Mô hình hóa kết quả (lương)
* Lương phụ thuộc vào việc tham gia, học vấn, và động lực
gen wage = 10 + 5*training + 1.5*education + 2*motivation + u

* Bước 5: Hoàn thiện dữ liệu
label var wage "Thu nhập hàng tháng (triệu VND)"
label var training "Tham gia chương trình đào tạo (1=Có)"
label var education "Số năm đi học"
label var distance "Khoảng cách đến trung tâm (km)"
drop motivation u participate_prob // Xóa các biến không quan sát được

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* VẤN ĐỀ: Tác động của chương trình đào tạo lên lương
* TÍNH NỘI SINH: Động lực (không quan sát được) ảnh hưởng
* đến cả việc tham gia và kết quả lương.
* ==================================================

* Bước 1: Khởi tạo dữ liệu
clear
set obs 2000
set seed 123

* Bước 2: Tạo các biến cơ bản
* Động lực (không quan sát được)
gen motivation = rnormal(5, 2)
* Số năm đi học
gen education = 12 + rchi2(4)
* Khoảng cách đến trung tâm (biến công cụ)
gen distance = runiform(1, 50)
* Sai số ngẫu nhiên cho phương trình lương
gen u = rnormal(0, 5)

* Bước 3: Mô hình hóa quyết định tham gia (can thiệp)
* Quyết định tham gia phụ thuộc vào động lực và khoảng cách
gen participate_prob = 1 / (1 + exp(-(0.5*motivation - 0.1*distance)))
gen training = (runiform() < participate_prob)

* Bước 4: Mô hình hóa kết quả (lương)
* Lương phụ thuộc vào việc tham gia, học vấn, và động lực
gen wage = 10 + 5*training + 1.5*education + 2*motivation + u

* Bước 5: Hoàn thiện dữ liệu
label var wage "Thu nhập hàng tháng (triệu VND)"
label var training "Tham gia chương trình đào tạo (1=Có)"
label var education "Số năm đi học"
label var distance "Khoảng cách đến trung tâm (km)"
drop motivation u participate_prob // Xóa các biến không quan sát được