Phương pháp sai biệt kép với nhiều thời điểm trước và sau can thiệp

Chào mừng các bạn sinh viên đến với chuỗi bài học chuyên sâu về một trong những phương pháp quan trọng nhất trong kinh tế lượng ứng dụng: Sai biệt kép, hay còn gọi là Difference-in-Differences (DID). Trong các học phần nhập môn, chúng ta thường làm quen với mô hình DID cơ bản chỉ với hai nhóm và hai thời điểm (trước và sau can thiệp). Tuy nhiên, thực tế nghiên cứu thường phức tạp hơn rất nhiều, với dữ liệu kéo dài qua nhiều năm và các chính sách được áp dụng không đồng đều. Vậy làm thế nào để chúng ta có thể ước lượng tác động nhân quả một cách đáng tin cậy trong những bối cảnh như vậy?

Chuỗi bài học này sẽ trang bị cho các bạn những công cụ nâng cao để giải quyết chính xác vấn đề đó. Chúng ta sẽ cùng nhau khám phá những mở rộng hiện đại của phương pháp DID, giúp phân tích các tác động của chính sách một cách linh hoạt và sâu sắc hơn. Đừng lo lắng về các công thức phức tạp, bởi mỗi khái niệm, mỗi phương trình đều sẽ được giải thích cặn kẽ từng bước một. Mục tiêu của chúng ta không chỉ là hiểu lý thuyết, mà còn là có thể tự tin áp dụng các kỹ thuật này vào phân tích dữ liệu thực tế bằng phần mềm Stata.

Trọng tâm của chuỗi bài học này xoay quanh ba khái niệm cốt lõi:

Sai biệt kép Thay đổi theo Thời gian (TVDIFF): Phương pháp sử dụng khi trạng thái “được điều trị” của một đối tượng (ví dụ: một công ty nhận trợ cấp) có thể thay đổi liên tục qua các năm.
Sai biệt kép Cố định theo Thời gian (TFDIFF): Kỹ thuật áp dụng cho trường hợp một chính sách được ban hành tại một thời điểm cụ thể và giữ nguyên hiệu lực sau đó (ví dụ: một quốc gia gia nhập khu vực đồng tiền chung).
Kiểm định Giả định Xu hướng song song: Nền tảng của mọi mô hình DID. Chúng ta sẽ học các cách kiểm định giả định quan trọng này trong bối cảnh có nhiều giai đoạn thời gian, đảm bảo kết quả ước lượng của chúng ta có ý nghĩa nhân quả.

Hãy cùng nhau bắt đầu hành trình khám phá những công cụ mạnh mẽ này. Sau khi hoàn thành chuỗi bài học, các bạn sẽ có đủ kiến thức và kỹ năng để thực hiện những phân tích đánh giá tác động chính sách tinh vi và đáng tin cậy hơn.

Mô hình sai biệt kép thay đổi theo thời gian (TVDIFF)
Tìm hiểu mô hình TVDIFF, cách phân tích tác động động của chính sách và kiểm định giả định xu hướng song song qua ví dụ thực tế.
Nền tảng lý thuyết mô hình sai biệt kép cố định (TFDIFF)
Khám phá lý thuyết đằng sau mô hình TFDIFF, cách mô hình hóa kết quả tiềm năng và phương pháp kiểm định giả định xu hướng chung.
Ứng dụng TFDIFF và vấn đề hiệu ứng dự đoán
Học cách áp dụng TFDIFF trên Stata và thảo luận về một thách thức lớn trong suy luận nhân quả: hiệu ứng dự đoán từ các tác nhân.
Hướng dẫn thực hành tổng hợp DID mở rộng với Stata
Bài thực hành tổng hợp từ A-Z, giúp bạn củng cố kỹ năng sử dụng các lệnh `tvdiff` và `tfdiff` để phân tích dữ liệu một cách thành thạo.

KIẾN THỨC TIÊN QUYẾT

Kinh tế lượng cơ bản: Nắm vững mô hình hồi quy OLS, ý nghĩa của các hệ số và sai số chuẩn.
Phương pháp DID căn bản: Hiểu rõ logic của mô hình DID 2×2 (hai nhóm, hai thời điểm) và giả định xu hướng song song.
Dữ liệu bảng (Panel Data): Quen thuộc với cấu trúc dữ liệu bảng và các mô hình ước lượng cơ bản như Hiệu ứng cố định (Fixed Effects).
Stata cơ bản: Biết cách nhập và quản lý dữ liệu, sử dụng các lệnh như regress, xtset, và xtreg, fe.

MỤC TIÊU HỌC TẬP

Phân biệt rõ ràng: Hiểu và phân biệt được sự khác nhau giữa hai mô hình TVDIFF và TFDIFF cũng như bối cảnh áp dụng của chúng.
Nắm vững lý thuyết: Diễn giải được các phương trình kết quả tiềm năng và ý nghĩa nhân quả của các hệ số ước lượng.
Thực hành thành thạo: Sử dụng tự tin các lệnh tvdiff và tfdiff trong Stata để phân tích các mô hình DID mở rộng.
Tư duy phản biện: Nhận biết và kiểm định được giả định xu hướng song song, cũng như hiểu rõ những hạn chế của phương pháp khi có hiệu ứng dự đoán.

TÀI LIỆU THAM KHẢO

Chính: Cerulli, G. (2022). Econometric Evaluation of Socio-Economic Programs. Chương 5 là tài liệu cốt lõi cho chuỗi bài viết này.
Bổ sung: Angrist, J. D., & Pischke, J. S. (2009). Mostly harmless econometrics: An empiricist’s companion. Một cuốn sách kinh điển giúp xây dựng trực giác về suy luận nhân quả.
Ứng dụng: Autor, D. (2003). Outsourcing at will: The contribution of unjust dismissal doctrine to the growth of employment outsourcing. Một ví dụ ứng dụng kinh điển của mô hình DID động.

PHỤ LỤC: Dữ liệu sử dụng trong chuỗi bài viết

Để giúp các bạn dễ dàng theo dõi và thực hành, chuỗi bài viết này sẽ sử dụng hai bộ dữ liệu chính được đề cập trong tài liệu gốc:

1. Dữ liệu CANA (cho mô hình TVDIFF):

Đây là bộ dữ liệu bảng công khai của Castellacci và Natera (2011), chứa thông tin kinh tế – xã hội của 134 quốc gia từ năm 1980-2008. Trong bài học, chúng ta sẽ sử dụng bộ dữ liệu này để phân tích tác động của chi tiêu công cho giáo dục lên bình đẳng thu nhập. Bạn có thể tìm và tải bộ dữ liệu này bằng cách tìm kiếm “CANA dataset Castellacci and Natera”. Đoạn code dưới đây là các bước xử lý dữ liệu để chuẩn bị cho phân tích với lệnh tvdiff.

Stata

* ==================================================
* CHUẨN BỊ DỮ LIỆU CANA CHO MÔ HÌNH TVDIFF
* ==================================================

* Giả sử bạn đã tải và mở file cana.dta
* use cana.dta, clear

* Đảm bảo các biến là dạng số
destring _all, replace

* Định nghĩa biến can thiệp: chi tiêu công cho giáo dục (% GDP)
global S "es12educe"

* Tạo biến điều trị D: D=1 nếu chi tiêu giáo dục trong năm > mức trung vị của quốc gia đó
bys Country: egen med_$S = median($S)
gen demed_$S = $S - med_$S
gen d$S = .
replace d$S = 1 if demed_$S > 0 & demed_$S != .
replace d$S = 0 if demed_$S <= 0
global D d$S

* Định nghĩa biến kết quả: Mức độ bình đẳng (100 - chỉ số GINI)
gen equality = 100 - sc8ginii
global y "equality"

* Định nghĩa các biến kiểm soát
global x "i3teler i4elecc i6telecap ec16openi sc20trust ec14credg pf20demoa"

* Khai báo dữ liệu bảng
encode Country, gen(Country_n)
tsset Country_n Year

* ==================================================
* CHUẨN BỊ DỮ LIỆU CANA CHO MÔ HÌNH TVDIFF
* ==================================================

* Giả sử bạn đã tải và mở file cana.dta
* use cana.dta, clear

* Đảm bảo các biến là dạng số
destring _all, replace

* Định nghĩa biến can thiệp: chi tiêu công cho giáo dục (% GDP)
global S "es12educe"

* Tạo biến điều trị D: D=1 nếu chi tiêu giáo dục trong năm > mức trung vị của quốc gia đó
bys Country: egen med_$S = median($S)
gen demed_$S = $S - med_$S
gen d$S = .
replace d$S = 1 if demed_$S > 0 & demed_$S != .
replace d$S = 0 if demed_$S <= 0
global D d$S

* Định nghĩa biến kết quả: Mức độ bình đẳng (100 - chỉ số GINI)
gen equality = 100 - sc8ginii
global y "equality"

* Định nghĩa các biến kiểm soát
global x "i3teler i4elecc i6telecap ec16openi sc20trust ec14credg pf20demoa"

* Khai báo dữ liệu bảng
encode Country, gen(Country_n)
tsset Country_n Year

2. Dữ liệu mô phỏng (cho mô hình TFDIFF):

Để hiểu rõ nhất cách hoạt động của mô hình TFDIFF, chúng ta sẽ tự tạo ra một bộ dữ liệu mô phỏng. Việc này cho phép chúng ta biết trước “sự thật” (tác động thực của chính sách) và xem mô hình ước lượng có tìm lại được kết quả đó hay không. Đây là một cách học cực kỳ hiệu quả. Hãy chạy đoạn code Stata dưới đây để tạo ra bộ dữ liệu chúng ta sẽ dùng trong các bài học sau.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO MÔ HÌNH TFDIFF
* ==================================================
clear all
set scheme s1mono

* Thiết lập các tham số
global E=5       // Tác động trung bình thực sự của chính sách là 5
global Nobs=100  // 100 quốc gia/đơn vị
global T=21      // 21 năm (2000-2020)
set obs $Nobs
set seed 1234    // Đảm bảo kết quả mô phỏng có thể lặp lại

* Tạo biến ID và thời gian
gen id=_n
expand $T
bys id: gen time=_n+1999

* Tạo biến điều trị w=1 cho 21 quốc gia đầu tiên
gen w=(id<=$T)

* Giả định chính sách diễn ra vào năm 2010
global t_star=2010

* Tạo biến kiểm soát x và sai số ngẫu nhiên y
gen x=uniform()
gen y=rnormal(0,0.5)

* Gán tác động chính sách (E=5) cho nhóm được điều trị (w=1) từ năm 2010 trở đi
replace y=rnormal($E,1) if (time >= $t_star) & w==1

* Giữ lại các biến cần thiết
keep id time y w x

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO MÔ HÌNH TFDIFF
* ==================================================
clear all
set scheme s1mono

* Thiết lập các tham số
global E=5       // Tác động trung bình thực sự của chính sách là 5
global Nobs=100  // 100 quốc gia/đơn vị
global T=21      // 21 năm (2000-2020)
set obs $Nobs
set seed 1234    // Đảm bảo kết quả mô phỏng có thể lặp lại

* Tạo biến ID và thời gian
gen id=_n
expand $T
bys id: gen time=_n+1999

* Tạo biến điều trị w=1 cho 21 quốc gia đầu tiên
gen w=(id<=$T)

* Giả định chính sách diễn ra vào năm 2010
global t_star=2010

* Tạo biến kiểm soát x và sai số ngẫu nhiên y
gen x=uniform()
gen y=rnormal(0,0.5)

* Gán tác động chính sách (E=5) cho nhóm được điều trị (w=1) từ năm 2010 trở đi
replace y=rnormal($E,1) if (time >= $t_star) & w==1

* Giữ lại các biến cần thiết
keep id time y w x

📚 Bài tiếp theo: Mô hình sai biệt kép thay đổi theo thời gian (TVDIFF)

💡 Lưu ý: Hãy đảm bảo bạn đã đọc kỹ các kiến thức tiên quyết và mục tiêu học tập. Việc chuẩn bị tốt sẽ giúp bạn tiếp thu bài học hiệu quả hơn rất nhiều.