Phương pháp hồi quy gián đoạn

Chào mừng các bạn sinh viên đến với chuỗi bài học về một trong những kỹ thuật mạnh mẽ và đáng tin cậy nhất trong kinh tế lượng ứng dụng: Thiết kế Gián đoạn Hồi quy, hay còn gọi là RDD. Trong nghiên cứu, chúng ta luôn muốn trả lời câu hỏi “liệu một chính sách hay một sự kiện có thực sự tạo ra tác động hay không?”. Tuy nhiên, việc này rất khó vì chúng ta không thể so sánh một người vừa nhận điều trị và vừa không nhận điều trị cùng một lúc. RDD mang đến một giải pháp cực kỳ thông minh cho vấn đề này bằng cách khai thác các quy tắc hoặc ngưỡng tự nhiên trong cuộc sống, chẳng hạn như ngưỡng điểm để nhận học bổng, ngưỡng phiếu bầu để thắng cử, hay ngưỡng nghèo đói để nhận trợ cấp.

Về bản chất, RDD hoạt động như một “thí nghiệm gần như ngẫu nhiên”. Bằng cách so sánh những cá nhân ngay sát hai bên của một ngưỡng xác định trước, chúng ta có thể ước lượng tác động nhân quả của việc nhận điều trị một cách thuyết phục. Chuỗi bài học này, dựa trên nền tảng kiến thức từ chương 21 của cuốn sách giáo khoa “Econometrics” (2022) của Giáo sư Bruce E. Hansen, sẽ trang bị cho các bạn đầy đủ kiến thức từ lý thuyết đến thực hành để có thể tự tin áp dụng phương pháp này.

Để giúp các bạn làm quen, đây là ba khái niệm cốt lõi chúng ta sẽ khám phá:

Thiết kế Gián đoạn Hồi quy (RDD): Một phương pháp ước lượng tác động nhân quả bằng cách so sánh các nhóm đối tượng ngay sát trên và dưới một ngưỡng cụ thể.
Biến chạy (Running Variable): Biến số liên tục quyết định việc một đối tượng có nhận được điều trị hay không (ví dụ: điểm thi, tỷ lệ nghèo).
Ngưỡng cắt (Cutoff): Giá trị cụ thể của biến chạy mà tại đó quy tắc điều trị thay đổi.

Mục tiêu của chúng tôi là giúp các bạn không chỉ hiểu được “tại sao” RDD lại hiệu quả, mà còn nắm vững “làm thế nào” để triển khai nó trong thực tế bằng phần mềm Stata. Hãy cùng nhau bắt đầu hành trình khám phá công cụ thú vị này!

Hiểu bản chất của thiết kế gián đoạn hồi quy
Chúng ta sẽ tìm hiểu RDD là gì, tại sao nó hữu ích, và khám phá mô hình RDD sắc nét qua các ví dụ trực quan, dễ hiểu.
Định danh và ước lượng trong RDD sắc nét
Bài học này đi sâu vào kỹ thuật cốt lõi, giải thích cách định danh tác động và phương pháp ước lượng hồi quy tuyến tính cục bộ từng bước.
Suy diễn thống kê và các vấn đề thực hành
Chúng ta sẽ học cách kiểm định giả thuyết, lựa chọn băng thông tối ưu và cách đưa các biến kiểm soát vào mô hình RDD để tăng độ chính xác.
Kiểm định và mô hình gián đoạn hồi quy mờ
Khám phá các chủ đề nâng cao hơn, bao gồm cách kiểm tra giả định quan trọng của RDD và làm quen với mô hình RDD mờ (Fuzzy RDD).
Hướng dẫn thực hành phân tích RDD với Stata
Đây là bài học tổng hợp, nơi chúng ta sẽ áp dụng toàn bộ kiến thức đã học để thực hiện một phân tích RDD hoàn chỉnh từ A-Z trên bộ dữ liệu mô phỏng.

KIẾN THỨC TIÊN QUYẾT

Toán học cơ bản: Hiểu biết về giới hạn (limits) và tính liên tục của hàm số.
Thống kê căn bản: Kỳ vọng có điều kiện, hồi quy tuyến tính đơn và bội (OLS), ý nghĩa của hệ số hồi quy và sai số chuẩn.
Kinh tế lượng nhập môn: Hiểu về vấn đề nội sinh và các phương pháp ước lượng tác động nhân quả cơ bản.
Stata cơ bản: Nhập dữ liệu, các lệnh mô tả (describe, summarize) và lệnh hồi quy (regress).

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Nắm vững logic đằng sau RDD, từ các giả định, cơ chế định danh cho đến các biến thể sắc nét và mờ.
Thực hành thành thạo: Sử dụng Stata một cách tự tin để ước lượng mô hình RDD, bao gồm cả việc lựa chọn băng thông và kiểm định.
Phân tích thực tế: Có khả năng diễn giải kết quả phân tích RDD một cách chính xác và rút ra các kết luận chính sách có ý nghĩa.
Tư duy phản biện: Nhận biết được các giả định quan trọng, các cạm bẫy tiềm ẩn và cách kiểm tra độ tin cậy của mô hình.

TÀI LIỆU THAM KHẢO

Chính: Hansen, B. E. (2022). Econometrics. Princeton University Press. (Chương 21).
Bổ sung: Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning.
Thực hành: Cattaneo, M. D., Idrobo, N., & Titiunik, R. (2020). A Practical Introduction to Regression Discontinuity Designs: Foundations. Cambridge University Press.
Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Stata Press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài viết. Bộ dữ liệu này mô phỏng điểm thi tuyển sinh và quyết định trao học bổng cho sinh viên.

Bối cảnh: Một trường đại học trao học bổng “Tài năng trẻ” cho bất kỳ sinh viên nào có điểm thi đầu vào từ 8.0 trở lên. Chúng ta muốn biết liệu việc nhận được học bổng này có thực sự giúp sinh viên cải thiện điểm GPA năm nhất hay không.

Biến kết quả (Y): gpa_year1 (Điểm GPA trung bình năm nhất).
Biến chạy (X): entry_score (Điểm thi đầu vào).
Ngưỡng cắt (c): 8.0.
Biến điều trị (D): scholarship (1 nếu nhận học bổng, 0 nếu không).

Các bạn hãy mở Stata và chạy đoạn code dưới đây để tự tạo và lưu bộ dữ liệu này. Chúng ta sẽ sử dụng tệp rdd_scholarship_data.dta trong các bài học tiếp theo.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO BÀI HỌC RDD
* Mục đích: Tạo bộ dữ liệu về học bổng và GPA sinh viên
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 2000

* Tạo biến chạy: điểm thi đầu vào phân phối đều từ 5 đến 10
gen entry_score = 5 + 5 * runiform()

* Tạo ngưỡng cắt và biến điều trị (scholarship)
scalar cutoff = 8.0
gen scholarship = (entry_score >= cutoff)

* Tạo sai số ngẫu nhiên
gen u = rnormal(0, 0.5)

* Tạo biến kết quả (GPA năm nhất)
* Giả định: GPA có mối quan hệ tuyến tính với điểm đầu vào
* Tác động của học bổng (treatment effect) là 0.25 điểm GPA
gen gpa_year1 = 1.5 + 0.2 * entry_score + 0.25 * scholarship + u

* Gán nhãn cho các biến để dễ hiểu hơn
label variable entry_score "Điểm thi đầu vào (thang 10)"
label variable scholarship "Nhận học bổng (1=Có, 0=Không)"
label variable gpa_year1 "Điểm GPA trung bình năm nhất (thang 4)"

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "rdd_scholarship_data.dta", replace

* Xem qua một vài dòng dữ liệu để kiểm tra
list entry_score scholarship gpa_year1 in 1/10

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO BÀI HỌC RDD
* Mục đích: Tạo bộ dữ liệu về học bổng và GPA sinh viên
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 2000

* Tạo biến chạy: điểm thi đầu vào phân phối đều từ 5 đến 10
gen entry_score = 5 + 5 * runiform()

* Tạo ngưỡng cắt và biến điều trị (scholarship)
scalar cutoff = 8.0
gen scholarship = (entry_score >= cutoff)

* Tạo sai số ngẫu nhiên
gen u = rnormal(0, 0.5)

* Tạo biến kết quả (GPA năm nhất)
* Giả định: GPA có mối quan hệ tuyến tính với điểm đầu vào
* Tác động của học bổng (treatment effect) là 0.25 điểm GPA
gen gpa_year1 = 1.5 + 0.2 * entry_score + 0.25 * scholarship + u

* Gán nhãn cho các biến để dễ hiểu hơn
label variable entry_score "Điểm thi đầu vào (thang 10)"
label variable scholarship "Nhận học bổng (1=Có, 0=Không)"
label variable gpa_year1 "Điểm GPA trung bình năm nhất (thang 4)"

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "rdd_scholarship_data.dta", replace

* Xem qua một vài dòng dữ liệu để kiểm tra
list entry_score scholarship gpa_year1 in 1/10

📚 Bài tiếp theo: Hiểu bản chất của thiết kế gián đoạn hồi quy

💡 Lưu ý: Hãy đảm bảo bạn đã chạy đoạn code trên và lưu lại bộ dữ liệu. Việc chuẩn bị sẵn sàng sẽ giúp bạn theo dõi bài học tiếp theo một cách tốt nhất.