Các phương pháp dựa trên lựa chọn các biến không quan sát được

Chào mừng các bạn sinh viên đã quay trở lại với chuỗi bài học về kinh tế lượng đánh giá chương trình! Ở chương trước, chúng ta đã cùng nhau tìm hiểu các phương pháp xử lý “thiên lệch công khai” (overt bias), tức là những sai lệch gây ra bởi các yếu tố mà chúng ta có thể quan sát và đo lường được trong bộ dữ liệu. Tuy nhiên, trong thực tế, bài toán khó khăn và phổ biến hơn rất nhiều là khi quyết định tham gia một chương trình (ví dụ: một khóa đào tạo kỹ năng, một chính sách hỗ trợ) lại phụ thuộc vào những yếu tố mà chúng ta không thể thấy được, chẳng hạn như năng lực bẩm sinh, động lực cá nhân, hay thái độ chấp nhận rủi ro. Hiện tượng này được gọi là “lựa chọn dựa trên các yếu tố không quan sát được” hay “thiên lệch ẩn” (hidden bias).

Khi thiên lệch ẩn xuất hiện, các phương pháp quen thuộc như hồi quy tuyến tính hay ghép cặp theo điểm xu hướng sẽ không còn cho chúng ta kết quả đáng tin cậy. Vậy làm thế nào để chúng ta có thể ước lượng được tác động nhân quả thực sự của một chương trình trong bối cảnh phức tạp này? Rất may mắn, các nhà kinh tế lượng đã phát triển một bộ công cụ mạnh mẽ để giải quyết vấn đề hóc búa này. Trong chuỗi bài học sắp tới, chúng ta sẽ cùng nhau khám phá và làm chủ ba phương pháp cốt lõi:

Phương pháp Biến công cụ (Instrumental Variables – IV): Kỹ thuật này tìm kiếm một biến “trung gian” (biến công cụ) có tác động đến việc lựa chọn tham gia chương trình nhưng không ảnh hưởng trực tiếp đến kết quả, từ đó giúp tách bạch được hiệu ứng nhân quả thực sự.
Mô hình Lựa chọn (Selection Models – SM): Cách tiếp cận này trực tiếp mô hình hóa quá trình tự lựa chọn của đối tượng, thường dựa trên giả định về phân phối chuẩn, để điều chỉnh cho phần sai lệch không quan sát được.
Phương pháp Sai biệt kép (Difference-in-Differences – DID): Một phương pháp cực kỳ hữu ích khi chúng ta có dữ liệu được thu thập ở cả thời điểm trước và sau khi chương trình diễn ra, cho phép loại bỏ các yếu tố không đổi theo thời gian.

Hành trình này có thể sẽ có nhiều thử thách với các khái niệm và công thức mới, nhưng đừng lo lắng! Mỗi phương pháp sẽ được trình bày một cách tuần tự, từ lý thuyết nền tảng đến các ví dụ thực hành chi tiết bằng Stata. Mục tiêu của chúng ta là giúp các bạn không chỉ hiểu “cái gì” mà còn hiểu “tại sao” và “như thế nào”, để có thể tự tin áp dụng những kỹ thuật này trong các dự án nghiên cứu của riêng mình.

Cấu trúc chuỗi bài học

Bài 1: Giới thiệu về thiên lệch ẩn và biến công cụ
Chúng ta sẽ tìm hiểu gốc rễ của vấn đề và khám phá ý tưởng trực quan đằng sau phương pháp biến công cụ (IV) để giải quyết nó.
Bài 2: Các kỹ thuật ước lượng IV và xử lý tính dị biệt
Bài học này sẽ trang bị cho bạn các kỹ thuật ước lượng IV cụ thể và cách mô hình hóa khi hiệu ứng tác động không đồng nhất.
Bài 3: Các vấn đề thực tế khi sử dụng biến công cụ
Chúng ta sẽ học cách tư duy phản biện về những thách thức của IV như công cụ yếu, giúp bạn trở thành một nhà nghiên cứu cẩn trọng hơn.
Bài 4: Mô hình lựa chọn Heckman (Heckit)
Khám phá một giải pháp thay thế cho IV, tập trung vào việc mô hình hóa trực tiếp quá trình lựa chọn để điều chỉnh sai lệch một cách hiệu quả.
Bài 5: Phương pháp sai biệt kép (Difference-in-Differences)
Nắm vững một công cụ mạnh mẽ khi có dữ liệu trước và sau can thiệp, dựa trên giả định quan trọng về “xu hướng song song”.
Bài 6: Hướng dẫn thực hành IV và mô hình lựa chọn với Stata
Áp dụng lý thuyết đã học vào phân tích dữ liệu thực tế, từ việc chạy lệnh đến diễn giải kết quả của mô hình IV và Heckit.
Bài 7: Hướng dẫn thực hành phương pháp DID với Stata
Củng cố kỹ năng thực hành với phương pháp DID, bao gồm cả dữ liệu cắt ngang lặp lại và dữ liệu bảng, hoàn thiện bộ công cụ của bạn.

KIẾN THỨC TIÊN QUYẾT

Kinh tế lượng cơ bản: Hiểu sâu về hồi quy OLS, ý nghĩa của các hệ số, và đặc biệt là khái niệm về tính nội sinh (endogeneity).
Thống kê suy diễn: Nắm vững các khái niệm về ước lượng nhất quán (consistent estimator), kiểm định giả thuyết (hypothesis testing), và phân phối chuẩn.
Mô hình xác suất nhị phân: Có kiến thức cơ bản về mô hình Probit/Logit là một lợi thế lớn, đặc biệt cho các bài học về IV và Mô hình lựa chọn.
Stata cơ bản: Thành thạo các lệnh cơ bản như regress, summarize, và quản lý dữ liệu. Kiến thức về lệnh probit sẽ rất hữu ích.

MỤC TIÊU HỌC TẬP

Hiểu sâu sắc vấn đề: Nhận diện và giải thích được vấn đề thiên lệch ẩn (hidden bias) trong các bối cảnh nghiên cứu thực tế.
Nắm vững lý thuyết: Trình bày được các giả định, cơ chế hoạt động và hạn chế của ba phương pháp chính: IV, SM, và DID.
Thực hành thành thạo: Sử dụng Stata để ước lượng các mô hình IV, Heckman, và DID một cách chính xác và tự tin.
Diễn giải chuyên nghiệp: Phân tích và diễn giải kết quả từ các mô hình phức tạp, rút ra các kết luận kinh tế có ý nghĩa và nhận biết các cạm bẫy tiềm ẩn.

TÀI LIỆU THAM KHẢO CHÍNH

Nền tảng: Angrist, J. D., & Pischke, J. S. (2008). Mostly harmless econometrics: An empiricist’s companion. – Cuốn sách gối đầu giường cho kinh tế lượng ứng dụng, giải thích các khái niệm một cách trực quan.
Chi tiết kỹ thuật: Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data. – Tài liệu tham khảo sâu về mặt lý thuyết cho các bạn muốn tìm hiểu chi tiết.
Bài báo kinh điển: Angrist, J. D., & Krueger, A. B. (1991). Does compulsory school attendance affect schooling and earnings? – Một ví dụ mẫu mực về việc sử dụng biến công cụ.
Bài báo kinh điển: Heckman, J. J. (1979). Sample selection bias as a specification error. – Bài báo nền tảng cho mô hình lựa chọn.
Bài báo kinh điển: Card, D., & Krueger, A. B. (1994). Minimum wages and employment: A case study of the fast-food industry. – Một ứng dụng kinh điển của phương pháp DID.

📚 Bài tiếp theo: Chúng ta sẽ bắt đầu hành trình này với bài học đầu tiên. Hãy sẵn sàng để tìm hiểu sâu hơn về vấn đề thiên lệch ẩn và giải pháp kinh điển đầu tiên: phương pháp Biến công cụ.

💡 Gợi ý: Hãy đọc lướt qua các mục tiêu học tập một lần nữa để có cái nhìn tổng quan về những kiến thức bạn sẽ được trang bị sau chuỗi bài học này. Chúc các bạn học tốt!