Giới thiệu các mô hình cho dữ liệu dọc và dữ liệu bảng

Introduction to Models for Longitudinal and Panel data

Tóm tắt loạt bài viết

Chào mừng các bạn quay trở lại với một chương mới trong hành trình chinh phục kinh tế lượng! Sau khi đã làm chủ các mô hình đa cấp với dữ liệu cắt ngang, giờ đây chúng ta sẽ bước vào một lĩnh vực thậm chí còn mạnh mẽ và hấp dẫn hơn: phân tích dữ liệu dọc và dữ liệu bảng (longitudinal and panel data). Đây là loại dữ liệu theo dõi cùng một đối tượng (cá nhân, công ty, quốc gia) qua nhiều thời điểm khác nhau. Sức mạnh của nó nằm ở chỗ cho phép chúng ta làm một điều mà dữ liệu cắt ngang không thể: kiểm soát các yếu tố không quan sát được, không đổi theo thời gian của đối tượng, chẳng hạn như năng lực bẩm sinh, văn hóa doanh nghiệp hay thể chế quốc gia.

Khả năng này mở ra một cánh cửa vô cùng to lớn cho việc thực hiện các suy luận nhân quả (causal inference). Chuỗi bài viết này sẽ là kim chỉ nam của bạn trong thế giới dữ liệu bảng. Chúng ta sẽ bắt đầu bằng việc tìm hiểu cấu trúc đặc biệt của loại dữ liệu này và tại sao nó lại ưu việt. Sau đó, chúng ta sẽ đi sâu vào cuộc “tranh luận” kinh điển trong kinh tế lượng: khi nào nên sử dụng Mô hình Hiệu ứng Cố định (Fixed-Effects Models) để loại bỏ các yếu tố nhiễu, và khi nào có thể dùng Mô hình Hiệu ứng Ngẫu nhiên (Random-Effects Models) để có ước lượng hiệu quả hơn. Không chỉ dừng lại ở đó, chúng ta sẽ khám phá các mô hình động để trả lời câu hỏi “quá khứ ảnh hưởng đến hiện tại như thế nào?”, và tìm hiểu các phương pháp biến công cụ tiên tiến để xử lý những dạng nội sinh phức tạp nhất. Xuyên suốt chuỗi bài, chúng ta sẽ cùng phân tích bộ dữ liệu kinh điển về tiền lương của nam giới tại Mỹ (`wagepan.dta`), giúp biến những lý thuyết trừu tượng thành các kỹ năng thực hành hữu ích.

Cấu trúc chuỗi bài học

Để chinh phục một chủ đề lớn và phức tạp như dữ liệu bảng, chúng ta cần một lộ trình rõ ràng. Chuỗi bài viết được thiết kế theo từng bước logic, mỗi bài xây dựng trên nền tảng của bài trước, giúp bạn tiếp cận kiến thức một cách tự nhiên và có hệ thống.

Mô hình hiệu ứng cố định – công cụ kiểm soát yếu tố không đổi
Bạn sẽ học cách loại bỏ các yếu tố nhiễu không đổi theo thời gian bằng kỹ thuật “within” và lệnh xtreg, fe.
Lựa chọn giữa hiệu ứng cố định và ngẫu nhiên – kiểm định Hausman
Nắm vững cách sử dụng kiểm định Hausman để lựa chọn mô hình phù hợp và hiểu sâu hơn về vấn đề nội sinh.
Mô hình động trong dữ liệu bảng – khi quá khứ ảnh hưởng đến hiện tại
Khám phá các mô hình có biến trễ, tìm hiểu về “Nickell bias” và các phương pháp GMM để có ước lượng nhất quán.
Thực hành đánh giá tác động với phương pháp sai biệt kép (DiD)
Áp dụng mô hình hiệu ứng cố định vào một trong những kỹ thuật đánh giá tác động chính sách phổ biến nhất.
Bài tổng hợp: Cây quyết định lựa chọn mô hình và các phương pháp nâng cao
Hệ thống hóa kiến thức, so sánh các phương pháp và giới thiệu các công cụ nâng cao như Hausman-Taylor.

Kiến thức tiên quyết

Chuỗi bài viết này được xây dựng dựa trên giả định rằng bạn đã có nền tảng vững chắc từ các chủ đề trước. Việc chuẩn bị kỹ lưỡng sẽ giúp bạn tập trung vào các ý tưởng mới và phức tạp của kinh tế lượng dữ liệu bảng.

Để bắt đầu, bạn cần:

Nắm vững Mô hình Chặn ngẫu nhiên: Hiểu rõ khái niệm về hiệu ứng ngẫu nhiên, phương sai within/between, và chỉ số tương quan nội cụm (rho).
Hiểu biết về Vấn đề Nội sinh: Quen thuộc với khái niệm nội sinh do biến bị bỏ sót và đã từng tiếp xúc với kiểm định Hausman ở mức độ cơ bản.
Thành thạo Stata cơ bản và đa cấp: Có khả năng sử dụng thành thạo các lệnh xtset, xtreg, và các lệnh quản lý dữ liệu cơ bản.
Tư duy về Suy luận Nhân quả: Có mong muốn hiểu sự khác biệt giữa tương quan và nhân quả, và vai trò của việc kiểm soát các yếu tố nhiễu.

Mục tiêu học tập

Kết thúc chuỗi bài viết này, bạn sẽ sở hữu một bộ kỹ năng phân tích dữ liệu bảng toàn diện, một trong những kỹ năng được săn đón nhất trong nghiên cứu kinh tế lượng ứng dụng.

Hiểu rõ cấu trúc và các dạng thức của dữ liệu dọc (dạng dài, dạng rộng; bảng cân bằng, không cân bằng).
Phân biệt rạch ròi các giả định, ưu và nhược điểm của mô hình Hiệu ứng Cố định và Hiệu ứng Ngẫu nhiên.
Thực hiện và diễn giải thành thạo kiểm định Hausman để lựa chọn mô hình phù hợp.
Nhận diện và giải quyết vấn đề nội sinh do các yếu tố không đổi theo thời gian.
Hiểu được các thách thức khi mô hình hóa các quá trình động (biến trễ) và biết các phương pháp khắc phục cơ bản.
Áp dụng phương pháp Sai biệt kép (Difference-in-Differences) để đánh giá tác động của chính sách.
Xây dựng được một quy trình làm việc có hệ thống để phân tích dữ liệu bảng cho các dự án nghiên cứu của riêng mình.

Tài liệu tham khảo

Kiến thức trong chuỗi bài viết này được chắt lọc và phát triển từ các nguồn tài liệu kinh tế lượng dữ liệu bảng hàng đầu. Việc tìm đọc thêm các tài liệu gốc sẽ giúp bạn đào sâu hơn nữa vào lĩnh vực này.

Skrondal, A., & Rabe-Hesketh, S. (2022). Multilevel and Longitudinal Modeling Using Stata, Fourth Edition. Stata Press. Đây là tài liệu chính, cung cấp nền tảng lý thuyết và hướng dẫn thực hành Stata chi tiết cho toàn bộ chuỗi bài viết.
Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data. MIT press. Một tài liệu kinh điển và toàn diện về kinh tế lượng dữ liệu bảng, cung cấp chiều sâu lý thuyết cho các chủ đề nâng cao.
Vella, F., & Verbeek, M. (1998). Whose wages do unions raise? A dynamic model of unionism and wage rate determination for young men. Journal of applied econometrics, 13(2), 163-183. Đây là nghiên cứu gốc sử dụng bộ dữ liệu thực hành của chúng ta.

Phụ lục: Dữ liệu thực hành cho chuỗi bài viết

Chúng ta sẽ sử dụng bộ dữ liệu wagepan.dta trong suốt chuỗi bài viết. Đây là một tập hợp con từ Khảo sát Dọc Quốc gia về Thanh niên 1979 của Hoa Kỳ (NLSY79), theo dõi 545 nam thanh niên trong giai đoạn 1980-1987. Bạn có thể tải trực tiếp bộ dữ liệu này vào Stata.

Stata

* ==================================================
* MỤC ĐÍCH: Tải bộ dữ liệu bảng về tiền lương
* NGUỒN DỮ LIỆU: Stata Press, phục vụ sách của Skrondal & Rabe-Hesketh (2022)
* ==================================================
use https://www.stata-press.com/data/mlmus4/wagepan, clear

* ==================================================
* MỤC ĐÍCH: Tải bộ dữ liệu bảng về tiền lương
* NGUỒN DỮ LIỆU: Stata Press, phục vụ sách của Skrondal & Rabe-Hesketh (2022)
* ==================================================
use https://www.stata-press.com/data/mlmus4/wagepan, clear

Bộ dữ liệu này có cấu trúc bảng (panel), với các quan sát được lồng trong các cá nhân. Dưới đây là mô tả các biến chính:

nr: Mã định danh của cá nhân (biến chỉ báo cụm).
year: Năm quan sát (biến chỉ báo thời gian).
lwage: Logarit của tiền lương theo giờ (biến kết quả).
educ: Số năm đi học (biến không đổi theo thời gian).
black, hisp: Các biến giả về chủng tộc (biến không đổi theo thời gian).
exper: Kinh nghiệm làm việc (biến thay đổi theo thời gian).
married: Biến giả cho tình trạng hôn nhân (biến thay đổi theo thời gian).
union: Biến giả cho việc là thành viên công đoàn (biến thay đổi theo thời gian).

Với bộ dữ liệu và lộ trình học tập đã sẵn sàng, chúng ta hãy chuẩn bị để khám phá những kỹ thuật mạnh mẽ nhất của phân tích dữ liệu bảng trong bài học tiếp theo!

📚 Bài tiếp theo: Mô hình Hiệu ứng Cố định - Công cụ kiểm soát yếu tố không đổi

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.