Giới thiệu chuỗi bài học về mô hình biên cho dữ liệu dọc

An Introduction to the Marginal models for Longitudinal data series

Tổng quan về chuỗi bài học

Chào mừng các bạn sinh viên đã quay trở lại! Sau khi khám phá thế giới của các mô hình đa cấp với trọng tâm là các hiệu ứng ngẫu nhiên, chuỗi bài học này sẽ giới thiệu một cách tiếp cận khác nhưng không kém phần mạnh mẽ để phân tích dữ liệu dọc và dữ liệu cụm: Mô hình biên (Marginal models). Nếu như mô hình đa cấp tập trung vào việc mô hình hóa các mối quan hệ “đặc thù theo đối tượng” (subject-specific), thì mô hình biên lại tập trung vào một câu hỏi khác: Mối quan hệ “trung bình trên toàn tổng thể” (population-averaged) giữa biến phụ thuộc và các biến giải thích là gì?

Hãy tưởng tượng bạn đang nghiên cứu tác động của một loại thuốc mới lên huyết áp. Mô hình đa cấp sẽ cố gắng mô tả quỹ đạo huyết áp riêng của từng bệnh nhân. Ngược lại, mô hình biên sẽ trả lời câu hỏi: “Trung bình, trên toàn bộ dân số bệnh nhân, loại thuốc này làm giảm huyết áp bao nhiêu?”. Cả hai câu hỏi đều có giá trị, nhưng chúng phục vụ các mục tiêu nghiên cứu khác nhau. Mô hình biên đặc biệt hữu ích trong các thử nghiệm lâm sàng và nghiên cứu chính sách công, nơi mà hiệu ứng trung bình trên tổng thể là mối quan tâm hàng đầu.

Điểm khác biệt cốt lõi thứ hai nằm ở cách xử lý sự phụ thuộc trong dữ liệu. Thay vì giả định sự phụ thuộc này phát sinh từ các hiệu ứng ngẫu nhiên, mô hình biên tiếp cận một cách trực tiếp hơn: chúng ta sẽ định nghĩa và mô hình hóa trực tiếp cấu trúc của ma trận hiệp phương sai (covariance matrix) của phần dư. Chuỗi bài học này sẽ dẫn dắt bạn qua một loạt các cấu trúc hiệp phương sai phổ biến, từ đơn giản đến phức tạp, và hướng dẫn bạn cách lựa chọn cấu trúc phù hợp nhất với dữ liệu của mình. Hãy cùng khám phá công cụ mạnh mẽ này để làm phong phú thêm bộ kỹ năng kinh tế lượng của bạn!

Cấu trúc chuỗi bài học

Để giúp các bạn nắm vững cách tiếp cận mới này, chuỗi bài học được thiết kế theo một lộ trình logic, tập trung vào việc xây dựng và lựa chọn các cấu trúc hiệp phương sai, vốn là “trái tim” của mô hình biên.

Các cấu trúc hiệp phương sai cơ bản
Tìm hiểu các cấu trúc nền tảng như Không cấu trúc, Đối xứng hợp chất (Hiệu ứng ngẫu nhiên) và Hệ số ngẫu nhiên dưới góc nhìn của mô hình biên.
Các cấu trúc hiệp phương sai cho dữ liệu chuỗi thời gian
Khám phá các cấu trúc được thiết kế riêng cho dữ liệu có trật tự thời gian như Tự hồi quy (AR), Trung bình trượt (MA), và Toeplitz.
Các mô hình phức hợp và lựa chọn mô hình tốt nhất
Học cách kết hợp các cấu trúc khác nhau để tạo ra mô hình linh hoạt hơn và sử dụng các tiêu chí thông tin như AIC và BIC để so sánh và lựa chọn.
Phương trình ước lượng tổng quát (GEE) và mô hình cho dữ liệu bảng dài
Làm quen với GEE, một phương pháp phổ biến để ước lượng mô hình biên, và các kỹ thuật đặc biệt cho dữ liệu có nhiều thời điểm nhưng ít đối tượng.
Bài thực hành với Stata
Áp dụng tất cả các kỹ năng đã học để phân tích một bộ dữ liệu thực tế, lựa chọn cấu trúc hiệp phương sai tối ưu và diễn giải kết quả.
Bài tổng hợp: Hệ thống hóa kiến thức
Tổng kết, so sánh toàn diện giữa mô hình biên và mô hình đa cấp, đồng thời cung cấp một bộ khung để quyết định khi nào nên sử dụng phương pháp nào.

Kiến thức tiên quyết

Để tiếp thu tốt nhất các nội dung trong chuỗi bài học này, việc nắm vững các kiến thức từ chuỗi bài trước về mô hình đa cấp là một lợi thế lớn, vì chúng ta sẽ liên tục so sánh hai cách tiếp cận này.

Kiến thức cần có:

Mô hình các thành phần phương sai: Hiểu rõ về mô hình chặn ngẫu nhiên, phương sai trong và giữa các cụm. Đây là kiến thức nền tảng để so sánh.
Hồi quy tuyến tính và Ma trận: Có kiến thức cơ bản về hồi quy đa biến và hiểu biết sơ bộ về các khái niệm ma trận như ma trận hiệp phương sai.
Sử dụng Stata: Thành thạo các lệnh cơ bản và lệnh mixed đã được giới thiệu trong chuỗi bài học trước.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, bạn sẽ có một cái nhìn toàn diện về hai trường phái chính trong phân tích dữ liệu dọc, giúp bạn lựa chọn phương pháp phù hợp nhất với câu hỏi nghiên cứu của mình.

Phân biệt rõ ràng: Có khả năng giải thích sự khác biệt cơ bản giữa mô hình biên (population-averaged) và mô hình đa cấp (subject-specific).
Nhận diện các cấu trúc hiệp phương sai: Hiểu và mô tả được các đặc điểm của các cấu trúc hiệp phương sai phổ biến (ví dụ: unstructured, exchangeable, AR(1)).
Thực hành trên Stata: Sử dụng thành thạo lệnh mixed với tùy chọn residuals() để chỉ định các cấu trúc hiệp phương sai khác nhau.
Lựa chọn mô hình: Sử dụng các tiêu chí thông tin như AIC và BIC để so sánh các mô hình không lồng nhau và lựa chọn mô hình có sự cân bằng tốt nhất giữa độ phù hợp và độ phức tạp.
Áp dụng GEE và PCSE: Hiểu và áp dụng được các phương pháp thay thế như xtgee và xtpcse cho các bối cảnh nghiên cứu cụ thể.

Tài liệu tham khảo

Nội dung của chuỗi bài học này được biên soạn và phát triển chủ yếu dựa trên chương 6 của cuốn sách giáo khoa, nơi cung cấp một cái nhìn sâu sắc và chi tiết về các mô hình biên.

Skrondal, A., & Rabe-Hesketh, S. (2022). Multilevel and Longitudinal Modeling Using Stata, Volume I: Continuous Responses, Fourth Edition. Stata Press. (Đây là tài liệu tham khảo chính cho toàn bộ chuỗi bài học).

Phụ lục: Dữ liệu thực hành cho chuỗi bài học

Trong chuỗi bài học này, chúng ta sẽ làm việc với bộ dữ liệu wagepan.dta, một bộ dữ liệu bảng về tiền lương kinh điển, để minh họa cho các mô hình biên.

Mô tả bộ dữ liệu: Đây là dữ liệu bảng theo dõi tiền lương và các đặc điểm khác của một nhóm nam giới trẻ tuổi qua nhiều năm, giúp chúng ta nghiên cứu các yếu tố ảnh hưởng đến thu nhập theo thời gian.

Các biến chính sẽ được sử dụng:

lwage: Logarit của tiền lương theo giờ.
black, hisp: Biến giả cho chủng tộc.
union: Biến giả cho thành viên công đoàn.
married: Biến giả cho tình trạng hôn nhân.
exper: Kinh nghiệm làm việc.
yeart: Năm làm việc (đã được chuẩn hóa).
educt: Số năm đi học (đã được chuẩn hóa).
nr: Mã định danh của cá nhân (biến cụm).

Để bắt đầu, các bạn có thể tải và chuẩn bị bộ dữ liệu này trong Stata bằng các lệnh sau. Hãy đảm bảo máy tính của bạn có kết nối internet.

Stata

* ==================================================
* MỤC ĐÍCH: Tải và chuẩn bị bộ dữ liệu thực hành WAGEPAN
* NGUỒN DỮ LIỆU: Stata Press
* ==================================================

* Lệnh để tải và mở dữ liệu trực tiếp
use https://www.stata-press.com/data/mlmus4/wagepan, clear

* Tạo các biến đã được chuẩn hóa như trong sách giáo khoa
generate educt = educ - 12
generate yeart = year - 1980

* Khai báo cấu trúc dữ liệu bảng để Stata hiểu
* nr là biến định danh cá nhân, yeart là biến thời gian
xtset nr yeart

* ==================================================
* MỤC ĐÍCH: Tải và chuẩn bị bộ dữ liệu thực hành WAGEPAN
* NGUỒN DỮ LIỆU: Stata Press
* ==================================================

* Lệnh để tải và mở dữ liệu trực tiếp
use https://www.stata-press.com/data/mlmus4/wagepan, clear

* Tạo các biến đã được chuẩn hóa như trong sách giáo khoa
generate educt = educ - 12
generate yeart = year - 1980

* Khai báo cấu trúc dữ liệu bảng để Stata hiểu
* nr là biến định danh cá nhân, yeart là biến thời gian
xtset nr yeart

Bộ dữ liệu này sẽ là nền tảng để chúng ta khám phá và so sánh các cấu trúc hiệp phương sai khác nhau. Việc làm quen với nó ngay từ đầu sẽ giúp các bạn dễ dàng theo dõi các ví dụ thực hành sau này. Chúc các bạn có một hành trình học tập hiệu quả!

📚 Bài tiếp theo: Các Cấu trúc Hiệp phương sai Cơ bản trong Mô hình Biên

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.