Giới thiệu các mô hình cho dữ liệu sống còn hoặc dữ liệu thời lượng
Introduction to Models for Survival or Duration data
Tóm tắt loạt bài viết
Chào mừng các bạn đến với một lĩnh vực hoàn toàn mới và vô cùng mạnh mẽ trong kinh tế lượng: Phân tích Sống còn (Survival Analysis), hay còn được biết đến với các tên gọi khác như phân tích thời gian sự kiện (time-to-event) hoặc phân tích thời lượng (duration analysis). Lĩnh vực này tập trung vào việc trả lời một loại câu hỏi rất đặc biệt: “Bao lâu cho đến khi một sự kiện cụ thể xảy ra?”. Các câu hỏi này xuất hiện ở khắp mọi nơi: trong y học (“Bao lâu một bệnh nhân sống sót sau khi phẫu thuật?”), trong kinh tế học (“Một người thất nghiệp mất bao lâu để tìm được việc làm mới?”), trong kỹ thuật (“Bao lâu thì một bóng đèn sẽ cháy?”), hay trong giáo dục (“Bao lâu thì một sinh viên sẽ bỏ học?”).
Điểm đặc biệt và cũng là thách thức lớn nhất của dữ liệu sống còn là sự hiện diện của dữ liệu bị kiểm duyệt (censored data). Việc loại bỏ những quan sát này hoặc đối xử với chúng một cách không phù hợp sẽ dẫn đến các kết quả sai lệch nghiêm trọng. Chuỗi bài viết này sẽ trang bị cho bạn một bộ công cụ chuyên dụng để xử lý những thách thức này, tập trung vào phương pháp phân tích sống còn thời gian rời rạc (discrete-time survival analysis). Bạn sẽ học được một kỹ thuật biến đổi dữ liệu mang tính cách mạng, cho phép chúng ta biến một bài toán sống còn phức tạp thành một bài toán hồi quy cho biến nhị phân mà chúng ta đã quen thuộc. Chúng ta sẽ cùng nhau tìm hiểu các khái niệm cốt lõi như hàm nguy cơ, hàm sống còn, và cách mô hình hóa chúng bằng các hàm liên kết khác nhau (logit, cloglog) để rút ra những kết luận sâu sắc từ dữ liệu thời gian sự kiện.
Cấu trúc chuỗi bài học
Để giúp bạn tiếp cận một lĩnh vực có nhiều khái niệm và kỹ thuật mới, chuỗi bài viết này được cấu trúc theo một lộ trình logic, đi từ các khái niệm cơ bản đến các mô hình phức tạp và ứng dụng thực tế.
- Phân tích phi tham số và kỹ thuật mở rộng dữ liệuBạn sẽ học các khái niệm nền tảng, cách tạo bảng sự sống và thực hiện kỹ thuật biến đổi dữ liệu sang dạng người-thời kỳ.
- Mô hình hồi quy nguy cơ thời gian rời rạcSử dụng các mô hình hồi quy (logit, cloglog) để mô hình hóa hàm nguy cơ và diễn giải các hệ số dưới dạng Tỷ lệ Nguy cơ.
- Mô hình sống còn đa cấp (frailty models)Mở rộng các mô hình đã học sang bối cảnh đa cấp để xử lý dữ liệu sống còn có cấu trúc lồng nhau.
- Bài tổng hợp: Lựa chọn mô hình và các chủ đề nâng caoHệ thống hóa kiến thức, so sánh các phương pháp và giới thiệu các khái niệm nâng cao như rủi ro cạnh tranh.
Kiến thức tiên quyết
Phân tích sống còn thời gian rời rạc xây dựng dựa trên nền tảng của các mô hình hồi quy cho biến nhị phân. Việc nắm vững kiến thức này là điều kiện cần để bạn có thể tiếp thu tốt nhất.
Mục tiêu học tập
Sau khi hoàn thành chuỗi bài viết này, bạn sẽ có khả năng phân tích một cách chuyên nghiệp dữ liệu thời gian sự kiện, một trong những loại dữ liệu phổ biến và quan trọng nhất trong nghiên cứu định lượng.
- Hiểu và phân biệt được các khái niệm cốt lõi: thời gian sự kiện, kiểm duyệt (phải, trái, khoảng), và cắt cụt.
- Định nghĩa và diễn giải được hai hàm quan trọng nhất: hàm sống còn (survival function) và hàm nguy cơ (hazard function).
- Thực hiện thành thạo kỹ thuật mở rộng dữ liệu từ dạng cá nhân sang dạng người-thời kỳ.
- Ước lượng các mô hình nguy cơ thời gian rời rạc bằng các lệnh như
logitvàcloglog. - Diễn giải chính xác các hệ số dưới dạng Tỷ lệ Odds hoặc Tỷ lệ Nguy cơ (Hazard Ratios).
- Xây dựng và ước lượng các mô hình sống còn đa cấp (frailty models) để xử lý dữ liệu lồng nhau.
Tài liệu tham khảo
Kiến thức trong chuỗi bài viết này được chắt lọc và phát triển từ các nguồn tài liệu kinh tế lượng và thống kê hàng đầu về phân tích sống còn.
- Skrondal, A., & Rabe-Hesketh, S. (2022). Multilevel and Longitudinal Modeling Using Stata, Fourth Edition. Stata Press. Đây là tài liệu chính, cung cấp nền tảng lý thuyết và hướng dẫn thực hành Stata chi tiết cho toàn bộ chuỗi bài viết, đặc biệt là Chương 14.
- Allison, P. D. (2010). Survival analysis using SAS: A practical guide. SAS institute. Mặc dù dùng SAS, đây là một tài liệu tham khảo kinh điển và cực kỳ dễ hiểu về các khái niệm phân tích sống còn.
- Singer, J. D., & Willett, J. B. (2003). Applied longitudinal data analysis: Modeling change and event occurrence. Oxford university press. Một cuốn sách tuyệt vời về cả mô hình tăng trưởng và phân tích sống còn.
Phụ lục: Dữ liệu thực hành cho chuỗi bài viết
Trong chuỗi bài này, chúng ta sẽ làm việc với hai bộ dữ liệu kinh điển để minh họa cho các khái niệm.
1. Dữ liệu Thăng chức (Promotions Data)
Bộ dữ liệu này theo dõi thời gian (tính bằng năm) từ lúc được bổ nhiệm làm trợ lý giáo sư cho đến khi được thăng chức thành phó giáo sư của 301 nhà hóa sinh học. Sự kiện quan tâm là “được thăng chức”.
* Tải dữ liệu thăng chức
use https://www.stata-press.com/data/mlmus4/promotion, clear
2. Dữ liệu Tử vong ở Trẻ em Guatemala (Mortality Data)
Bộ dữ liệu này ghi lại lịch sử sinh đẻ của các bà mẹ ở Guatemala và theo dõi thời gian sống (tính bằng tháng) của con cái họ. Đây là một ví dụ kinh điển về dữ liệu sống còn đa cấp, với trẻ em (cấp 1) lồng trong các bà mẹ (cấp 2).
* Tải dữ liệu tử vong ở trẻ em
use https://www.stata-press.com/data/mlmus4/mortality, clear
Với các bộ dữ liệu và một lộ trình rõ ràng, chúng ta đã sẵn sàng để khám phá một thế giới mới của phân tích kinh tế lượng. Hãy bắt đầu với bài học đầu tiên!
📚 Bài tiếp theo: Phân tích Sống còn Phi tham số và Kỹ thuật Mở rộng Dữ liệu
💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.