Giới thiệu chuỗi bài học về phân tích sống sót thời gian liên tục

An Introduction to the Continuous-Time Survival Analysis series

Tổng quan về chuỗi bài học

Chào mừng các bạn sinh viên đến với một trong những lĩnh vực hấp dẫn và được ứng dụng rộng rãi nhất của kinh tế lượng và thống kê: Phân tích Sống sót (Survival Analysis), hay còn gọi là Phân tích Thời gian đến khi xảy ra Sự kiện (Time-to-Event Analysis). Thay vì mô hình hóa một biến kết quả tại một thời điểm duy nhất, phân tích sống sót tập trung vào câu hỏi “Bao lâu cho đến khi một sự kiện cụ thể xảy ra?”. Các sự kiện này có thể rất đa dạng: từ sự thất bại của một cuộc hôn nhân (ly hôn), sự tái phát của một căn bệnh, thời gian một người thất nghiệp tìm được việc làm, cho đến sự hỏng hóc của một thiết bị máy móc.

Điểm đặc biệt của dữ liệu sống sót là sự hiện diện của dữ liệu bị kiểm duyệt (censored data). Ví dụ, khi một nghiên cứu kết thúc, nhiều cuộc hôn nhân vẫn còn hạnh phúc, nhiều bệnh nhân vẫn chưa tái phát bệnh. Chúng ta chỉ biết rằng “thời gian sống sót” của họ dài hơn thời gian theo dõi, chứ không biết chính xác là bao lâu. Phân tích sống sót là một bộ công cụ được thiết kế đặc biệt để xử lý một cách chính xác loại thông tin không đầy đủ này, một nhiệm vụ mà các mô hình hồi quy tiêu chuẩn không thể thực hiện được.

Trong chuỗi bài học này, chúng ta sẽ đi từ những khái niệm nền tảng nhất như hàm nguy cơ (hazard function)hàm sống sót (survival function), đến việc ước lượng chúng một cách phi tham số bằng phương pháp Kaplan-Meier. Sau đó, chúng ta sẽ khám phá hai họ mô hình hồi quy chính: Mô hình Nguy cơ Tỷ lệ (Proportional Hazards – PH), với mô hình Cox kinh điển, và Mô hình Thời gian Thất bại Tăng tốc (Accelerated Failure-Time – AFT). Cuối cùng, chúng ta sẽ mở rộng các mô hình này sang bối cảnh đa cấp để phân tích dữ liệu sống sót có cấu trúc cụm, chẳng hạn như các sự kiện lặp lại trên cùng một cá nhân. Hãy cùng nhau bắt đầu hành trình khám phá cách mô hình hóa động lực của sự thay đổi theo thời gian!

Cấu trúc chuỗi bài học

Để giúp bạn làm chủ một lĩnh vực có nhiều khái niệm và mô hình mới, chuỗi bài học được cấu trúc theo một lộ trình logic, đi từ mô tả đến mô hình hóa, từ đơn giản đến phức tạp.

  1. Phân tích phi tham số: Ước lượng Kaplan-Meier
    Học các khái niệm cốt lõi (hàm nguy cơ, hàm sống sót), cách khai báo dữ liệu sống sót với stset và cách ước lượng, trực quan hóa hàm sống sót.
  2. Mô hình nguy cơ tỷ lệ (Proportional Hazards)
    Tìm hiểu về mô hình Cox bán tham số và mô hình mũ theo từng khúc, học cách diễn giải Tỷ lệ Nguy cơ (Hazard Ratios).
  3. Mô hình thời gian thất bại tăng tốc (AFT)
    Khám phá họ mô hình AFT tham số (ví dụ: log-normal) và học cách diễn giải Tỷ lệ Thời gian (Time Ratios).
  4. Xử lý các biến giải thích thay đổi theo thời gian
    Học cách đưa các biến giải thích có giá trị thay đổi trong quá trình theo dõi vào mô hình sống sót, một kỹ thuật nâng cao và rất thực tế.
  5. Mô hình sống sót đa cấp (Mô hình Frailty)
    Mở rộng các mô hình PH và AFT để xử lý dữ liệu sống sót có cấu trúc cụm (ví dụ: bệnh nhân trong các bệnh viện) bằng cách thêm các hiệu ứng ngẫu nhiên.
  6. Bài thực hành cuối kỳ – Phân tích dữ liệu sự kiện lặp lại
    Áp dụng tất cả các kỹ năng đã học vào một bài toán phức tạp về các sự kiện xảy ra nhiều lần trên cùng một đối tượng.
  7. Bài tổng hợp: Hệ thống hóa kiến thức
    Tổng kết, so sánh các họ mô hình khác nhau và cung cấp một bộ khung giúp bạn lựa chọn mô hình phù hợp cho các bài toán phân tích sống sót.

Kiến thức tiên quyết

Phân tích sống sót là một lĩnh vực khá độc lập, nhưng việc có nền tảng vững chắc về hồi quy và suy luận thống kê sẽ là một lợi thế lớn.

Kiến thức cần có:

  • Nguyên lý Thống kê: Hiểu rõ về các khái niệm xác suất, hàm mật độ, hàm phân phối tích lũy, và các nguyên tắc suy luận thống kê.
  • Mô hình Hồi quy Tuyến tính và Logistic: Có kiến thức về cách xây dựng và diễn giải các mô hình hồi quy.
  • Sử dụng Stata Cơ bản: Có khả năng quản lý dữ liệu, tạo biến và chạy các lệnh thống kê cơ bản.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, bạn sẽ có khả năng phân tích một trong những loại dữ liệu phổ biến và quan trọng nhất trong nghiên cứu ứng dụng.

  • Hiểu và xử lý Dữ liệu Sống sót: Có khả năng nhận diện các đặc điểm của dữ liệu sống sót như kiểm duyệt và sử dụng lệnh stset để khai báo dữ liệu một cách chính xác.
  • Thực hiện Phân tích Phi tham số: Tạo và diễn giải được các đồ thị Kaplan-Meier để mô tả dữ liệu sống sót.
  • Xây dựng và Diễn giải các Mô hình Hồi quy: Phân biệt, ước lượng và diễn giải được kết quả từ hai họ mô hình chính: Mô hình Nguy cơ Tỷ lệ (PH) và Mô hình Thời gian Thất bại Tăng tốc (AFT).
  • Thành thạo bộ lệnh st của Stata: Sử dụng thành thạo các lệnh như stset, stcox, streg, stcurve, và stsplit.
  • Mô hình hóa Dữ liệu Phức tạp: Có khả năng xử lý các biến giải thích thay đổi theo thời gian và phân tích dữ liệu sống sót có cấu trúc đa cấp (sự kiện lặp lại).

Tài liệu tham khảo

Nội dung của chuỗi bài học này được biên soạn và phát triển chủ yếu dựa trên chương 15 của cuốn sách giáo khoa, một tài liệu tham khảo toàn diện về phân tích sống sót đa cấp.

  • Skrondal, A., & Rabe-Hesketh, S. (2022). Multilevel and Longitudinal Modeling Using Stata, Volume II: Categorical Responses, Counts, and Survival, Fourth Edition. Stata Press. (Lưu ý: Chủ đề này thuộc Tập II của bộ sách).

Phụ lục: Dữ liệu thực hành cho chuỗi bài học

Chúng ta sẽ sử dụng hai bộ dữ liệu thực tế rất thú vị trong chuỗi bài học này.

1. Dữ liệu Ly hôn (divorce.dta):

Mô tả: Dữ liệu từ Khảo sát Động lực Thu nhập của Panel (PSID), theo dõi thời gian từ lúc kết hôn đến khi ly hôn hoặc bị kiểm duyệt cho 3,371 cặp đôi. Đây là một ví dụ kinh điển về dữ liệu sống sót trong khoa học xã hội.

Stata
* Tải dữ liệu ly hôn
use https://www.stata-press.com/data/mlmus4/divorce, clear

2. Dữ liệu Đau thắt ngực (angina8.dta):

Mô tả: Dữ liệu từ một thử nghiệm lâm sàng chéo, theo dõi thời gian đến khi xuất hiện cơn đau thắt ngực hoặc kiệt sức của các bệnh nhân tim mạch trong các bài kiểm tra gắng sức. Đây là một ví dụ về dữ liệu sự kiện lặp lại.

Stata
* Tải dữ liệu đau thắt ngực
use https://www.stata-press.com/data/mlmus4/angina8, clear

Những bộ dữ liệu này sẽ cung cấp bối cảnh thực tế để chúng ta áp dụng và hiểu sâu hơn về các mô hình phân tích sống sót. Chúc các bạn có một hành trình học tập hiệu quả!

📚 Bài tiếp theo: Phân tích Phi tham số: Ước lượng Kaplan-Meier

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.

Back to top button