Giới thiệu phân tích sống còn cho dữ liệu thời gian
Introduction to Survival Analysis for Duration Data
Tổng quan về phân tích sống còn
Trong kinh tế lượng và nhiều lĩnh vực khác, chúng ta thường quan tâm đến việc các sự kiện xảy ra theo thời gian. Tại sao một số người thất nghiệp tìm được việc làm nhanh chóng trong khi những người khác lại mất nhiều thời gian hơn? Điều gì quyết định khoảng thời gian một công ty mới thành lập có thể tồn tại trên thị trường? Phân tích sống còn, hay còn gọi là phân tích dữ liệu thời gian kéo dài (duration data analysis), là bộ công cụ mạnh mẽ được thiết kế để trả lời những câu hỏi như vậy. Đây là một nhánh của thống kê tập trung vào việc phân tích khoảng thời gian cho đến khi một sự kiện cụ thể xảy ra. Sự kiện này có thể là “thất bại” (hỏng hóc một thiết bị) hoặc “thành công” (tìm được việc làm).
Một đặc điểm độc đáo và cũng là thách thức lớn nhất của loại dữ liệu này là sự xuất hiện của dữ liệu bị kiểm duyệt (censored data). Hãy tưởng tượng chúng ta theo dõi một nhóm người thất nghiệp trong một năm. Khi nghiên cứu kết thúc, một số người vẫn chưa tìm được việc. Chúng ta biết họ đã thất nghiệp ít nhất một năm, nhưng không biết chính xác khi nào họ sẽ có việc làm. Đây chính là dữ liệu bị kiểm duyệt. Các phương pháp hồi quy truyền thống như OLS không thể xử lý hiệu quả vấn đề này và sẽ cho ra kết quả chệch. Do đó, các kỹ thuật chuyên biệt như phân tích sống còn là cực kỳ cần thiết.
Trọng tâm của phân tích sống còn là mô hình hóa hàm rủi ro (hazard function), tức là xác suất một sự kiện xảy ra tại một thời điểm nhất định, với điều kiện là nó chưa xảy ra trước đó. Bằng cách hiểu được các yếu tố ảnh hưởng đến hàm rủi ro – ví dụ như trình độ học vấn, kinh nghiệm làm việc ảnh hưởng đến khả năng tìm được việc – chúng ta có thể rút ra những kết luận sâu sắc và hữu ích cho chính sách và kinh doanh. Chuỗi bài học này sẽ trang bị cho các bạn kiến thức từ cơ bản đến nâng cao để tự tin làm chủ lĩnh vực hấp dẫn này.
CẤU TRÚC CHUỖI BÀI HỌC
- Nền tảng của phân tích sống cònTìm hiểu các khái niệm cốt lõi như hàm sống sót, hàm rủi ro và cách ước lượng chúng bằng phương pháp Kaplan-Meier.
- Mô hình Cox Proportional HazardsLàm chủ mô hình phổ biến nhất để phân tích tác động của các biến số lên rủi ro và học cách kiểm định giả định của nó.
- Các mô hình hồi quy tham sốKhám phá các lựa chọn thay thế như Weibull, Gompertz, cho phép mô hình hóa trực tiếp hình dạng của hàm rủi ro.
- Các chủ đề nâng caoGiải quyết các vấn đề phức tạp trong thực tế như rủi ro cạnh tranh và tính đa dạng không quan sát được (frailty).
- Bài thực hành phân tích tổng hợpÁp dụng toàn bộ kiến thức đã học để thực hiện một dự án phân tích dữ liệu thời gian kéo dài hoàn chỉnh trên Stata.
- Bài tổng hợp và hệ thống kiến thứcHệ thống hóa lại toàn bộ kiến thức, so sánh các mô hình và xác định các hướng nghiên cứu phát triển trong tương lai.
MỤC TIÊU HỌC TẬP
- Nắm vững lý thuyết về dữ liệu thời gian kéo dài, dữ liệu bị kiểm duyệt, hàm sống sót và hàm rủi ro.
- Vận dụng thành thạo Stata để ước lượng, diễn giải và so sánh các mô hình sống còn khác nhau (Cox PH, Weibull, Gompertz).
- Phân tích và diễn giải kết quả nghiên cứu thực tế, bao gồm cả việc kiểm định các giả định của mô hình và xử lý các vấn đề nâng cao.
TÀI LIỆU THAM KHẢO
- Cameron, A. C., & Trivedi, P. K. (2022). Microeconometrics Using Stata, Volume 2: Nonlinear Models and Causal Inference Methods. Stata Press.
- Cleves, M. A., Gould, W. W., & Marchenko, Y. V. (2016). An Introduction to Survival Analysis Using Stata. Stata Press.
- Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning.
PHỤ LỤC: Dữ liệu thực hành cho chuỗi bài học
Trong suốt chuỗi bài này, chúng ta sẽ sử dụng bộ dữ liệu mus221mccall, phân tích về thời gian thất nghiệp. Bộ dữ liệu này có sẵn trong Stata, giúp chúng ta dễ dàng thực hành mà không cần tìm kiếm dữ liệu bên ngoài.
Dưới đây là câu lệnh Stata để tải, mô tả và xem các thống kê cơ bản của các biến chính chúng ta sẽ sử dụng. Các bạn hãy chạy thử các lệnh này để làm quen với dữ liệu nhé.
* ==================================================
* MỤC ĐÍCH: Tải và khám phá dữ liệu thực hành
* NGUỒN DỮ LIỆU: mus221mccall (có sẵn trong Stata)
* ==================================================
* Bước 1: Tải dữ liệu từ hệ thống của Stata
* Lệnh 'webuse' cho phép tải trực tiếp bộ dữ liệu mẫu.
* 'clear' để xóa bộ nhớ trước khi tải dữ liệu mới.
webuse mus221mccall, clear
* Bước 2: Xem mô tả các biến chính
* Lệnh 'describe' cho chúng ta biết tên biến, kiểu dữ liệu và nhãn mô tả.
describe spell censor1 ui logwage
* Bước 3: Xem thống kê mô tả
* Lệnh 'summarize' cung cấp các thông số quan trọng như giá trị trung bình,
* độ lệch chuẩn, giá trị nhỏ nhất và lớn nhất.
summarize spell censor1 ui logwage
Mô tả các biến chính:
spell: Biến phụ thuộc, đo lường thời gian thất nghiệp (tính bằng khoảng thời gian hai tuần).censor1: Biến kiểm duyệt. Nhận giá trị 1 nếu người đó tìm được việc làm toàn thời gian (sự kiện xảy ra, không bị kiểm duyệt), và 0 nếu ngược lại (bị kiểm duyệt).ui: Biến giả, nhận giá trị 1 nếu cá nhân đó có nộp đơn xin trợ cấp thất nghiệp, và 0 nếu không.logwage: Logarit của mức lương hàng tuần trước khi bị thất nghiệp.
📚 Bài tiếp theo: Các khái niệm nền tảng của phân tích sống còn
💡 Lưu ý: Hãy đảm bảo bạn đã chạy thử các lệnh Stata trên và hiểu ý nghĩa của các biến chính trước khi bắt đầu bài học đầu tiên.