Giới thiệu các mô hình hồi quy cho biến phản hồi thứ tự

Introduction to Regression models for Ordinal Responses

Tóm tắt loạt bài viết

Chào mừng các bạn đến với một chủ đề nâng cao và cực kỳ hữu ích trong phân tích dữ liệu thực tế: các mô hình cho biến phản hồi thứ tự (ordinal responses). Trong nghiên cứu, chúng ta thường xuyên gặp phải các biến kết quả không phải là số liên tục, cũng không phải là biến nhị phân đơn thuần, mà là các phạm trù có sự sắp xếp thứ bậc rõ ràng. Hãy nghĩ về các thang đo Likert trong khảo sát xã hội (ví dụ: “hoàn toàn không đồng ý”, “không đồng ý”, “đồng ý”, “hoàn toàn đồng ý”), các mức độ đánh giá trong y học (ví dụ: “không có triệu chứng”, “nhẹ”, “vừa”, “nặng”), hay các bậc xếp hạng tín dụng. Những biến này chứa nhiều thông tin hơn các biến định danh (nominal) nhưng lại không thể được đối xử như các biến liên tục thông thường.

Việc sử dụng hồi quy OLS cho loại dữ liệu này là một sai lầm phổ biến, vì nó giả định một cách sai lầm rằng khoảng cách giữa các phạm trù là bằng nhau. Chuỗi bài viết này sẽ trang bị cho bạn bộ công cụ chuyên dụng để phân tích biến thứ tự một cách chính xác và hiệu quả. Chúng ta sẽ bắt đầu với các mô hình nền tảng là Hồi quy Logit Thứ tự (Ordinal Logit) và Probit Thứ tự (Ordinal Probit). Bạn sẽ được tìm hiểu sâu về logic đằng sau các mô hình này thông qua hai lăng kính: mô hình xác suất tích lũy và mô hình biến ẩn. Đặc biệt, chúng ta sẽ mổ xẻ giả định quan trọng nhất của các mô hình này – giả định “Tỷ lệ Odds Tỷ lệ” (Proportional Odds). Cuối cùng, chúng ta sẽ mở rộng các mô hình này sang bối cảnh đa cấp, cho phép phân tích dữ liệu thứ tự có cấu trúc lồng nhau, chẳng hạn như các đánh giá lặp lại của cùng một bệnh nhân theo thời gian. Hãy cùng nhau khám phá cách khai thác tối đa thông tin từ dữ liệu thứ tự của bạn!

Cấu trúc chuỗi bài học

Để giúp bạn làm chủ một chủ đề có nhiều khái niệm mới, chuỗi bài viết này được thiết kế theo một lộ trình học tập có cấu trúc, đi từ các mô hình cơ bản nhất đến các phần mở rộng phức tạp hơn.

Mô hình hồi quy thứ tự đơn cấp – proportional odds model
Bạn sẽ học cách xây dựng, ước lượng và diễn giải mô hình logit thứ tự, tập trung vào ý nghĩa của tỷ lệ odds và các ngưỡng.
Mở rộng sang bối cảnh đa cấp – mô hình chặn ngẫu nhiên thứ tự
Thêm hiệu ứng ngẫu nhiên vào mô hình để xử lý dữ liệu thứ tự lồng nhau bằng lệnh meologit trong Stata.
Mô hình hệ số ngẫu nhiên thứ tự và kiểm định giả thuyết
Cho phép tác động của các biến thay đổi ngẫu nhiên và học cách kiểm định sự cần thiết của các thành phần phức tạp này.
Bài tổng hợp: Lựa chọn mô hình và các phương pháp nâng cao
Hệ thống hóa kiến thức, thảo luận về cách kiểm tra các giả định quan trọng và giới thiệu các mô hình thay thế.

Kiến thức tiên quyết

Chuỗi bài viết này được xây dựng dựa trên giả định rằng bạn đã có nền tảng vững chắc về các mô hình hồi quy cho biến phụ thuộc dạng phạm trù. Đây là điều kiện cần thiết để bạn có thể hiểu được các phần mở rộng cho biến thứ tự.

Để bắt đầu, bạn cần:

Nắm vững Mô hình Logit/Probit Nhị phân: Hiểu sâu sắc về cách xây dựng và diễn giải các mô hình cho biến phụ thuộc nhị phân, đặc biệt là ý nghĩa của Tỷ lệ Odds (Odds Ratios).
Quen thuộc với Mô hình Đa cấp: Có kiến thức cơ bản về mô hình chặn ngẫu nhiên cho biến liên tục, bao gồm khái niệm hiệu ứng ngẫu nhiên và tương quan nội cụm.
Thành thạo Stata cơ bản: Có khả năng sử dụng các lệnh quản lý dữ liệu và các lệnh hồi quy cơ bản.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài viết này, bạn sẽ có khả năng phân tích một cách chuyên nghiệp một trong những loại biến kết quả phổ biến nhất trong nghiên cứu ứng dụng.

Nhận diện và hiểu rõ các đặc điểm của biến phản hồi thứ tự.
Giải thích được hai cách tiếp cận tương đương để xây dựng mô hình thứ tự: mô hình xác suất tích lũy và mô hình biến ẩn.
Ước lượng và diễn giải thành thạo mô hình logit thứ tự (proportional odds model) bằng lệnh ologit.
Hiểu rõ và kiểm tra được giả định Tỷ lệ Odds Tỷ lệ (Proportional Odds).
Mở rộng các mô hình thứ tự sang bối cảnh đa cấp bằng lệnh meologit để xử lý dữ liệu lồng nhau.
Xây dựng và kiểm định các mô hình hệ số ngẫu nhiên cho biến phản hồi thứ tự.

Tài liệu tham khảo

Kiến thức trong chuỗi bài viết này được chắt lọc và phát triển từ các nguồn tài liệu kinh tế lượng và thống kê hàng đầu về mô hình cho biến phạm trù.

Skrondal, A., & Rabe-Hesketh, S. (2022). Multilevel and Longitudinal Modeling Using Stata, Fourth Edition. Stata Press. Đây là tài liệu chính, cung cấp nền tảng lý thuyết và hướng dẫn thực hành Stata chi tiết cho toàn bộ chuỗi bài viết, đặc biệt là Chương 11.
Long, J. S., & Freese, J. (2014). Regression models for categorical dependent variables using Stata. Stata Press. Một nguồn tài liệu tham khảo tuyệt vời về các mô hình cho biến phạm trù trong Stata.
Hedeker, D., & Gibbons, R. D. (2006). Longitudinal data analysis. John Wiley & Sons. Cung cấp các phân tích sâu sắc về các mô hình đa cấp cho dữ liệu dọc, bao gồm cả biến thứ tự.

Phụ lục: Dữ liệu thực hành cho chuỗi bài viết

Trong chuỗi bài này, chúng ta sẽ chủ yếu làm việc với bộ dữ liệu schiz.dta. Đây là dữ liệu từ một nghiên cứu hợp tác của NIMH về bệnh tâm thần phân liệt, theo dõi sự thay đổi về mức độ nghiêm trọng của bệnh theo thời gian.

Stata

* ==================================================
* MỤC ĐÍCH: Tải bộ dữ liệu về bệnh tâm thần phân liệt
* NGUỒN DỮ LIỆU: Stata Press
* ==================================================
use https://www.stata-press.com/data/mlmus4/schiz, clear

* ==================================================
* MỤC ĐÍCH: Tải bộ dữ liệu về bệnh tâm thần phân liệt
* NGUỒN DỮ LIỆU: Stata Press
* ==================================================
use https://www.stata-press.com/data/mlmus4/schiz, clear

Bộ dữ liệu này có cấu trúc bảng, với các quan sát lặp lại (hàng tuần) lồng trong các bệnh nhân. Dưới đây là mô tả các biến chính:

id: Mã định danh của bệnh nhân (biến chỉ báo cụm).
week: Tuần đánh giá kể từ khi ngẫu nhiên hóa (biến thời gian).
imps: Mức độ nghiêm trọng của bệnh, đo bằng thang đo IMPS (một biến liên tục).
treatment: Biến giả cho nhóm điều trị (1: dùng thuốc, 0: dùng giả dược).

Trong quá trình phân tích, chúng ta sẽ biến đổi biến imps thành một biến thứ tự (impso) với 4 cấp độ để phù hợp với mục tiêu của bài học. Hãy sẵn sàng để khám phá cách mô hình hóa các biến có thứ tự một cách chính xác trong bài học đầu tiên!

📚 Bài tiếp theo: Mô hình Hồi quy Thứ tự Đơn cấp - Proportional Odds Model

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.