Hồi quy tổng hợp: Giải thích sự khác biệt giữa các nghiên cứu

Meta-Regression: Explaining Heterogeneity Between Studies

Vượt lên trên câu hỏi “có hiệu quả hay không?”

Chào mừng các bạn quay trở lại với hành trình khám phá các kỹ thuật phân tích tổng hợp! Trong các chương trước, chúng ta đã tập trung vào một câu hỏi trung tâm: “Làm thế nào để kết hợp kết quả từ nhiều nghiên cứu để có được một ước tính tổng hợp về hiệu quả của một can thiệp?”. Chúng ta đã học cách tính toán các ước tính chung và đánh giá xem chúng có ý nghĩa thống kê hay không. Tuy nhiên, có một câu hỏi gai góc hơn, sâu sắc hơn mà một nhà nghiên cứu giỏi luôn phải đối mặt: “Tại sao kết quả lại khác nhau giữa các nghiên cứu?”. Đây chính là lúc hồi quy tổng hợp (meta-regression) bước vào sân khấu.

Hãy tưởng tượng bạn thực hiện một phân tích tổng hợp và phát hiện ra rằng tính không đồng nhất (heterogeneity) giữa các nghiên cứu là rất lớn (ví dụ, chỉ số I² cao). Điều này có nghĩa là các nghiên cứu không chỉ khác nhau do sai số ngẫu nhiên, mà còn có sự khác biệt thực sự trong hiệu quả can thiệp. Một phân tích tổng hợp tiêu chuẩn chỉ dừng lại ở việc xác định sự tồn tại của tính không đồng nhất này. Nhưng hồi quy tổng hợp cho phép chúng ta đi xa hơn một bước: nó cố gắng giải thích sự không đồng nhất đó. Nó đặt ra những câu hỏi như: “Liệu hiệu quả của vắc-xin có phụ thuộc vào vĩ độ địa lý nơi thử nghiệm được tiến hành không?”, “Liệu tác động của một loại thuốc có mạnh hơn ở những nghiên cứu có tỷ lệ bệnh nhân lớn tuổi cao hơn không?”.

Về bản chất, hồi quy tổng hợp chính là một mô hình hồi quy có trọng số (weighted regression) quen thuộc, trong đó biến phụ thuộc là kích thước hiệu ứng (effect size) của các nghiên cứu, và các biến độc lập là những đặc điểm của các nghiên cứu đó (còn gọi là các biến điều tiết – moderators). Chuỗi bài học này sẽ trang bị cho bạn cả nền tảng lý thuyết và kỹ năng thực hành để có thể tự tin áp dụng kỹ thuật mạnh mẽ này, biến những con số “không đồng nhất” khó hiểu thành những hiểu biết sâu sắc và có ý nghĩa.

Cấu trúc chuỗi bài học

Để chinh phục chủ đề nâng cao này, chúng ta sẽ chia nhỏ nó thành các phần có thể quản lý được. Mỗi bài sẽ tập trung vào một khía cạnh hoặc một bộ dữ liệu cụ thể, xây dựng kiến thức một cách tuần tự.

Hồi quy tổng hợp với dữ liệu vắc-xin BCG
Thực hành từng bước với bộ dữ liệu đầu tiên, từ phân tích tổng hợp cơ bản đến xây dựng mô hình hồi quy để giải thích tính không đồng nhất.
Thực hành với dữ liệu bệnh tim và ADHD
Áp dụng kỹ năng đã học vào hai bộ dữ liệu phức tạp hơn, so sánh các phương pháp ước lượng và diễn giải kết quả trong các bối cảnh khác nhau.
Bài tổng hợp: Diễn giải, báo cáo và những cạm bẫy
Tổng kết toàn bộ kiến thức, cung cấp hướng dẫn về cách diễn giải và báo cáo kết quả hồi quy tổng hợp một cách chuyên nghiệp và những lưu ý quan trọng.

Kiến thức tiên quyết

Hồi quy tổng hợp là một chủ đề nâng cao, do đó, việc nắm vững các kiến thức nền tảng là rất quan trọng để bạn có thể tiếp thu hiệu quả.

Bạn cần chuẩn bị gì?

Phân tích tổng hợp cơ bản: Cần hiểu rất rõ về mô hình hiệu ứng cố định và mô hình hiệu ứng ngẫu nhiên), các thước đo hiệu ứng (RR, OR, RD), và cách diễn giải các chỉ số không đồng nhất (Q, I²).
Hồi quy đa biến: Có kiến thức vững chắc về mô hình hồi quy tuyến tính đa biến, bao gồm cách diễn giải hệ số, kiểm định giả thuyết cho hệ số, và hiểu về sai số chuẩn.
Sử dụng Stata: Có kỹ năng sử dụng Stata ở mức trung cấp, bao gồm quản lý dữ liệu, chạy các lệnh hồi quy (regress) và phân tích tổng hợp (metan).

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, bạn sẽ có khả năng thực hiện và diễn giải một phân tích hồi quy tổng hợp một cách thành thạo. Cụ thể, bạn sẽ có thể:

Phân biệt các mô hình: Giải thích rõ ràng sự khác biệt giữa phân tích tổng hợp hiệu ứng ngẫu nhiên và hồi quy tổng hợp hiệu ứng ngẫu nhiên.
Xây dựng mô hình: Biết cách xác định các biến điều tiết (moderators) tiềm năng từ dữ liệu và xây dựng cú pháp mô hình trong Stata.
Thực hiện phân tích: Sử dụng thành thạo lệnh metareg của Stata để thực hiện hồi quy tổng hợp.
Diễn giải kết quả: Đọc và giải thích được tất cả các thành phần chính trong kết quả đầu ra của metareg, bao gồm hệ số hồi quy, phương sai không đồng nhất còn lại (residual heterogeneity), và chỉ số R².
Trực quan hóa kết quả: Tạo và diễn giải được biểu đồ bong bóng (bubble plot) để minh họa mối quan hệ giữa kích thước hiệu ứng và biến điều tiết.

Tài liệu tham khảo

Kiến thức trong chuỗi bài viết này được xây dựng dựa trên các tài liệu kinh điển và uy tín trong lĩnh vực hồi quy tổng hợp. Các bạn nên tìm đọc thêm để có cái nhìn sâu sắc hơn.

Chen, D. G., & Peace, K. E. (2021). Applied Meta-Analysis with R and Stata, Second Edition. Đây là tài liệu gốc cho toàn bộ chuỗi bài, cung cấp nền tảng lý thuyết và thực hành vững chắc.
Thompson, S. G., & Higgins, J. P. (2002). How should meta-regression analyses be undertaken and interpreted? Statistics in medicine, 21(11), 1559-1573. Một bài báo kinh điển cung cấp các hướng dẫn chi tiết về cách thực hiện và diễn giải hồi quy tổng hợp.
Colditz, G. A., Brewer, T. F., Berkey, C. S., et al. (1994). Efficacy of BCG vaccine in the prevention of tuberculosis: meta-analysis of the published literature. Jama, 271(9), 698-702. Nguồn của bộ dữ liệu vắc-xin BCG.

Phụ lục: Dữ liệu thực hành cho chuỗi bài học

Chúng ta sẽ sử dụng ba bộ dữ liệu trong chuỗi bài này. Dưới đây là mã Stata để tạo lại bộ dữ liệu đầu tiên và quan trọng nhất: Dữ liệu Vắc-xin BCG. Các bộ dữ liệu khác sẽ được giới thiệu trong các bài học sau.

Dữ liệu Vắc-xin BCG

Mô tả: Dữ liệu từ 13 thử nghiệm lâm sàng đánh giá hiệu quả của vắc-xin Bacillus Calmette-Guerin (BCG) trong việc ngăn ngừa bệnh lao (TB). Các biến điều tiết tiềm năng bao gồm năm công bố, vĩ độ tuyệt đối của địa điểm nghiên cứu, và phương pháp phân bổ nhóm.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu Vắc-xin BCG
* NGUỒN: Colditz et al. (1994)
* BIẾN SỐ:
* tpos/tneg: số ca dương tính/âm tính với lao ở nhóm tiêm vắc-xin
* cpos/cneg: số ca dương tính/âm tính với lao ở nhóm đối chứng
* ablat: Vĩ độ tuyệt đối của địa điểm nghiên cứu
* alloc: Phương pháp phân bổ (Random, Alternate, Systematic)
* ==================================================

clear
input str20 author int year int tpos int tneg int cpos int cneg int ablat str12 alloc
"Aronson"           1948   4  119  11  128 44 "Random"
"Ferguson & Simes"  1949   6  300  29  274 55 "Random"
"Rosenthal et al."  1960   3  228  11  209 42 "Random"
"Hart & Sutherland" 1977  62 13536 248 12619 52 "Random"
"Frimodt-Moller et al." 1973  33  5036  47  5761 13 "Alternate"
"Stein & Aronson"   1953 180  1361 372  1079 44 "Alternate"
"Vandiviere et al." 1973   8  2537  10   619 19 "Random"
"TPT Madras"        1980 505 87886 499 87892 13 "Random"
"Coetzee & Berjak"  1968  29  7470  45  7232 27 "Random"
"Rosenthal et al."  1961  17  1699  65  1600 42 "Systematic"
"Comstock et al."   1974 186 50448 141 27197 18 "Systematic"
"Comstock & Webster" 1969   5  2493   3  2338 33 "Systematic"
"Comstock et al."   1976  27 16886  29 17825 33 "Systematic"
end

* Lưu dữ liệu để sử dụng cho các bài sau
save "bcg_data.dta", replace

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu Vắc-xin BCG
* NGUỒN: Colditz et al. (1994)
* BIẾN SỐ:
* tpos/tneg: số ca dương tính/âm tính với lao ở nhóm tiêm vắc-xin
* cpos/cneg: số ca dương tính/âm tính với lao ở nhóm đối chứng
* ablat: Vĩ độ tuyệt đối của địa điểm nghiên cứu
* alloc: Phương pháp phân bổ (Random, Alternate, Systematic)
* ==================================================

clear
input str20 author int year int tpos int tneg int cpos int cneg int ablat str12 alloc
"Aronson"           1948   4  119  11  128 44 "Random"
"Ferguson & Simes"  1949   6  300  29  274 55 "Random"
"Rosenthal et al."  1960   3  228  11  209 42 "Random"
"Hart & Sutherland" 1977  62 13536 248 12619 52 "Random"
"Frimodt-Moller et al." 1973  33  5036  47  5761 13 "Alternate"
"Stein & Aronson"   1953 180  1361 372  1079 44 "Alternate"
"Vandiviere et al." 1973   8  2537  10   619 19 "Random"
"TPT Madras"        1980 505 87886 499 87892 13 "Random"
"Coetzee & Berjak"  1968  29  7470  45  7232 27 "Random"
"Rosenthal et al."  1961  17  1699  65  1600 42 "Systematic"
"Comstock et al."   1974 186 50448 141 27197 18 "Systematic"
"Comstock & Webster" 1969   5  2493   3  2338 33 "Systematic"
"Comstock et al."   1976  27 16886  29 17825 33 "Systematic"
end

* Lưu dữ liệu để sử dụng cho các bài sau
save "bcg_data.dta", replace

📚 Bài tiếp theo: Hồi quy tổng hợp với Dữ liệu Vắc-xin BCG

💡 Lưu ý: Hãy đảm bảo bạn đã chạy và lưu thành công bộ dữ liệu BCG. Nó sẽ là trung tâm của bài học tiếp theo, nơi chúng ta sẽ thực hiện mô hình hồi quy tổng hợp đầu tiên của mình.