Phân tích tổng hợp với dữ liệu nhị phân

Meta-Analysis with Binary data

Giới thiệu về phân tích dữ liệu nhị phân

Chào các bạn sinh viên, chào mừng các bạn đến với một chương mới đầy thú vị trong hành trình chinh phục phân tích tổng hợp (meta-analysis). Sau khi đã nắm vững các khái niệm nền tảng, hôm nay chúng ta sẽ đi sâu vào loại phân tích cụ thể và có lẽ là phổ biến nhất trong thực tế: phân tích tổng hợp với dữ liệu nhị phân. “Nhị phân” nghe có vẻ học thuật, nhưng thực chất nó vô cùng gần gũi. Đó là những dữ liệu chỉ có hai kết quả khả dĩ: thành công hoặc thất bại, có biến cố hoặc không có biến cố, bệnh nhân đáp ứng với điều trị hoặc không đáp ứng.

Trong y học, kinh tế, và khoa học xã hội, chúng ta thường xuyên gặp loại dữ liệu này. Ví dụ, một nghiên cứu có thể báo cáo số bệnh nhân bị biến cố tim mạch trong nhóm dùng thuốc liều cao so với nhóm dùng thuốc liều chuẩn. Một nghiên cứu khác có thể đếm số người tìm được việc làm sau khi tham gia một chương trình đào tạo so với nhóm không tham gia. Mục tiêu của chúng ta là làm thế nào để tổng hợp một cách khoa học kết quả từ nhiều nghiên cứu độc lập như vậy, mỗi nghiên cứu lại có một xác suất thành công (hoặc rủi ro) riêng, để đưa ra một kết luận tổng thể vững chắc.

Trong chuỗi bài học này, chúng ta sẽ không chỉ dừng lại ở lý thuyết. Chúng ta sẽ làm việc với hai bộ dữ liệu thực tế, hấp dẫn để từng bước mổ xẻ các nguyên tắc và quy trình phân tích. Chúng ta sẽ bắt đầu bằng việc tính toán thủ công từng bước để các bạn hiểu sâu sắc bản chất của các công thức, sau đó sẽ sử dụng các câu lệnh mạnh mẽ trong Stata để tự động hóa quy trình. Hãy sẵn sàng để biến những lý thuyết phức tạp thành những kỹ năng thực hành hữu ích nhé!

Cấu trúc chuỗi bài học

Để giúp các bạn tiếp cận chủ đề phức tạp này một cách dễ dàng nhất, chuỗi bài học sẽ được chia thành các phần nhỏ, mỗi phần tập trung vào một khía cạnh cụ thể của phân tích tổng hợp dữ liệu nhị phân. Lộ trình học tập của chúng ta sẽ như sau:

Phân tích tổng hợp với tỷ số rủi ro (RR)
Hiểu sâu về lý thuyết, công thức và cách thực hành phân tích tổng hợp bằng thước đo Tỷ số Rủi ro (RR) một cách chi tiết.
Phân tích tổng hợp với khác biệt rủi ro (RD)
Khám phá thước đo Khác biệt Rủi ro (RD), một cách tiếp cận khác để lượng hóa hiệu quả can thiệp, và so sánh với RR.
Phân tích tổng hợp với tỷ số chênh (OR) và các phương pháp nâng cao
Nắm vững thước đo Tỷ số Chênh (OR) và các phương pháp ước lượng quan trọng như Mantel-Haenszel và Peto.
Bài tổng hợp: Lựa chọn thước đo và diễn giải kết quả
Tổng kết, so sánh ưu nhược điểm của RR, RD, OR và đưa ra hướng dẫn thực tế về việc lựa chọn và diễn giải kết quả.

Kiến thức tiên quyết

Để có thể theo dõi và thực hành hiệu quả các nội dung trong chuỗi bài này, các bạn cần có một số kiến thức nền tảng. Việc này sẽ giúp bạn tập trung vào các kỹ thuật phân tích tổng hợp mới thay vì phải vật lộn với những khái niệm cơ bản.

Bạn cần chuẩn bị gì?

Thống kê suy luận: Cần hiểu rõ về ước lượng điểm, khoảng tin cậy, kiểm định giả thuyết, và giá trị p.
Phân phối xác suất: Có kiến thức cơ bản về phân phối nhị thức và phân phối chuẩn là rất quan trọng.
Kinh tế lượng cơ bản: Hiểu về các khái niệm như mô hình hiệu ứng cố định và mô hình hiệu ứng ngẫu nhiên sẽ là một lợi thế lớn.
Sử dụng Stata: Cần có kỹ năng sử dụng Stata ở mức cơ bản, bao gồm nhập dữ liệu, tạo biến mới và chạy các lệnh phân tích đơn giản.

Mục tiêu học tập

Kết thúc chuỗi bài học này, các bạn sẽ không chỉ hiểu về lý thuyết mà còn có thể tự tin thực hiện một dự án phân tích tổng hợp với dữ liệu nhị phân từ đầu đến cuối. Cụ thể, bạn sẽ có khả năng:

Giải thích các thước đo: Trình bày rõ ràng định nghĩa, ý nghĩa và cách tính toán của ba thước đo hiệu ứng chính: Tỷ số Rủi ro (RR), Khác biệt Rủi ro (RD), và Tỷ số Chênh (OR).
Thực hiện phân tích: Sử dụng thành thạo các lệnh của Stata để thực hiện phân tích tổng hợp cho dữ liệu nhị phân, bao gồm cả mô hình hiệu ứng cố định và ngẫu nhiên.
Tạo và diễn giải biểu đồ rừng: Tự tạo ra được biểu đồ rừng (forest plot) và giải thích một cách chính xác các thành phần của nó, từ kết quả của từng nghiên cứu riêng lẻ đến kết quả tổng hợp.
Đánh giá tính không đồng nhất: Hiểu và diễn giải được các chỉ số đánh giá tính không đồng nhất giữa các nghiên cứu, như thống kê Q và chỉ số I².
Lựa chọn phương pháp phù hợp: Đưa ra được lập luận để lựa chọn thước đo hiệu ứng và mô hình phân tích phù hợp với câu hỏi nghiên cứu và đặc điểm của dữ liệu.

Tài liệu tham khảo

Nội dung của chuỗi bài viết được xây dựng và diễn giải chủ yếu từ các nguồn tài liệu học thuật uy tín sau đây. Các bạn được khuyến khích tìm đọc để hiểu sâu hơn về bối cảnh và các chi tiết kỹ thuật.

Chen, D. G., & Peace, K. E. (2021). Applied Meta-Analysis with R and Stata, Second Edition. Đây là tài liệu gốc cho toàn bộ chuỗi bài, cung cấp nền tảng lý thuyết và thực hành vững chắc.
Cannon, C. P., Steinberg, B. A., Murphy, S. A., et al. (2006). Meta-analysis of cardiovascular outcomes trials comparing intensive versus moderate statin therapy. Journal of the American College of Cardiology, 48(3), 438-445. Nguồn của bộ dữ liệu đầu tiên về thử nghiệm thuốc Statin.
Geddes, J. R., Calabrese, J. R., & Goodwin, G. M. (2009). Meta-analysis of individual patient data from randomized trials of lamotrigine in bipolar depression. The British Journal of Psychiatry, 194(1), 4-9. Nguồn của bộ dữ liệu thứ hai về thử nghiệm thuốc Lamotrigine.

Phụ lục: Dữ liệu thực hành cho chuỗi bài học

Trong chuỗi bài này, chúng ta sẽ làm việc với hai bộ dữ liệu thực tế. Để thuận tiện cho việc thực hành, dưới đây là mã Stata để các bạn có thể tự tạo lại chính xác hai bộ dữ liệu này. Hãy chạy và lưu chúng lại để sử dụng cho các bài học tiếp theo nhé.

1. Dữ liệu thử nghiệm thuốc Statin

Mô tả: Dữ liệu từ 4 thử nghiệm lâm sàng so sánh liệu pháp statin liều cao (nhóm can thiệp) với liệu pháp statin liều chuẩn (nhóm đối chứng) trong việc giảm các biến cố tim mạch (như tử vong do mạch vành hoặc nhồi máu cơ tim không gây tử vong).

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu thử nghiệm thuốc Statin
* NGUỒN: Cannon et al. (2006)
* BIẾN SỐ:
* evhigh/nhigh: số ca có biến cố / tổng số bệnh nhân ở nhóm liều cao
* evstd/nstd: số ca có biến cố / tổng số bệnh nhân ở nhóm liều chuẩn
* ==================================================

clear
input str10 study evhigh nhigh evstd nstd
"Prove It"  147 2099 172 2063
"A-to-Z"    205 2265 235 2232
"TNT"       334 4995 418 5006
"IDEAL"     411 4439 463 4449
end

label variable study "Tên nghiên cứu"
label variable evhigh "Số biến cố (liều cao)"
label variable nhigh "Tổng số BN (liều cao)"
label variable evstd "Số biến cố (liều chuẩn)"
label variable nstd "Tổng số BN (liều chuẩn)"

* Lưu dữ liệu để sử dụng cho các bài sau
save "statin_data.dta", replace

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu thử nghiệm thuốc Statin
* NGUỒN: Cannon et al. (2006)
* BIẾN SỐ:
* evhigh/nhigh: số ca có biến cố / tổng số bệnh nhân ở nhóm liều cao
* evstd/nstd: số ca có biến cố / tổng số bệnh nhân ở nhóm liều chuẩn
* ==================================================

clear
input str10 study evhigh nhigh evstd nstd
"Prove It"  147 2099 172 2063
"A-to-Z"    205 2265 235 2232
"TNT"       334 4995 418 5006
"IDEAL"     411 4439 463 4449
end

label variable study "Tên nghiên cứu"
label variable evhigh "Số biến cố (liều cao)"
label variable nhigh "Tổng số BN (liều cao)"
label variable evstd "Số biến cố (liều chuẩn)"
label variable nstd "Tổng số BN (liều chuẩn)"

* Lưu dữ liệu để sử dụng cho các bài sau
save "statin_data.dta", replace

2. Dữ liệu thử nghiệm thuốc Lamotrigine

Mô tả: Dữ liệu từ 5 thử nghiệm lâm sàng so sánh thuốc Lamotrigine (nhóm can thiệp) với giả dược (placebo – nhóm đối chứng) trong điều trị trầm cảm lưỡng cực. Dữ liệu được chia thành 4 loại (Category) phân tích khác nhau.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu thử nghiệm thuốc Lamotrigine
* NGUỒN: Geddes et al. (2009)
* BIẾN SỐ:
* Trial: Tên thử nghiệm
* Events/Total: số bệnh nhân đáp ứng / tổng số bệnh nhân
* Group: Nhóm điều trị (Lamotrigine/Placebo)
* Category: Loại phân tích (1 đến 4)
* ==================================================

clear
input str10 Trial int Events int Total str12 Group int Category
SCA100223 59 111 Lamotrigine 1
SCA30924  47 131 Lamotrigine 1
SCA40910  51 133 Lamotrigine 1
SCAA2010  51 103 Lamotrigine 1
SCAB2001  32 63  Lamotrigine 1
SCA100223 44 109 Placebo     1
SCA30924  37 128 Placebo     1
SCA40910  39 124 Placebo     1
SCAA2010  45 103 Placebo     1
SCAB2001  21 66  Placebo     1
SCA100223 59 111 Lamotrigine 2
SCA30924  56 131 Lamotrigine 2
SCA40910  55 133 Lamotrigine 2
SCAA2010  51 103 Lamotrigine 2
SCAB2001  31 63  Lamotrigine 2
SCA100223 44 109 Placebo     2
SCA30924  44 128 Placebo     2
SCA40910  47 124 Placebo     2
SCAA2010  46 103 Placebo     2
SCAB2001  19 66  Placebo     2
SCA100223 25 57  Lamotrigine 3
SCA30924  32 65  Lamotrigine 3
SCA40910  34 86  Lamotrigine 3
SCAA2010  31 56  Lamotrigine 3
SCAB2001  20 35  Lamotrigine 3
SCA100223 29 65  Placebo     3
SCA30924  26 62  Placebo     3
SCA40910  31 76  Placebo     3
SCAA2010  31 60  Placebo     3
SCAB2001  14 31  Placebo     3
SCA100223 34 54  Lamotrigine 4
SCA30924  24 66  Lamotrigine 4
SCA40910  21 47  Lamotrigine 4
SCAA2010  20 47  Lamotrigine 4
SCAB2001  11 28  Lamotrigine 4
SCA100223 17 44  Placebo     4
SCA30924  18 66  Placebo     4
SCA40910  16 48  Placebo     4
SCAA2010  15 43  Placebo     4
SCAB2001  5  35  Placebo     4
end

* Lưu dữ liệu để sử dụng cho các bài sau
save "lamotrigine_data.dta", replace

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu thử nghiệm thuốc Lamotrigine
* NGUỒN: Geddes et al. (2009)
* BIẾN SỐ:
* Trial: Tên thử nghiệm
* Events/Total: số bệnh nhân đáp ứng / tổng số bệnh nhân
* Group: Nhóm điều trị (Lamotrigine/Placebo)
* Category: Loại phân tích (1 đến 4)
* ==================================================

clear
input str10 Trial int Events int Total str12 Group int Category
SCA100223 59 111 Lamotrigine 1
SCA30924  47 131 Lamotrigine 1
SCA40910  51 133 Lamotrigine 1
SCAA2010  51 103 Lamotrigine 1
SCAB2001  32 63  Lamotrigine 1
SCA100223 44 109 Placebo     1
SCA30924  37 128 Placebo     1
SCA40910  39 124 Placebo     1
SCAA2010  45 103 Placebo     1
SCAB2001  21 66  Placebo     1
SCA100223 59 111 Lamotrigine 2
SCA30924  56 131 Lamotrigine 2
SCA40910  55 133 Lamotrigine 2
SCAA2010  51 103 Lamotrigine 2
SCAB2001  31 63  Lamotrigine 2
SCA100223 44 109 Placebo     2
SCA30924  44 128 Placebo     2
SCA40910  47 124 Placebo     2
SCAA2010  46 103 Placebo     2
SCAB2001  19 66  Placebo     2
SCA100223 25 57  Lamotrigine 3
SCA30924  32 65  Lamotrigine 3
SCA40910  34 86  Lamotrigine 3
SCAA2010  31 56  Lamotrigine 3
SCAB2001  20 35  Lamotrigine 3
SCA100223 29 65  Placebo     3
SCA30924  26 62  Placebo     3
SCA40910  31 76  Placebo     3
SCAA2010  31 60  Placebo     3
SCAB2001  14 31  Placebo     3
SCA100223 34 54  Lamotrigine 4
SCA30924  24 66  Lamotrigine 4
SCA40910  21 47  Lamotrigine 4
SCAA2010  20 47  Lamotrigine 4
SCAB2001  11 28  Lamotrigine 4
SCA100223 17 44  Placebo     4
SCA30924  18 66  Placebo     4
SCA40910  16 48  Placebo     4
SCAA2010  15 43  Placebo     4
SCAB2001  5  35  Placebo     4
end

* Lưu dữ liệu để sử dụng cho các bài sau
save "lamotrigine_data.dta", replace

📚 Bài tiếp theo: Phân tích tổng hợp với Tỷ số Rủi ro (RR)

💡 Lưu ý: Hãy đảm bảo bạn đã chạy và lưu thành công hai bộ dữ liệu trên. Chúng sẽ là người bạn đồng hành không thể thiếu trong các bài học sắp tới.