Giới thiệu phân tích tổng hợp cho dữ liệu liên tục

An Introduction to Meta-Analysis for Continuous data

Giới thiệu tổng quan về chuỗi bài học

Chào mừng các bạn đến với chuỗi bài học mới, nơi chúng ta sẽ đi sâu vào một trong những ứng dụng phổ biến và quan trọng nhất của phân tích tổng hợp: xử lý dữ liệu liên tục. Trong các nghiên cứu kinh tế, y tế, và khoa học xã hội, các biến kết quả thường được đo lường trên một thang đo liên tục, chẳng hạn như thu nhập, huyết áp, điểm số kiểm tra, hoặc thời gian phản ứng. Việc biết cách tổng hợp kết quả từ các nghiên cứu sử dụng loại dữ liệu này là một kỹ năng không thể thiếu đối với bất kỳ nhà nghiên cứu nào. Chuỗi bài viết này sẽ trang bị cho bạn một sự hiểu biết toàn diện, từ nền tảng lý thuyết vững chắc đến kỹ năng thực hành thành thạo trên phần mềm Stata.

Trong các bài học sắp tới, chúng ta sẽ khám phá hai loại kích thước hiệu ứng (effect size) cốt lõi cho dữ liệu liên tục: Chênh lệch trung bình (MD) (Mean Difference) và Chênh lệch trung bình chuẩn hóa (SMD) (Standardized Mean Difference). Chúng ta sẽ không chỉ dừng lại ở việc tìm hiểu công thức, mà còn đi sâu vào các phiên bản khác nhau của SMD như d của Cohen và g của Hedges, cũng như tầm quan trọng của việc hiệu chỉnh sai lệch để có được ước tính chính xác nhất. Để biến lý thuyết thành kỹ năng thực tế, chúng ta sẽ làm việc với hai bộ dữ liệu đã được công bố, qua đó bạn sẽ học cách triển khai các phân tích này từng bước một bằng Stata. Hãy sẵn sàng để khám phá cách biến những con số từ các nghiên cứu riêng lẻ thành một câu chuyện tổng thể, mạch lạc và đầy sức thuyết phục.

Cấu trúc chuỗi bài học về phân tích dữ liệu liên tục

Để giúp các bạn tiếp cận chủ đề một cách có hệ thống, chuỗi bài học được thiết kế theo một lộ trình logic, đi từ các khái niệm cơ bản đến các ứng dụng thực tế phức tạp hơn. Mỗi bài viết sẽ xây dựng dựa trên kiến thức của bài trước, đảm bảo một trải nghiệm học tập liền mạch và hiệu quả.

Lý thuyết về kích thước hiệu ứng cho dữ liệu liên tục
Hiểu rõ sự khác biệt giữa MD và SMD, đi sâu vào công thức tính d của Cohen, g của Hedges và các hiệu chỉnh cần thiết.
Thực hành phân tích SMD với dữ liệu “Impact of Intervention”
Áp dụng lý thuyết để phân tích bộ dữ liệu đầu tiên, tính toán SMD từng bước và so sánh với kết quả tự động của Stata.
Thực hành phân tích MD với dữ liệu “PCNL”
Làm việc với một case study phức tạp hơn, thực hiện phân tích MD cho nhiều biến kết quả và diễn giải kết quả.
Bài tổng hợp: Lựa chọn kích thước hiệu ứng và ứng dụng
Tổng kết kiến thức, thảo luận về các tiêu chí lựa chọn giữa MD và SMD, và khám phá các hướng nghiên cứu nâng cao.

Kiến thức tiên quyết cần chuẩn bị

Để tiếp thu tốt nhất các nội dung trong chuỗi bài học này, các bạn cần có một nền tảng vững chắc về các khái niệm thống kê cơ bản và đã làm quen với các nguyên tắc của phân tích tổng hợp.

Kiến thức cần có:

Thống kê mô tả: Hiểu rõ về các khái niệm trung bình (mean), độ lệch chuẩn (standard deviation), và phương sai (variance).
Nguyên tắc phân tích tổng hợp: Đã nắm vững các khái niệm về mô hình hiệu ứng cố định và ngẫu nhiên từ chuỗi bài học trước.
Sử dụng Stata: Có khả năng nhập dữ liệu, tạo biến mới, và chạy các lệnh phân tích cơ bản.

Mục tiêu học tập của chuỗi bài viết

Sau khi hoàn thành chuỗi bài học này, bạn sẽ sở hữu một bộ kỹ năng toàn diện để có thể tự tin thực hiện các dự án phân tích tổng hợp với dữ liệu liên tục.

Phân biệt và lựa chọn được kích thước hiệu ứng phù hợp (MD hoặc SMD) cho một bài toán phân tích tổng hợp cụ thể.
Hiểu và áp dụng được công thức tính g của Hedges, bao gồm cả việc hiệu chỉnh sai lệch để tăng độ chính xác.
Sử dụng thành thạo Stata để thực hiện phân tích tổng hợp cho dữ liệu liên tục với cả hai mô hình hiệu ứng cố định và ngẫu nhiên.
Diễn giải một cách chuyên nghiệp kết quả phân tích, bao gồm cả kích thước hiệu ứng tổng hợp và các chỉ số về tính không đồng nhất.
Áp dụng quy trình phân tích cho các bộ dữ liệu có nhiều biến kết quả khác nhau.

Tài liệu tham khảo chính

Nội dung của chuỗi bài viết này được phát triển dựa trên các tài liệu tham khảo uy tín và kinh điển trong lĩnh vực, đảm bảo tính chính xác và cập nhật của kiến thức.

Chen, D. G., & Peace, K. E. (2021). Applied Meta-Analysis with R and Stata, Second Edition. CRC Press. (Tài liệu chính được sử dụng để biên soạn chuỗi bài viết này).
Borenstein, M., Hedges, L. V., Higgins, J. P., & Rothstein, H. R. (2009). Introduction to Meta-Analysis. Wiley. (Nguồn của bộ dữ liệu thực hành đầu tiên và là tài liệu tham khảo nền tảng).
Wang, Y., et al. (2011). Tubeless vs standard percutaneous nephrolithotomy: a meta-analysis. BJU international. (Nguồn của bộ dữ liệu thực hành thứ hai).

Phụ lục: Dữ liệu thực hành cho chuỗi bài viết

Để đảm bảo các bạn có thể thực hành theo các hướng dẫn, dưới đây là mã Stata để tạo lại hai bộ dữ liệu sẽ được sử dụng trong chuỗi bài học. Hãy chạy các đoạn mã này để chuẩn bị cho các bài thực hành.

Dữ liệu 1: Impact of Intervention (Borenstein et al., 2009)

Bộ dữ liệu này bao gồm 6 nghiên cứu đánh giá tác động của một biện pháp can thiệp. Dữ liệu được cung cấp dưới dạng trung bình, độ lệch chuẩn và cỡ mẫu cho nhóm điều trị và nhóm đối chứng.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo bộ dữ liệu "Impact of Intervention"
* NGUỒN: Borenstein et al. (2009), Table 14.1
* LOẠI DỮ LIỆU: Liên tục
* ==================================================

clear
input str10 study mean_t sd_t n_t mean_c sd_c n_c
"Carroll" 94 22 60 92 20 60
"Grant"   98 21 65 92 22 65
"Peck"    98 28 40 88 26 40
"Donat"   94 19 200 82 17 200
"Stewart" 98 21 50 88 22 45
"Young"   96 21 85 92 22 85
end

label variable study "Tên nghiên cứu"
label variable mean_t "Trung bình (Nhóm điều trị)"
label variable sd_t "Độ lệch chuẩn (Nhóm điều trị)"
label variable n_t "Cỡ mẫu (Nhóm điều trị)"
label variable mean_c "Trung bình (Nhóm đối chứng)"
label variable sd_c "Độ lệch chuẩn (Nhóm đối chứng)"
label variable n_c "Cỡ mẫu (Nhóm đối chứng)"

describe
list

* ==================================================
* MỤC ĐÍCH: Tạo bộ dữ liệu "Impact of Intervention"
* NGUỒN: Borenstein et al. (2009), Table 14.1
* LOẠI DỮ LIỆU: Liên tục
* ==================================================

clear
input str10 study mean_t sd_t n_t mean_c sd_c n_c
"Carroll" 94 22 60 92 20 60
"Grant"   98 21 65 92 22 65
"Peck"    98 28 40 88 26 40
"Donat"   94 19 200 82 17 200
"Stewart" 98 21 50 88 22 45
"Young"   96 21 85 92 22 85
end

label variable study "Tên nghiên cứu"
label variable mean_t "Trung bình (Nhóm điều trị)"
label variable sd_t "Độ lệch chuẩn (Nhóm điều trị)"
label variable n_t "Cỡ mẫu (Nhóm điều trị)"
label variable mean_c "Trung bình (Nhóm đối chứng)"
label variable sd_c "Độ lệch chuẩn (Nhóm đối chứng)"
label variable n_c "Cỡ mẫu (Nhóm đối chứng)"

describe
list

Dữ liệu 2: Tubeless vs Standard PCNL (Wang et al., 2011)

Bộ dữ liệu này phức tạp hơn, tổng hợp từ 7 nghiên cứu so sánh hai phương pháp phẫu thuật. Dữ liệu bao gồm 4 biến kết quả (Outcome) khác nhau: thời gian phẫu thuật (Duration), thời gian nằm viện (LOS), nhu cầu thuốc giảm đau (Analgesic), và thay đổi chỉ số máu (Haematocrit).

Stata

* ==================================================
* MỤC ĐÍCH: Tạo bộ dữ liệu "Tubeless vs Standard PCNL"
* NGUỒN: Wang et al. (2011)
* LOẠI DỮ LIỆU: Liên tục, với nhiều biến kết quả
* ==================================================

clear
input str12 outcome str22 study mean_e sd_e n_e mean_c sd_c n_c
"Duration" "Ahmet Tefekli 2007" 60 9 17 76 10 18
"Duration" "B.Lojanapiwat 2010" 49 24 45 57 20 59
"Duration" "Hemendra N. Shah 2008" 51 10 33 47 16 32
"Duration" "Hemendra Shah 2009" 52 23 454 68 34 386
"Duration" "J. Jun-Ou 2010" 47 17 43 59 18 52
"Duration" "Michael Choi 2006" 82 18 12 73 15 12
"LOS" "Ahmet Tefekli 2007" 38 10 17 67 22 18
"LOS" "B.Lojanapiwat 2010" 85 23 45 129 54 59
"LOS" "Hemendra N. Shah 2008" 35 11 33 44 22 32
"LOS" "Hemendra Shah 2009" 34 17 454 56 62 386
"LOS" "J. Jun-Ou 2010" 82 24 43 106 35 52
"LOS" "Madhu S. Agrawal 2008" 22 4 101 54 5 101
"LOS" "Michael Choi 2006" 37 24 12 38 24 12
"Analgesic" "B.Lojanapiwat 2010" 39 35 45 75 32 59
"Analgesic" "Hemendra N. Shah 2008" 150 97 33 246 167 32
"Analgesic" "Hemendra Shah 2009" 103 116 454 250 132 386
"Analgesic" "J. Jun-Ou 2010" 37 31 43 70 36 52
"Analgesic" "Madhu S. Agrawal 2008" 82 24 101 126 33 101
"Haematocrit" "Ahmet Tefekli 2007" 2 1 17 1 0 18
"Haematocrit" "Hemendra N. Shah 2008" 0 0 33 0 1 32
"Haematocrit" "Hemendra Shah 2009" 1 1 454 1 2 386
"Haematocrit" "Madhu S. Agrawal 2008" 0 0 101 0 0 202
end

label variable outcome "Biến kết quả"
label variable study "Tên nghiên cứu"
label variable mean_e "Trung bình (Nhóm thử nghiệm)"
label variable sd_e "Độ lệch chuẩn (Nhóm thử nghiệm)"
label variable n_e "Cỡ mẫu (Nhóm thử nghiệm)"
label variable mean_c "Trung bình (Nhóm đối chứng)"
label variable sd_c "Độ lệch chuẩn (Nhóm đối chứng)"
label variable n_c "Cỡ mẫu (Nhóm đối chứng)"

describe
list

* ==================================================
* MỤC ĐÍCH: Tạo bộ dữ liệu "Tubeless vs Standard PCNL"
* NGUỒN: Wang et al. (2011)
* LOẠI DỮ LIỆU: Liên tục, với nhiều biến kết quả
* ==================================================

clear
input str12 outcome str22 study mean_e sd_e n_e mean_c sd_c n_c
"Duration" "Ahmet Tefekli 2007" 60 9 17 76 10 18
"Duration" "B.Lojanapiwat 2010" 49 24 45 57 20 59
"Duration" "Hemendra N. Shah 2008" 51 10 33 47 16 32
"Duration" "Hemendra Shah 2009" 52 23 454 68 34 386
"Duration" "J. Jun-Ou 2010" 47 17 43 59 18 52
"Duration" "Michael Choi 2006" 82 18 12 73 15 12
"LOS" "Ahmet Tefekli 2007" 38 10 17 67 22 18
"LOS" "B.Lojanapiwat 2010" 85 23 45 129 54 59
"LOS" "Hemendra N. Shah 2008" 35 11 33 44 22 32
"LOS" "Hemendra Shah 2009" 34 17 454 56 62 386
"LOS" "J. Jun-Ou 2010" 82 24 43 106 35 52
"LOS" "Madhu S. Agrawal 2008" 22 4 101 54 5 101
"LOS" "Michael Choi 2006" 37 24 12 38 24 12
"Analgesic" "B.Lojanapiwat 2010" 39 35 45 75 32 59
"Analgesic" "Hemendra N. Shah 2008" 150 97 33 246 167 32
"Analgesic" "Hemendra Shah 2009" 103 116 454 250 132 386
"Analgesic" "J. Jun-Ou 2010" 37 31 43 70 36 52
"Analgesic" "Madhu S. Agrawal 2008" 82 24 101 126 33 101
"Haematocrit" "Ahmet Tefekli 2007" 2 1 17 1 0 18
"Haematocrit" "Hemendra N. Shah 2008" 0 0 33 0 1 32
"Haematocrit" "Hemendra Shah 2009" 1 1 454 1 2 386
"Haematocrit" "Madhu S. Agrawal 2008" 0 0 101 0 0 202
end

label variable outcome "Biến kết quả"
label variable study "Tên nghiên cứu"
label variable mean_e "Trung bình (Nhóm thử nghiệm)"
label variable sd_e "Độ lệch chuẩn (Nhóm thử nghiệm)"
label variable n_e "Cỡ mẫu (Nhóm thử nghiệm)"
label variable mean_c "Trung bình (Nhóm đối chứng)"
label variable sd_c "Độ lệch chuẩn (Nhóm đối chứng)"
label variable n_c "Cỡ mẫu (Nhóm đối chứng)"

describe
list