Giới thiệu Stata cho phân tích tổng hợp

Introduction to R and Stata for Meta-Analysis

Tóm tắt nội dung chuỗi bài viết

Chào mừng các bạn sinh viên đến với chuỗi bài học về phân tích tổng hợp, một trong những công cụ nghiên cứu mạnh mẽ và ngày càng phổ biến trong kinh tế, y học, và khoa học xã hội. Trong thế giới nghiên cứu hiện đại, chúng ta thường xuyên đối mặt với hàng loạt các nghiên cứu riêng lẻ về cùng một chủ đề, đôi khi đưa ra những kết luận trái ngược nhau. Vậy làm thế nào để tổng hợp những bằng chứng này một cách khoa học và đưa ra một kết luận tổng thể đáng tin cậy? Câu trả lời nằm ở phân tích tổng hợp (meta-analysis).

Chuỗi bài viết này được thiết kế đặc biệt để hướng dẫn các bạn từng bước, từ những khái niệm cơ bản nhất đến việc thực hành phân tích trên phần mềm chuyên dụng. Chúng ta sẽ không chỉ dừng lại ở lý thuyết suông, mà sẽ tập trung vào việc ứng dụng thực tế thông qua một ví dụ xuyên suốt: mô phỏng và phân tích dữ liệu từ một nghiên cứu đa trung tâm. Mục tiêu lớn nhất là giúp các bạn xây dựng sự tự tin và kỹ năng cần thiết để có thể tự mình thực hiện một phân tích tổng hợp cơ bản. Chúng ta sẽ sử dụng hai công cụ phổ biến là R và Stata, nhưng sẽ tập trung chính vào Stata, một phần mềm rất mạnh mẽ và thân thiện với người dùng trong lĩnh vực kinh tế lượng.

Hãy xem chuỗi bài học này như một hành trình khám phá, nơi mỗi bài viết là một chặng đường giúp bạn trang bị thêm những công cụ mới. Đừng lo lắng nếu bạn là người mới bắt đầu, mọi khái niệm, câu lệnh và kết quả đều sẽ được giải thích một cách cặn kẽ và trực quan. Với sự hướng dẫn chi tiết, bạn sẽ thấy rằng việc tổng hợp tri thức khoa học không hề đáng sợ, mà ngược lại, vô cùng thú vị và hữu ích cho con đường nghiên cứu của mình.

Cấu trúc chuỗi bài học

Quản lý và nhập dữ liệu trong Stata
Nắm vững các kỹ năng xử lý dữ liệu cơ bản, chuẩn bị cho việc phân tích từ các nguồn dữ liệu phổ biến như Excel.
Mô phỏng và trực quan hóa dữ liệu nghiên cứu
Thực hành tạo bộ dữ liệu mô phỏng và sử dụng đồ thị để khám phá các đặc điểm quan trọng của dữ liệu.
Phân tích và giới thiệu phân tích tổng hợp
Áp dụng các kỹ thuật phân tích trên dữ liệu đã tạo và thực hiện các bước đầu tiên của một phân tích tổng hợp.
Bài tổng hợp: Tổng kết và định hướng nâng cao
Ôn tập toàn bộ kiến thức, so sánh các phương pháp và khám phá những hướng nghiên cứu chuyên sâu hơn.

Các kiến thức tiên quyết

Để theo dõi tốt nhất chuỗi bài học này, các bạn nên có kiến thức nền tảng về:

Thống kê cơ bản: Hiểu về các khái niệm như trung bình, phương sai, độ lệch chuẩn, và kiểm định giả thuyết.
Kinh tế lượng cơ bản: Nắm vững mô hình hồi quy tuyến tính đơn giản và đa biến.
Làm quen với Stata: Có kinh nghiệm cơ bản về giao diện và cách thực thi các câu lệnh trong Stata.

Các bạn không cần có kinh nghiệm về R, vì các khái niệm sẽ được giới thiệu song song và phần thực hành chính sẽ tập trung vào Stata.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài viết này, các bạn sẽ có khả năng:

Hiểu rõ khái niệm, mục đích và tầm quan trọng của phân tích tổng hợp trong nghiên cứu khoa học.
Cài đặt và sử dụng các lệnh Stata cần thiết cho việc phân tích dữ liệu và phân tích tổng hợp.
Tự tay mô phỏng một bộ dữ liệu nghiên cứu đa trung tâm phức tạp bằng Stata để phục vụ cho việc thực hành.
Thực hiện các phân tích sơ bộ như phân tích dữ liệu gộp và so sánh kết quả giữa các trung tâm nghiên cứu.
Thực hiện một phân tích tổng hợp cơ bản bằng mô hình hiệu ứng ngẫu nhiên và diễn giải kết quả một cách chính xác.

Tài liệu tham khảo

Nguồn chính: Chen, D. G., & Peace, K. E. (2021). Applied Meta-Analysis with R and Stata, Second Edition. Chapman and Hall/CRC. Chuỗi bài viết này được xây dựng và chuyển thể chủ yếu từ Chương 1 của cuốn sách này, với sự điều chỉnh và tập trung vào Stata cho đối tượng sinh viên Việt Nam.
Tài liệu Stata: StataCorp. (2021). Stata Meta-Analysis Reference Manual. Stata Press. Đây là tài liệu tham khảo chính thức và chi tiết nhất về các lệnh phân tích tổng hợp trong Stata.

Phụ lục: Dữ liệu mô phỏng cho chuỗi bài viết

Trong suốt chuỗi bài học, chúng ta sẽ làm việc với một bộ dữ liệu mô phỏng về một nghiên cứu đa trung tâm nhằm đánh giá hiệu quả của một loại thuốc hạ huyết áp mới. Nghiên cứu được tiến hành tại 5 trung tâm, với tổng số 1000 bệnh nhân. Để các bạn có thể thực hành cùng lúc, dưới đây là toàn bộ mã Stata để tạo ra bộ dữ liệu này. Hãy chạy toàn bộ đoạn mã này trong Stata để tạo tệp multicenter_study.dta và sử dụng nó cho các bài học tiếp theo.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho nghiên cứu đa trung tâm
* NGUỒN: Dựa trên logic mô phỏng từ sách "Applied Meta-Analysis with R and Stata"
* KẾT QUẢ: File multicenter_study.dta với 1000 quan sát
* ==================================================

clear all
set obs 1000
set seed 123 // Đặt seed để kết quả mô phỏng có thể tái lập

* --- BƯỚC 1: TẠO CÁC BIẾN NỀN TẢNG ---

* Tạo biến định danh cho 5 trung tâm (Center)
* Mỗi trung tâm có 200 bệnh nhân (1000 / 5)
gen center = cond(_n <= 200, 1, cond(_n <= 400, 2, cond(_n <= 600, 3, cond(_n <= 800, 4, 5))))

* Tạo biến nhóm điều trị (TRT): 0 = Nhóm đối chứng (CTRL), 1 = Nhóm dùng thuốc mới (Drug)
* Trong mỗi trung tâm, 100 người thuộc nhóm CTRL, 100 người thuộc nhóm Drug
bysort center: gen group_id = _n
gen trt = (group_id > 100)

* --- BƯỚC 2: MÔ PHỎNG CÁC BIẾN LIÊN QUAN ĐẾN BỆNH NHÂN ---

* Giả định các đặc điểm ban đầu là như nhau giữa các trung tâm
local age_mu = 50     // Tuổi trung bình
local age_sd = 10     // Độ lệch chuẩn của tuổi
local bp_base_mu = 100 // Huyết áp tâm trương ban đầu trung bình
local bp_base_sd = 20  // Độ lệch chuẩn của huyết áp ban đầu

* Mô phỏng tuổi (age) và huyết áp ban đầu (bp_base)
gen age = rnormal(`age_mu', `age_sd')
gen bp_base = rnormal(`bp_base_mu', `bp_base_sd')

* --- BƯỚC 3: MÔ PHỎNG KẾT QUẢ ĐIỀU TRỊ ---

* Giả định hiệu quả của thuốc (mức giảm huyết áp) khác nhau giữa các trung tâm
* mu_d là mức giảm huyết áp trung bình kỳ vọng của nhóm Drug so với CTRL
gen mu_d = 0
replace mu_d = 10 if center == 1
replace mu_d = 13 if center == 2
replace mu_d = 15 if center == 3
replace mu_d = 8  if center == 4
replace mu_d = 10 if center == 5

* Mô phỏng huyết áp cuối kỳ (bp_end)
* Nhóm CTRL (trt==0): bp_end có trung bình bằng bp_base_mu
* Nhóm Drug (trt==1): bp_end có trung bình bằng bp_base_mu - mu_d (giảm huyết áp)
gen bp_end = rnormal(`bp_base_mu' - trt*mu_d, `bp_base_sd')

* Tính toán sự thay đổi huyết áp (bp_diff)
gen bp_diff = bp_end - bp_base

* Làm tròn các giá trị cho giống dữ liệu thực tế
foreach var of varlist age bp_base bp_end bp_diff {
    replace `var' = round(`var')
}

* --- BƯỚC 4: HOÀN THIỆN VÀ LƯU DỮ LIỆU ---

* Gán nhãn cho các biến và giá trị để dễ đọc
label variable center "Trung tâm nghiên cứu"
label variable trt "Nhóm điều trị"
label define trt_label 0 "CTRL" 1 "Drug"
label values trt trt_label
label variable age "Tuổi bệnh nhân"
label variable bp_base "Huyết áp tâm trương ban đầu"
label variable bp_end "Huyết áp tâm trương cuối kỳ"
label variable bp_diff "Thay đổi huyết áp (cuối - đầu)"

* Xóa các biến tạm
drop group_id mu_d

* Lưu bộ dữ liệu để sử dụng cho các bài sau
compress
save "multicenter_study.dta", replace

* Mô tả sơ bộ bộ dữ liệu vừa tạo
describe
summarize

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho nghiên cứu đa trung tâm
* NGUỒN: Dựa trên logic mô phỏng từ sách "Applied Meta-Analysis with R and Stata"
* KẾT QUẢ: File multicenter_study.dta với 1000 quan sát
* ==================================================

clear all
set obs 1000
set seed 123 // Đặt seed để kết quả mô phỏng có thể tái lập

* --- BƯỚC 1: TẠO CÁC BIẾN NỀN TẢNG ---

* Tạo biến định danh cho 5 trung tâm (Center)
* Mỗi trung tâm có 200 bệnh nhân (1000 / 5)
gen center = cond(_n <= 200, 1, cond(_n <= 400, 2, cond(_n <= 600, 3, cond(_n <= 800, 4, 5))))

* Tạo biến nhóm điều trị (TRT): 0 = Nhóm đối chứng (CTRL), 1 = Nhóm dùng thuốc mới (Drug)
* Trong mỗi trung tâm, 100 người thuộc nhóm CTRL, 100 người thuộc nhóm Drug
bysort center: gen group_id = _n
gen trt = (group_id > 100)

* --- BƯỚC 2: MÔ PHỎNG CÁC BIẾN LIÊN QUAN ĐẾN BỆNH NHÂN ---

* Giả định các đặc điểm ban đầu là như nhau giữa các trung tâm
local age_mu = 50     // Tuổi trung bình
local age_sd = 10     // Độ lệch chuẩn của tuổi
local bp_base_mu = 100 // Huyết áp tâm trương ban đầu trung bình
local bp_base_sd = 20  // Độ lệch chuẩn của huyết áp ban đầu

* Mô phỏng tuổi (age) và huyết áp ban đầu (bp_base)
gen age = rnormal(`age_mu', `age_sd')
gen bp_base = rnormal(`bp_base_mu', `bp_base_sd')

* --- BƯỚC 3: MÔ PHỎNG KẾT QUẢ ĐIỀU TRỊ ---

* Giả định hiệu quả của thuốc (mức giảm huyết áp) khác nhau giữa các trung tâm
* mu_d là mức giảm huyết áp trung bình kỳ vọng của nhóm Drug so với CTRL
gen mu_d = 0
replace mu_d = 10 if center == 1
replace mu_d = 13 if center == 2
replace mu_d = 15 if center == 3
replace mu_d = 8  if center == 4
replace mu_d = 10 if center == 5

* Mô phỏng huyết áp cuối kỳ (bp_end)
* Nhóm CTRL (trt==0): bp_end có trung bình bằng bp_base_mu
* Nhóm Drug (trt==1): bp_end có trung bình bằng bp_base_mu - mu_d (giảm huyết áp)
gen bp_end = rnormal(`bp_base_mu' - trt*mu_d, `bp_base_sd')

* Tính toán sự thay đổi huyết áp (bp_diff)
gen bp_diff = bp_end - bp_base

* Làm tròn các giá trị cho giống dữ liệu thực tế
foreach var of varlist age bp_base bp_end bp_diff {
    replace `var' = round(`var')
}

* --- BƯỚC 4: HOÀN THIỆN VÀ LƯU DỮ LIỆU ---

* Gán nhãn cho các biến và giá trị để dễ đọc
label variable center "Trung tâm nghiên cứu"
label variable trt "Nhóm điều trị"
label define trt_label 0 "CTRL" 1 "Drug"
label values trt trt_label
label variable age "Tuổi bệnh nhân"
label variable bp_base "Huyết áp tâm trương ban đầu"
label variable bp_end "Huyết áp tâm trương cuối kỳ"
label variable bp_diff "Thay đổi huyết áp (cuối - đầu)"

* Xóa các biến tạm
drop group_id mu_d

* Lưu bộ dữ liệu để sử dụng cho các bài sau
compress
save "multicenter_study.dta", replace

* Mô tả sơ bộ bộ dữ liệu vừa tạo
describe
summarize