Sai lệch xuất bản trong phân tích tổng hợp

Publication Bias in Meta-Analysis

Tóm tắt nội dung chuỗi bài viết

Chào mừng các bạn đến với một chuỗi bài học cực kỳ quan trọng, nơi chúng ta sẽ đối mặt với một trong những thách thức lớn nhất đối với tính hợp lệ của mọi phân tích tổng hợp: sai lệch xuất bản. Hãy tưởng tượng phân tích tổng hợp là việc xây dựng một bức tranh toàn cảnh từ nhiều mảnh ghép nhỏ (các nghiên cứu riêng lẻ). Nhưng điều gì sẽ xảy ra nếu chúng ta chỉ được cung cấp những mảnh ghép sáng màu và ấn tượng, trong khi những mảnh ghép tối màu hoặc trung tính lại bị giấu đi? Bức tranh mà chúng ta tạo ra chắc chắn sẽ bị sai lệch và quá lạc quan. Đây chính là hình ảnh ẩn dụ cho sai lệch xuất bản[/tooltip] (publication bias).

Trong thực tế, các nghiên cứu có kết quả “tích cực” (ví dụ: tìm thấy hiệu quả có ý nghĩa thống kê của một loại thuốc) thường có khả năng được xuất bản cao hơn so với các nghiên cứu có kết quả “tiêu cực” hoặc không có ý nghĩa. Khi một phân tích tổng hợp chỉ dựa trên các tài liệu đã được xuất bản, nó có nguy cơ bỏ sót các nghiên cứu “tiêu cực” này, dẫn đến việc đánh giá quá cao hiệu quả thực sự của một can thiệp. Chuỗi bài viết này sẽ trang bị cho bạn những công cụ của một “thám tử dữ liệu” để phát hiện và đánh giá tác động tiềm tàng của kẻ thù giấu mặt này. Chúng ta sẽ học cách sử dụng các công cụ trực quan như biểu đồ phễu (funnel plot), các kiểm định thống kê như kiểm định của Begg và Egger, và cuối cùng là các phương pháp tiên tiến như “Trim and Fill” để ước tính và điều chỉnh lại kết quả. Mục tiêu không phải là để chứng minh có hay không có sai lệch một cách tuyệt đối, mà là để đánh giá một cách phản biện về độ tin cậy của các kết quả tổng hợp và trở thành một người tiêu dùng thông thái của các bằng chứng khoa học.

Cấu trúc chuỗi bài học

Chẩn đoán bằng công cụ trực quan – Biểu đồ phễu
Học cách xây dựng và diễn giải biểu đồ phễu, công cụ trực quan hàng đầu để phát hiện các dấu hiệu của sai lệch xuất bản.
Các kiểm định thống kê cho tính bất đối xứng
Tìm hiểu và thực hành hai kiểm định thống kê phổ biến (Begg và Egger) để lượng hóa bằng chứng về sự bất đối xứng của biểu đồ phễu.
Phương pháp “Trim and Fill” để điều chỉnh sai lệch
Khám phá một phương pháp phi tham số để ước tính số lượng nghiên cứu bị thiếu và điều chỉnh lại kết quả tổng hợp.
Bài tổng hợp: Một cái nhìn toàn diện và các biện pháp phòng ngừa
Tổng kết quy trình đánh giá, thảo luận các nguyên nhân khác của sự bất đối xứng, và nhấn mạnh tầm quan trọng của việc tìm kiếm tài liệu toàn diện.

Các kiến thức tiên quyết

Để theo dõi tốt nhất chuỗi bài học này, các bạn cần có kiến thức nền tảng vững chắc từ các chuỗi bài học trước, bao gồm:

Phân tích tổng hợp cơ bản: Hiểu rõ cách thực hiện một phân tích tổng hợp cơ bản bằng lệnh metan.
Khái niệm về tính không đồng nhất: Hiểu ý nghĩa của các chỉ số như I² và τ².
Kỹ năng Stata: Thành thạo các lệnh phân tích và đồ họa cơ bản trong Stata.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài viết này, các bạn sẽ có khả năng:

Giải thích được khái niệm sai lệch xuất bản và tại sao nó là một mối đe dọa nghiêm trọng.
Tạo và diễn giải một biểu đồ phễu (funnel plot) để đánh giá trực quan về khả năng có sai lệch.
Thực hiện và diễn giải kết quả từ kiểm định của Begg và Egger để kiểm tra tính bất đối xứng của biểu đồ phễu.
Áp dụng phương pháp “Trim and Fill” để ước tính tác động của sai lệch và có được một ước lượng hiệu ứng đã được điều chỉnh.
Đánh giá một cách tổng thể và có tư duy phản biện về độ tin cậy của kết quả từ một phân tích tổng hợp.

Tài liệu tham khảo

Nguồn chính: Chen, D. G., & Peace, K. E. (2021). Applied Meta-Analysis with R and Stata, Second Edition. Chapman and Hall/CRC. Chuỗi bài viết này được xây dựng và chuyển thể chủ yếu từ Chương 9 của cuốn sách này, với sự điều chỉnh và tập trung vào Stata cho đối tượng sinh viên Việt Nam.
Tài liệu bổ sung: Egger, M., Davey Smith, G., Schneider, M., & Minder, C. (1997). Bias in meta-analysis detected by a simple, graphical test. BMJ, 315(7109), 629-634. Đây là bài báo kinh điển giới thiệu về kiểm định Egger.

Phụ lục: Dữ liệu thực hành cho chuỗi bài viết

Trong chuỗi bài học này, chúng ta sẽ sử dụng hai bộ dữ liệu đã quen thuộc và một bộ dữ liệu mới. Để đảm bảo tất cả các bạn đều có thể thực hành, dưới đây là hướng dẫn chi tiết để chuẩn bị các bộ dữ liệu này trong Stata.

1. Dữ liệu Cochrane Logo (Dữ liệu Nhị phân)

Chúng ta sẽ tiếp tục sử dụng bộ dữ liệu này. Nếu bạn chưa có, hãy chạy lại đoạn mã trong bài Giới thiệu của chuỗi bài học trước để tạo tệp cochrane_data.dta.

2. Dữ liệu Streptokinase (Dữ liệu Nhị phân)

Đây là một bộ dữ liệu kinh điển trong phân tích tổng hợp, bao gồm 33 nghiên cứu về hiệu quả của thuốc streptokinase sau cơn nhồi máu cơ tim. Bộ dữ liệu này có sẵn trực tiếp từ kho dữ liệu của Stata Press. Bạn có thể tải nó về bằng một lệnh duy nhất.

Stata

* ==================================================
* MỤC ĐÍCH: Tải và chuẩn bị bộ dữ liệu Streptokinase
* KẾT QUẢ: File strepto.dta được lưu trong thư mục làm việc
* ==================================================

* Tải dữ liệu từ trang web của Stata Press
use https://www.stata-press.com/data/r16/strepto, clear

* Lưu lại để sử dụng cho các bài sau
save "strepto.dta", replace

* ==================================================
* MỤC ĐÍCH: Tải và chuẩn bị bộ dữ liệu Streptokinase
* KẾT QUẢ: File strepto.dta được lưu trong thư mục làm việc
* ==================================================

* Tải dữ liệu từ trang web của Stata Press
use https://www.stata-press.com/data/r16/strepto, clear

* Lưu lại để sử dụng cho các bài sau
save "strepto.dta", replace

Lưu ý: Bộ dữ liệu này đã được chuẩn bị sẵn cho lệnh meta esize. Các biến nsurvt, ndeadt là số người sống và chết trong nhóm điều trị; nsurvc, ndeadc là số người sống và chết trong nhóm đối chứng.

📚 Bài tiếp theo: Chẩn đoán bằng công cụ trực quan - Biểu đồ phễu

💡 Lưu ý: Hãy đảm bảo bạn đã chuẩn bị sẵn sàng các bộ dữ liệu cần thiết trước khi bắt đầu bài học đầu tiên.