Nghịch lý Simpson và tại sao không nên gộp dữ liệu thô Simpson’s paradox and why you should not pool raw data Khi gộp lại cho kết quả tồi tệ hơn Chào mừng các bạn quay trở lại với chuỗi bài học của chúng ta. Trong bài học trước, chúng ta đã khẳng định tầm quan trọng của việc tập trung vào kích thước hiệu ứng. Một quy trình chuẩn của phân tích tổng hợp là: tính toán kích thước hiệu ứng cho từng nghiên cứu, sau đó tính trung bình có trọng số của các kích thước hiệu ứng đó. Một câu hỏi tự nhiên có thể nảy ra: “Tại sao chúng ta phải làm phức tạp như vậy? Tại sao không gộp tất cả dữ liệu thô từ các nghiên cứu lại thành một bảng dữ liệu khổng lồ, rồi tính một kích thước hiệu ứng duy nhất từ bảng dữ liệu gộp đó?”. Thoạt nghe, cách tiếp cận “gộp dữ liệu” có vẻ trực quan và đơn giản hơn. Tuy nhiên, nó ẩn chứa một trong …