Giới thiệu về phân tích sự khác biệt giữa các tỷ lệ

Introduction to The Analysis of Differences Between Proportions

Tổng quan về chuỗi bài học

Chào mừng các bạn sinh viên đến với một chủ đề vô cùng phổ biến và hữu ích trong nghiên cứu thực nghiệm: phân tích sự khác biệt giữa các tỷ lệ. Trong thực tế, chúng ta thường xuyên đối mặt với những câu hỏi so sánh dạng này: Tỷ lệ cử tri ủng hộ ứng cử viên A có khác biệt so với ứng cử viên B không? Tỷ lệ bệnh nhân hồi phục sau khi dùng thuốc mới có cao hơn so với nhóm dùng giả dược không? Hay một chiến dịch quảng cáo mới có làm tăng tỷ lệ khách hàng mua sản phẩm so với chiến dịch cũ không? Tất cả những câu hỏi này đều quy về việc kiểm định giả thuyết về sự khác biệt giữa hai hay nhiều tỷ lệ (proportions) trong tổng thể.

Tuy nhiên, việc so sánh các tỷ lệ không đơn giản như việc lấy hiệu số của chúng. Một sự khác biệt 0.20 giữa 0.65 và 0.45 không giống với sự khác biệt 0.20 giữa 0.25 và 0.05 về mặt khả năng phát hiện thống kê. Chuỗi bài học này sẽ giới thiệu đến các bạn một phương pháp tiếp cận mạnh mẽ và chuẩn xác hơn thông qua phép biến đổi arcsin. Kỹ thuật này giúp chúng ta chuyển đổi các giá trị tỷ lệ sang một thang đo mới, nơi mà sự khác biệt có thể được đánh giá một cách nhất quán. Chúng ta sẽ học cách sử dụng một chỉ số độ ảnh hưởng mới, ký hiệu là `h, để định lượng sự khác biệt này. Từ đó, chúng ta sẽ đi sâu vào phân tích hiệu năng và xác định cỡ mẫu, những kỹ năng tối quan trọng giúp bạn thiết kế các cuộc khảo sát, thí nghiệm A/B, hay các nghiên cứu y học một cách khoa học và hiệu quả, đảm bảo rằng nghiên cứu của bạn đủ mạnh để đưa ra những kết luận đáng tin cậy.

Cấu trúc chuỗi bài học

Để giúp các bạn nắm vững phương pháp tiếp cận này, chuỗi bài học được cấu trúc theo một lộ trình logic, từ việc hiểu rõ vấn đề cho đến việc áp dụng vào các tình huống nghiên cứu cụ thể.

Nền tảng về phép biến đổi arcsin và độ ảnh hưởng h
Hiểu tại sao so sánh tỷ lệ trực tiếp lại có vấn đề, làm chủ phép biến đổi arcsin và định nghĩa chỉ số h như một thước đo ES chuẩn hóa.
Phân tích hiệu năng cho so sánh tỷ lệ (trường hợp cỡ mẫu bằng nhau)
Tập trung vào trường hợp phổ biến nhất (n₁ = n₂), học cách sử dụng bảng tra cứu để xác định hiệu năng của một kiểm định với các giá trị h khác nhau.
Phân tích hiệu năng cho các trường hợp cỡ mẫu khác nhau và một mẫu
Mở rộng phương pháp cho các tình huống thực tế phức tạp hơn, bao gồm so sánh hai nhóm có cỡ mẫu khác nhau và so sánh một nhóm với một giá trị lý thuyết.
Xác định cỡ mẫu và ứng dụng trong lập kế hoạch nghiên cứu
Vận dụng toàn bộ kiến thức để trả lời câu hỏi quan trọng nhất: “Cần bao nhiêu quan sát?” và học cách dùng bảng để kiểm định ý nghĩa sau khi thu thập dữ liệu.
Bài tổng hợp: Tổng hợp nâng cao về phân tích sự khác biệt giữa các tỷ lệ
Hệ thống hóa tất cả các khái niệm, so sánh các trường hợp và xây dựng một quy trình làm việc hoàn chỉnh cho các dự án nghiên cứu của bạn.

Kiến thức tiên quyết

Để tiếp thu tốt nhất nội dung của chuỗi bài học này, các bạn cần trang bị trước một số kiến thức nền tảng về thống kê suy luận. Những khái niệm này sẽ giúp bạn dễ dàng kết nối với các kỹ thuật mới được giới thiệu.

Để bắt đầu, bạn cần:

Hiểu rõ về khái niệm tỷ lệ và cách tính toán chúng từ dữ liệu tần số.
Nắm vững các nguyên tắc của kiểm định giả thuyết: giả thuyết gốc (null hypothesis), giả thuyết thay thế (alternative hypothesis), và p-value.
Quen thuộc với các khái niệm từ chuỗi bài trước: độ ảnh hưởng (effect size), hiệu năng thống kê (statistical power), và tầm quan trọng của việc xác định cỡ mẫu.
Kinh nghiệm cơ bản với Stata, đặc biệt là các lệnh liên quan đến thống kê tóm tắt và kiểm định cơ bản.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, bạn sẽ có khả năng thiết kế và phân tích các nghiên cứu so sánh tỷ lệ một cách chuyên nghiệp và chặt chẽ. Cụ thể, bạn sẽ có thể:

Giải thích được hạn chế của việc so sánh hiệu số tỷ lệ thô và sự cần thiết của phép biến đổi arcsin.
Định nghĩa và diễn giải chỉ số độ ảnh hưởng h cho sự khác biệt giữa các tỷ lệ.
Sử dụng các bảng tra cứu để xác định hiệu năng của một kiểm định so sánh tỷ lệ cho các kịch bản nghiên cứu khác nhau (cỡ mẫu bằng nhau, khác nhau, một mẫu).
Tính toán cỡ mẫu cần thiết để đạt được một mức hiệu năng mong muốn nhằm phát hiện một độ ảnh hưởng h cụ thể.
Áp dụng các bảng tra cứu để thực hiện kiểm định ý nghĩa thống kê cho sự khác biệt giữa các tỷ lệ sau khi đã thu thập dữ liệu.

Tài liệu tham khảo

Nội dung của chuỗi bài học này được phát triển chủ yếu dựa trên kiến thức từ tài liệu kinh điển của Jacob Cohen, một nguồn tài liệu nền tảng cho bất kỳ ai muốn tìm hiểu sâu về hiệu năng thống kê.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Đây là tài liệu cốt lõi, đặc biệt là Chương 6, cung cấp toàn bộ lý thuyết và các bảng tra cứu được sử dụng trong chuỗi bài học.
Owen, D. B. (1962). Handbook of statistical tables. Nguồn gốc của các bảng biến đổi arcsin và các giá trị thống kê chi tiết khác được tham chiếu trong sách của Cohen.
Hays, W. L. (1981). Statistics (3rd ed.). Cung cấp kiến thức nền tảng về các phương pháp kiểm định tỷ lệ truyền thống như Fisher’s Exact Method.

Phụ lục: Dữ liệu mô phỏng cho chuỗi bài học

Để thực hành các khái niệm trong chuỗi bài học, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng về một thử nghiệm A/B trong marketing. Giả sử một công ty thương mại điện tử muốn so sánh tỷ lệ chuyển đổi (tỷ lệ khách truy cập mua hàng) giữa hai thiết kế trang web khác nhau (Thiết kế A – nhóm đối chứng, và Thiết kế B – nhóm thử nghiệm).

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho thử nghiệm A/B
* NGUỒN DỮ LIỆU: Dữ liệu mô phỏng cho 200 khách truy cập
* BIẾN SỐ:
*   - thiet_ke: Nhóm thiết kế (0 = A, 1 = B)
*   - mua_hang: Khách có mua hàng không (1 = có, 0 = không)
* ==================================================

* Bước 1: Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 200
set seed 1988 // Đặt seed để kết quả có thể tái lập

* Bước 2: Tạo biến nhóm (100 người cho mỗi thiết kế)
generate thiet_ke = cond(_n <= 100, 0, 1)
label define thiet_ke_lbl 0 "Thiết kế A" 1 "Thiết kế B"
label values thiet_ke thiet_ke_lbl
label variable thiet_ke "Nhóm thiết kế trang web"

* Bước 3: Tạo biến kết quả (mua_hang)
* Giả sử tỷ lệ chuyển đổi của Thiết kế A là 45%
* Giả sử tỷ lệ chuyển đổi của Thiết kế B là 65%
generate mua_hang = 0
replace mua_hang = 1 if thiet_ke == 0 & runiform() < 0.45
replace mua_hang = 1 if thiet_ke == 1 & runiform() < 0.65
label variable mua_hang "Khách hàng có mua hàng không"

* Bước 4: Lưu bộ dữ liệu để sử dụng
compress
save "ab_test_data.dta", replace

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho thử nghiệm A/B
* NGUỒN DỮ LIỆU: Dữ liệu mô phỏng cho 200 khách truy cập
* BIẾN SỐ:
*   - thiet_ke: Nhóm thiết kế (0 = A, 1 = B)
*   - mua_hang: Khách có mua hàng không (1 = có, 0 = không)
* ==================================================

* Bước 1: Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 200
set seed 1988 // Đặt seed để kết quả có thể tái lập

* Bước 2: Tạo biến nhóm (100 người cho mỗi thiết kế)
generate thiet_ke = cond(_n <= 100, 0, 1)
label define thiet_ke_lbl 0 "Thiết kế A" 1 "Thiết kế B"
label values thiet_ke thiet_ke_lbl
label variable thiet_ke "Nhóm thiết kế trang web"

* Bước 3: Tạo biến kết quả (mua_hang)
* Giả sử tỷ lệ chuyển đổi của Thiết kế A là 45%
* Giả sử tỷ lệ chuyển đổi của Thiết kế B là 65%
generate mua_hang = 0
replace mua_hang = 1 if thiet_ke == 0 & runiform() < 0.45
replace mua_hang = 1 if thiet_ke == 1 & runiform() < 0.65
label variable mua_hang "Khách hàng có mua hàng không"

* Bước 4: Lưu bộ dữ liệu để sử dụng
compress
save "ab_test_data.dta", replace

Hướng dẫn: Các bạn hãy sao chép và chạy đoạn code trên trong Stata để tạo file dữ liệu ab_test_data.dta. Bộ dữ liệu này sẽ được sử dụng trong các bài thực hành sắp tới để minh họa cách tính toán và diễn giải sự khác biệt giữa các tỷ lệ.

📚 Bài tiếp theo: Nền tảng về phép biến đổi Arcsin và độ ảnh hưởng h

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.