Giới thiệu về kiểm định Chi-bình phương cho độ phù hợp và bảng chéo

Chi-square tests for Goodness of Fit and Contingency tables

Tổng quan về chuỗi bài học

Trong các chuỗi bài học trước, chúng ta đã tập trung vào các công cụ phân tích dành cho dữ liệu liên tục, chẳng hạn như so sánh các giá trị trung bình hay các hệ số tương quan. Tuy nhiên, thế giới dữ liệu trong kinh tế và khoa học xã hội vô cùng phong phú, và rất nhiều khi, thông tin chúng ta có lại ở dạng tần số hoặc tỷ lệ—dữ liệu định danh. Ví dụ, chúng ta có thể muốn biết liệu thị phần của các thương hiệu có khác biệt so với kỳ vọng hay không, hoặc liệu có mối liên hệ nào giữa trình độ học vấn (ví dụ: THPT, Đại học, Sau Đại học) và lựa chọn ngành nghề. Để trả lời những câu hỏi như vậy, chúng ta cần một công cụ thống kê mạnh mẽ và linh hoạt: đó chính là kiểm định Chi-bình phương ($\chi^2$).

Chuỗi bài học này sẽ đưa chúng ta vào thế giới của việc phân tích dữ liệu tần số. Chúng ta sẽ khám phá hai ứng dụng chính của kiểm định Chi-bình phương. Thứ nhất là Kiểm định độ phù hợp, giúp chúng ta so sánh một phân phối tần số quan sát được từ mẫu với một phân phối lý thuyết hoặc kỳ vọng nào đó. Thứ hai, và có lẽ phổ biến hơn, là Kiểm định tính độc lập trong bảng chéo, cho phép chúng ta kiểm tra xem có mối liên hệ (association) nào giữa hai biến định danh hay không. Để thực hiện phân tích hiệu năng cho các kiểm định này, chúng ta sẽ làm quen với một chỉ số độ ảnh hưởng mới, ký hiệu là w, được thiết kế đặc biệt để đo lường “mức độ sai lệch” giữa hai phân phối tỷ lệ. Hãy cùng nhau khám phá cách sử dụng bộ công cụ này để rút ra những kết luận có ý nghĩa từ dữ liệu định danh.

Cấu trúc chuỗi bài học

Để giúp các bạn nắm vững một trong những kiểm định phi tham số phổ biến nhất, chuỗi bài học sẽ được cấu trúc một cách logic, đi từ các khái niệm cơ bản đến các ứng dụng thực hành cụ thể.

Độ ảnh hưởng w và kiểm định độ phù hợp (Case 0)
Tìm hiểu cách định lượng sự khác biệt giữa các phân phối tỷ lệ bằng chỉ số w và áp dụng nó vào trường hợp kiểm định độ phù hợp (Goodness of Fit).
Phân tích hiệu năng cho kiểm định tính độc lập trong bảng chéo (Case 1)
Khám phá cách tính w và phân tích hiệu năng cho các bảng chéo, đồng thời tìm hiểu mối liên hệ của w với các thước đo liên hợp quen thuộc khác.
Tính hiệu năng và cỡ mẫu với Stata
Tập trung vào thực hành với lệnh power pchi trong Stata để tính toán hiệu năng và xác định cỡ mẫu cần thiết cho cả hai loại kiểm định Chi-bình phương.
Bài tổng hợp: Tổng quan về kiểm định Chi-bình phương
Hệ thống hóa toàn bộ kiến thức, so sánh và đối chiếu hai loại kiểm định, và nhấn mạnh vai trò của chỉ số w như một thước đo chung cho dữ liệu tần số.

Kiến thức tiên quyết

Để có thể theo dõi tốt nhất chuỗi bài học này, các bạn cần có sự chuẩn bị trước một số kiến thức nền tảng về thống kê và dữ liệu.

Kiến thức cần có:

Dữ liệu định danh: Phân biệt được dữ liệu định danh (nominal) và dữ liệu thứ bậc (ordinal) với dữ liệu liên tục (continuous).
Tần số và Tỷ lệ: Hiểu rõ các khái niệm về tần số (frequency), tần suất (relative frequency) và tỷ lệ (proportion).
Nguyên lý kiểm định giả thuyết: Nắm vững logic của giả thuyết không (H₀), giả thuyết đối (H₁), và p-value.
Bảng chéo (Contingency Table): Biết cách đọc và hiểu một bảng tần số hai chiều.
Stata cơ bản: Quen thuộc với lệnh tabulate để tạo bảng tần số.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, bạn sẽ có khả năng phân tích một cách toàn diện các mối quan hệ trong dữ liệu định danh, một kỹ năng thiết yếu trong nghiên cứu thị trường, xã hội học và nhiều lĩnh vực khác.

Phân biệt rõ ràng: Trình bày được sự khác biệt về mục đích và giả thuyết không giữa Kiểm định độ phù hợp và Kiểm định tính độc lập.
Tính toán và diễn giải w: Có khả năng tính toán chỉ số độ ảnh hưởng w từ các phân phối tỷ lệ cho trước và hiểu được ý nghĩa của nó.
Thực hiện phân tích hiệu năng: Sử dụng Stata để tính toán hiệu năng cho các kiểm định Chi-bình phương dựa trên các tham số như cỡ mẫu, bậc tự do, và độ ảnh hưởng w.
Xác định cỡ mẫu: Tính toán được tổng cỡ mẫu (N) cần thiết để một nghiên cứu có đủ hiệu năng phát hiện ra một hiệu ứng có ý nghĩa.
Liên kết các khái niệm: Hiểu được mối quan hệ giữa w và các thước đo liên hợp khác như hệ số C của Pearson và φ' của Cramér.

Tài liệu tham khảo

Nội dung của chuỗi bài học này được xây dựng và chuyển ngữ chủ yếu dựa trên tài liệu kinh điển về phân tích hiệu năng thống kê, cụ thể là chương 7 của cuốn sách.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum Associates. Đây là tài liệu gốc cung cấp nền tảng lý thuyết, công thức tính w, và các bảng tra cứu chi tiết được sử dụng trong chuỗi bài học.

Phụ lục: Dữ liệu mô phỏng cho chuỗi bài học

Để minh họa cho cả hai loại kiểm định, chúng ta sẽ tạo ra một bộ dữ liệu mô phỏng về sự ưa thích của người tiêu dùng đối với bốn mẫu thiết kế bao bì sản phẩm mới (A, B, C, D), được khảo sát ở ba khu vực địa lý khác nhau (Bắc, Trung, Nam).

Bối cảnh: Một công ty tiến hành khảo sát 300 người tiêu dùng, mỗi người chọn một trong bốn mẫu thiết kế họ ưa thích nhất. Dữ liệu cũng ghi nhận khu vực sinh sống của người trả lời.

Hãy chạy đoạn code Stata dưới đây để tạo và lưu lại bộ dữ liệu product_preference.dta. Chúng ta sẽ sử dụng nó trong suốt các bài học tiếp theo.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng về lựa chọn sản phẩm
* SỐ QUAN SÁT: 300 người tiêu dùng
* BIẾN SỐ:
*   - region: Khu vực (1=Bắc, 2=Trung, 3=Nam)
*   - preference: Mẫu thiết kế ưa thích (1=A, 2=B, 3=C, 4=D)
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 300
set seed 2024

* Tạo biến khu vực (100 người mỗi khu vực)
gen region = 1
replace region = 2 in 101/200
replace region = 3 in 201/300

* Tạo biến sở thích dựa trên một phân phối giả định
* Giả định có sự liên kết:
* - Miền Bắc: Thích mẫu A và B
* - Miền Trung: Thích mẫu C
* - Miền Nam: Thích mẫu D
gen preference = .
runiform() // Khởi tạo biến ngẫu nhiên

* Gán sở thích cho Miền Bắc (ưu tiên A, B)
replace preference = 1 if region==1 & runiform() <= 0.4  // 40%
replace preference = 2 if region==1 & preference==. & runiform() <= 0.6667 // 40% của 60% còn lại
replace preference = 3 if region==1 & preference==. & runiform() <= 0.5 // 10% của 20% còn lại
replace preference = 4 if region==1 & preference==. // 10% cuối cùng

* Gán sở thích cho Miền Trung (ưu tiên C)
replace preference = 3 if region==2 & runiform() <= 0.5 // 50%
replace preference = 1 if region==2 & preference==. & runiform() <= 0.4 // 20%
replace preference = 2 if region==2 & preference==. & runiform() <= 0.5 // 15%
replace preference = 4 if region==2 & preference==. // 15%

* Gán sở thích cho Miền Nam (ưu tiên D)
replace preference = 4 if region==3 & runiform() <= 0.6 // 60%
replace preference = 1 if region==3 & preference==. & runiform() <= 0.375 // 15%
replace preference = 2 if region==3 & preference==. & runiform() <= 0.4 // 10%
replace preference = 3 if region==3 & preference==. // 15%

* Gán nhãn cho các biến
label define region_lbl 1 "Bắc" 2 "Trung" 3 "Nam"
label values region region_lbl
label define pref_lbl 1 "Mẫu A" 2 "Mẫu B" 3 "Mẫu C" 4 "Mẫu D"
label values preference pref_lbl

label variable region "Khu vực"
label variable preference "Mẫu thiết kế ưa thích"

* Lưu bộ dữ liệu
save "product_preference.dta", replace

* Xem qua dữ liệu và bảng chéo ban đầu
describe
tabulate preference region, chi2

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng về lựa chọn sản phẩm
* SỐ QUAN SÁT: 300 người tiêu dùng
* BIẾN SỐ:
*   - region: Khu vực (1=Bắc, 2=Trung, 3=Nam)
*   - preference: Mẫu thiết kế ưa thích (1=A, 2=B, 3=C, 4=D)
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 300
set seed 2024

* Tạo biến khu vực (100 người mỗi khu vực)
gen region = 1
replace region = 2 in 101/200
replace region = 3 in 201/300

* Tạo biến sở thích dựa trên một phân phối giả định
* Giả định có sự liên kết:
* - Miền Bắc: Thích mẫu A và B
* - Miền Trung: Thích mẫu C
* - Miền Nam: Thích mẫu D
gen preference = .
runiform() // Khởi tạo biến ngẫu nhiên

* Gán sở thích cho Miền Bắc (ưu tiên A, B)
replace preference = 1 if region==1 & runiform() <= 0.4  // 40%
replace preference = 2 if region==1 & preference==. & runiform() <= 0.6667 // 40% của 60% còn lại
replace preference = 3 if region==1 & preference==. & runiform() <= 0.5 // 10% của 20% còn lại
replace preference = 4 if region==1 & preference==. // 10% cuối cùng

* Gán sở thích cho Miền Trung (ưu tiên C)
replace preference = 3 if region==2 & runiform() <= 0.5 // 50%
replace preference = 1 if region==2 & preference==. & runiform() <= 0.4 // 20%
replace preference = 2 if region==2 & preference==. & runiform() <= 0.5 // 15%
replace preference = 4 if region==2 & preference==. // 15%

* Gán sở thích cho Miền Nam (ưu tiên D)
replace preference = 4 if region==3 & runiform() <= 0.6 // 60%
replace preference = 1 if region==3 & preference==. & runiform() <= 0.375 // 15%
replace preference = 2 if region==3 & preference==. & runiform() <= 0.4 // 10%
replace preference = 3 if region==3 & preference==. // 15%

* Gán nhãn cho các biến
label define region_lbl 1 "Bắc" 2 "Trung" 3 "Nam"
label values region region_lbl
label define pref_lbl 1 "Mẫu A" 2 "Mẫu B" 3 "Mẫu C" 4 "Mẫu D"
label values preference pref_lbl

label variable region "Khu vực"
label variable preference "Mẫu thiết kế ưa thích"

* Lưu bộ dữ liệu
save "product_preference.dta", replace

* Xem qua dữ liệu và bảng chéo ban đầu
describe
tabulate preference region, chi2

📚 Bài tiếp theo: độ ảnh hưởng w và kiểm định độ phù hợp (Case 0)

💡 Lưu ý: Hãy đảm bảo bạn đã chạy code để tạo bộ dữ liệu. Trong bài học tới, chúng ta sẽ sử dụng dữ liệu tổng hợp của biến preference để thực hiện kiểm định độ phù hợp đầu tiên, một bước khởi đầu hoàn hảo để làm quen với chỉ số w.