Giới thiệu về so sánh sự khác biệt giữa các hệ số tương quan

Differences between Correlation Coefficients

Tổng quan về chuỗi bài học

Trong các phân tích kinh tế lượng, chúng ta thường không chỉ dừng lại ở câu hỏi “liệu có mối quan hệ nào giữa hai biến số hay không?”. Một câu hỏi sâu sắc và thú vị hơn thường nảy sinh: “Liệu mức độ của mối quan hệ này có mạnh hơn trong một nhóm này so với một nhóm khác không?”. Ví dụ, liệu mối tương quan giữa chi tiêu cho R&D và lợi nhuận có mạnh hơn ở các công ty công nghệ so với các công ty sản xuất truyền thống? Hay liệu độ tin cậy của một thang đo tâm lý mới có thực sự cao hơn một giá trị tiêu chuẩn đã biết? Đây là những câu hỏi so sánh, và chúng đòi hỏi một bộ công cụ phân tích hiệu năng riêng biệt.

Chuỗi bài học này sẽ giải quyết trực tiếp vấn đề kiểm định các giả thuyết liên quan đến sự khác biệt giữa các hệ số tương quan (correlation coefficients) trong tổng thể. Tuy nhiên, việc so sánh các hệ số tương quan ẩn chứa một vấn đề toán học tinh vi: sự khác biệt về giá trị tuyệt đối giữa hai hệ số tương quan không phản ánh đúng “sự khác biệt về khả năng phát hiện”. Ví dụ, việc phát hiện sự khác biệt giữa r=0.9 và r=0.65 (chênh lệch 0.25) lại dễ dàng hơn nhiều so với việc phát hiện sự khác biệt giữa r=0.5 và r=0.25 (cũng chênh lệch 0.25). Điều này cho thấy chúng ta cần một thước đo “chuẩn hóa” hơn. Giải pháp cho vấn đề này chính là phép biến đổi z của Fisher, một công cụ nền tảng sẽ là trọng tâm của chuỗi bài học này. Chúng ta sẽ cùng nhau tìm hiểu cách sử dụng phép biến đổi này để tạo ra một chỉ số độ ảnh hưởng hợp lý, từ đó thực hiện phân tích hiệu năng và tính toán cỡ mẫu một cách chính xác.

Cấu trúc chuỗi bài học

Để giúp các bạn nắm vững bộ công cụ quan trọng này, chúng ta sẽ đi qua từng khái niệm và trường hợp ứng dụng một cách có hệ thống, từ đơn giản đến phức tạp.

Phép biến đổi z của Fisher và độ ảnh hưởng q
Tìm hiểu lý do tại sao không thể so sánh trực tiếp các hệ số r, và khám phá phép biến đổi z của Fisher như một giải pháp, từ đó định nghĩa chỉ số độ ảnh hưởng q.
Phân tích hiệu năng khi so sánh hai hệ số tương quan (cỡ mẫu bằng nhau)
Tập trung vào trường hợp cơ bản nhất (Case 0), học cách sử dụng các bảng tra cứu hiệu năng và áp dụng lệnh power twocorrelations trong Stata.
Xử lý các trường hợp phức tạp: Cỡ mẫu lệch và một mẫu
Giải quyết các tình huống thực tế hơn: so sánh hai tương quan với cỡ mẫu khác nhau (Case 1) và so sánh một tương quan với một hằng số (Case 2).
Tính cỡ mẫu và ứng dụng trong kiểm định ý nghĩa
Tập trung vào các ứng dụng thực tiễn quan trọng nhất: xác định cỡ mẫu cần thiết khi lên kế hoạch nghiên cứu và sử dụng các giá trị tới hạn để kiểm định ý nghĩa.
Bài tổng hợp: Tổng quan về so sánh hệ số tương quan
Hệ thống hóa toàn bộ kiến thức, nhấn mạnh vai trò của phép biến đổi z và chỉ số q trong việc thiết kế và diễn giải các nghiên cứu khoa học một cách chính xác.

Kiến thức tiên quyết

Để tiếp thu tốt nhất nội dung của chuỗi bài học này, các bạn cần trang bị trước một số kiến thức nền tảng đã được đề cập trong các bài học trước.

Kiến thức cần có:

Hệ số tương quan Pearson: Hiểu rõ ý nghĩa, cách tính và cách diễn giải hệ số tương quan r.
Nguyên lý phân tích hiệu năng: Nắm vững các khái niệm về hiệu năng, độ ảnh hưởng, sai lầm loại I và II, và mối quan hệ giữa chúng.
Kiểm định giả thuyết: Quen thuộc với quy trình kiểm định giả thuyết cho một hệ số tương quan (kiểm định H₀: r = 0).
Kỹ năng Stata cơ bản: Biết cách nhập và quản lý dữ liệu, tính toán hệ số tương quan (lệnh corr) và vẽ biểu đồ phân tán (lệnh scatter).

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, bạn sẽ có khả năng giải quyết các câu hỏi nghiên cứu phức tạp hơn liên quan đến việc so sánh các mối quan hệ, một kỹ năng quan trọng trong nhiều lĩnh vực.

Giải thích được vấn đề: Trình bày được tại sao việc sử dụng hiệu số r₁ - r₂ làm độ ảnh hưởng là không phù hợp và sự cần thiết của phép biến đổi z của Fisher.
Tính toán độ ảnh hưởng: Có khả năng chuyển đổi các cặp hệ số tương quan (r₁, r₂) sang chỉ số độ ảnh hưởng q một cách chính xác.
Thực hiện phân tích hiệu năng: Sử dụng Stata để tính toán hiệu năng cho các kiểm định so sánh hai hệ số tương quan trong các kịch bản khác nhau (cỡ mẫu bằng nhau, khác nhau).
Xác định cỡ mẫu: Tính toán được cỡ mẫu cần thiết để có đủ hiệu năng phát hiện một sự khác biệt có ý nghĩa giữa hai hệ số tương quan.
Áp dụng cho trường hợp một mẫu: Biết cách điều chỉnh phương pháp để kiểm định giả thuyết rằng một hệ số tương quan bằng một giá trị cụ thể khác không.

Tài liệu tham khảo

Nội dung của chuỗi bài học này được xây dựng và chuyển ngữ chủ yếu dựa trên tài liệu kinh điển về phân tích hiệu năng thống kê, cụ thể là chương 4 của cuốn sách.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum Associates. Đây là tài liệu gốc cung cấp nền tảng lý thuyết, các công thức và các bảng tra cứu chi tiết được sử dụng trong chuỗi bài học.

Phụ lục: Dữ liệu mô phỏng cho chuỗi bài học

Để minh họa các khái niệm, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng về kết quả học tập của sinh viên. Bộ dữ liệu này sẽ giúp chúng ta trả lời câu hỏi: “Liệu mối tương quan giữa số giờ tự học và điểm GPA có khác nhau giữa sinh viên ngành Khoa học Tự nhiên (STEM) và sinh viên ngành Khoa học Xã hội (Social Sciences) không?”.

Bối cảnh: Chúng ta thu thập dữ liệu từ 100 sinh viên ngành STEM và 100 sinh viên ngành Khoa học Xã hội. Với mỗi sinh viên, chúng ta có thông tin về số giờ tự học trung bình mỗi tuần và điểm GPA cuối kỳ.

Hãy chạy đoạn code Stata dưới đây để tạo và lưu lại bộ dữ liệu student_performance.dta. Chúng ta sẽ sử dụng nó trong suốt các bài học tiếp theo.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng về hiệu suất học tập
* SỐ QUAN SÁT: 200 sinh viên (100 STEM, 100 Social Sciences)
* BIẾN SỐ:
*   - major: Ngành học (1=STEM, 2=Social Sciences)
*   - study_hours: Số giờ tự học trung bình/tuần
*   - gpa: Điểm GPA cuối kỳ
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 200
set seed 9876 // Đảm bảo kết quả mô phỏng giống nhau

* Tạo biến ngành học
gen major = 1
replace major = 2 in 101/200
label define major_lbl 1 "STEM" 2 "Social Sciences"
label values major major_lbl

* Tạo dữ liệu có tương quan cho mỗi nhóm
* Giả định:
* - Nhóm STEM (major=1): Tương quan giữa giờ học và GPA là r = 0.6
* - Nhóm Social Sciences (major=2): Tương quan giữa giờ học và GPA là r = 0.3
* Cả hai biến đều được chuẩn hóa với trung bình 0, độ lệch chuẩn 1 cho đơn giản

* Nhóm STEM
drawnorm temp_hours_stem temp_gpa_stem, n(100) corr(1, 0.6 \ 0.6, 1)

* Nhóm Social Sciences
drawnorm temp_hours_ss temp_gpa_ss, n(100) corr(1, 0.3 \ 0.3, 1)

* Kết hợp thành các biến cuối cùng
gen study_hours = .
gen gpa = .

replace study_hours = temp_hours_stem in 1/100
replace gpa = temp_gpa_stem in 1/100
replace study_hours = temp_hours_ss in 101/200
replace gpa = temp_gpa_ss in 101/200

* Chuyển đổi về thang đo thực tế hơn (tùy chọn, để dữ liệu trông thật hơn)
replace study_hours = round(study_hours * 5 + 15) // Giờ học từ ~0 đến 30
replace gpa = gpa * 0.5 + 3.0 // GPA từ ~1.0 đến 4.0
replace gpa = 4 if gpa > 4
replace gpa = 0 if gpa < 0

* Gán nhãn và xóa biến tạm
label variable major "Ngành học"
label variable study_hours "Số giờ tự học/tuần"
label variable gpa "Điểm GPA cuối kỳ"
drop temp*

* Lưu bộ dữ liệu
save "student_performance.dta", replace

* Xem qua dữ liệu và kiểm tra tương quan ban đầu
describe
by major, sort: correlate study_hours gpa

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng về hiệu suất học tập
* SỐ QUAN SÁT: 200 sinh viên (100 STEM, 100 Social Sciences)
* BIẾN SỐ:
*   - major: Ngành học (1=STEM, 2=Social Sciences)
*   - study_hours: Số giờ tự học trung bình/tuần
*   - gpa: Điểm GPA cuối kỳ
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 200
set seed 9876 // Đảm bảo kết quả mô phỏng giống nhau

* Tạo biến ngành học
gen major = 1
replace major = 2 in 101/200
label define major_lbl 1 "STEM" 2 "Social Sciences"
label values major major_lbl

* Tạo dữ liệu có tương quan cho mỗi nhóm
* Giả định:
* - Nhóm STEM (major=1): Tương quan giữa giờ học và GPA là r = 0.6
* - Nhóm Social Sciences (major=2): Tương quan giữa giờ học và GPA là r = 0.3
* Cả hai biến đều được chuẩn hóa với trung bình 0, độ lệch chuẩn 1 cho đơn giản

* Nhóm STEM
drawnorm temp_hours_stem temp_gpa_stem, n(100) corr(1, 0.6 \ 0.6, 1)

* Nhóm Social Sciences
drawnorm temp_hours_ss temp_gpa_ss, n(100) corr(1, 0.3 \ 0.3, 1)

* Kết hợp thành các biến cuối cùng
gen study_hours = .
gen gpa = .

replace study_hours = temp_hours_stem in 1/100
replace gpa = temp_gpa_stem in 1/100
replace study_hours = temp_hours_ss in 101/200
replace gpa = temp_gpa_ss in 101/200

* Chuyển đổi về thang đo thực tế hơn (tùy chọn, để dữ liệu trông thật hơn)
replace study_hours = round(study_hours * 5 + 15) // Giờ học từ ~0 đến 30
replace gpa = gpa * 0.5 + 3.0 // GPA từ ~1.0 đến 4.0
replace gpa = 4 if gpa > 4
replace gpa = 0 if gpa < 0

* Gán nhãn và xóa biến tạm
label variable major "Ngành học"
label variable study_hours "Số giờ tự học/tuần"
label variable gpa "Điểm GPA cuối kỳ"
drop temp*

* Lưu bộ dữ liệu
save "student_performance.dta", replace

* Xem qua dữ liệu và kiểm tra tương quan ban đầu
describe
by major, sort: correlate study_hours gpa

📚 Bài tiếp theo: Phép biến đổi z của Fisher và độ ảnh hưởng q

💡 Lưu ý: Hãy chắc chắn rằng bạn đã chạy đoạn code trên để tạo bộ dữ liệu. Trong bài học tiếp theo, chúng ta sẽ đi vào khái niệm lý thuyết quan trọng nhất của chuỗi bài này, làm nền tảng cho mọi phân tích sau đó.