Giới thiệu về phân tích hồi quy và tương quan bội

Introduction to Multiple Regression and Correlation Analysis

Tổng quan về chuỗi bài học

Chào mừng các bạn sinh viên đến với một trong những hệ thống phân tích dữ liệu mạnh mẽ, linh hoạt và quan trọng nhất trong kinh tế lượng hiện đại: Phân tích Hồi quy và Tương quan Bội (Multiple Regression and Correlation – MRC). Nếu các phương pháp chúng ta đã học trước đây như kiểm định t hay phân tích tương quan đơn giúp trả lời các câu hỏi về mối quan hệ giữa hai biến, thì MRC mở ra một chân trời hoàn toàn mới, cho phép chúng ta nghiên cứu mối quan hệ giữa một biến phụ thuộc (Y) và nhiều biến độc lập (IVs) cùng một lúc. Sức mạnh của MRC không chỉ nằm ở khả năng xử lý nhiều biến, mà còn ở tính tổng quát phi thường của nó.

Trong cách tiếp cận “kiểu mới”, MRC không còn bị giới hạn trong vai trò dự báo truyền thống. Nó đã trở thành một hệ thống phân tích toàn diện có khả năng bao hàm cả Phân tích Phương sai (ANOVA) và Phân tích Hiệp phương sai (ANCOVA) như những trường hợp đặc biệt. Điều này có nghĩa là, dù bạn đang so sánh giá trị trung bình giữa các nhóm, kiểm soát ảnh hưởng của một biến thứ ba, hay xây dựng một mô hình dự báo phức tạp, tất cả đều có thể được thực hiện và hiểu thông qua lăng kính của MRC. Chuỗi bài học này sẽ trang bị cho bạn một bộ công cụ hoàn chỉnh để thực hiện phân tích hiệu năng cho các kiểm định F trong MRC. Chúng ta sẽ học cách định nghĩa một độ ảnh hưởng mới, $f^2$, và làm quen với một khái niệm trung gian quan trọng là tham số phi tâm tâm ($\lambda$). Việc nắm vững những kỹ thuật này sẽ cho phép bạn thiết kế các nghiên cứu phức tạp một cách khoa học, đảm bảo rằng bạn có đủ hiệu năng để phát hiện các mối quan hệ có ý nghĩa và đóng góp thực sự cho tri thức khoa học.

Cấu trúc chuỗi bài học

Để chinh phục được một chủ đề lớn và quan trọng như MRC, chúng ta sẽ đi theo một lộ trình có cấu trúc rõ ràng, xây dựng kiến thức từ những viên gạch nền tảng nhất cho đến các ứng dụng phức tạp và tổng quát nhất.

Giới thiệu hồi quy bội và độ ảnh hưởng f²
Hiểu MRC như một hệ thống phân tích tổng quát, làm chủ khái niệm độ ảnh hưởng $f^2$ như một tỷ lệ tín hiệu-trên-nhiễu.
Phân tích hiệu năng cho kiểm định R² tổng thể (Case 0)
Tập trung vào trường hợp cơ bản nhất: kiểm định ý nghĩa của toàn bộ mô hình hồi quy và học quy trình phân tích hiệu năng qua tham số $\lambda$.
Phân tích hiệu năng cho sự đóng góp thêm của biến (Case 1)
Học cách kiểm định xem một nhóm biến mới có đóng góp thêm ý nghĩa vào việc giải thích phương sai hay không (kiểm định $\Delta R^2$).
Phân tích hiệu năng trong các mô hình có biến kiểm soát (Case 2)
Khám phá trường hợp tổng quát nhất, nơi chúng ta sử dụng các biến kiểm soát (covariates) để tăng hiệu năng của kiểm định.
Xác định cỡ mẫu trong hồi quy bội
Vận dụng tất cả kiến thức đã học để giải quyết bài toán quan trọng nhất: cần bao nhiêu quan sát để thiết kế một nghiên cứu hồi quy mạnh mẽ.
Bài tổng hợp: Tổng hợp nâng cao về phân tích hiệu năng trong MRC
Hệ thống hóa và so sánh ba trường hợp phân tích, cung cấp một cái nhìn tổng quan và định hướng cho các ứng dụng thực tế.

Kiến thức tiên quyết

MRC là một sự tổng hợp và mở rộng của nhiều khái niệm thống kê cơ bản. Để có thể tiếp thu tốt nhất chuỗi bài học này, các bạn cần có một nền tảng vững chắc về các chủ đề sau:

Để bắt đầu, bạn cần:

Hồi quy tuyến tính đơn: Hiểu rõ về các khái niệm như hệ số chặn, hệ số góc, và đặc biệt là hệ số xác định $R^2$.
Phân tích phương sai (ANOVA): Quen thuộc với kiểm định F, khái niệm về tổng bình phương (sum of squares), và bậc tự do.
Lý thuyết kiểm định giả thuyết: Nắm vững về giả thuyết gốc, giả thuyết thay thế, mức ý nghĩa (α), và hiệu năng thống kê (1-β).
Đại số ma trận cơ bản: Có hiểu biết sơ lược về véc-tơ và ma trận sẽ là một lợi thế, mặc dù không bắt buộc.
Kinh nghiệm Stata: Biết cách chạy lệnh regress và diễn giải kết quả đầu ra cơ bản.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, bạn sẽ sở hữu một bộ kỹ năng toàn diện để không chỉ thực hiện mà còn lập kế hoạch và đánh giá các nghiên cứu sử dụng hồi quy bội một cách chuyên nghiệp.

Hiểu được tính tổng quát của MRC: Giải thích được tại sao ANOVA và ANCOVA có thể được xem là các trường hợp đặc biệt của hồi quy bội.
Tính toán và diễn giải độ ảnh hưởng $f^2$: Có khả năng chuyển đổi từ các giá trị $R^2$ sang $f^2$ cho các kịch bản nghiên cứu khác nhau (Case 0, 1, và 2).
Xác định hiệu năng thông qua tham số $\lambda$: Nắm vững quy trình tính toán tham số phi tâm tâm $\lambda$ và sử dụng nó để tra cứu hiệu năng từ các bảng chuyên dụng.
Phân biệt các loại kiểm định trong MRC: Nhận biết và áp dụng đúng phương pháp phân tích hiệu năng cho kiểm định $R^2$ tổng thể, kiểm định sự gia tăng $R^2$, và các kiểm định có biến kiểm soát.
Ước tính cỡ mẫu cần thiết: Có khả năng lập kế hoạch cỡ mẫu cho một nghiên cứu hồi quy để đạt được mức hiệu năng mong muốn.

Tài liệu tham khảo

Kiến thức trình bày trong chuỗi bài học này chủ yếu được đúc kết từ các công trình kinh điển, nền tảng của phân tích hồi quy và hiệu năng thống kê hiện đại.

Cohen, J., & Cohen, P. (1983). Applied multiple regression/correlation analysis for the behavioral sciences (2nd ed.). Đây là tài liệu tham khảo sâu rộng và toàn diện nhất về hệ thống MRC, là nguồn tham khảo chính cho tài liệu gốc.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Cuốn sách cốt lõi cho toàn bộ các chuỗi bài học về phân tích hiệu năng, với Chương 9 là trọng tâm của chuỗi bài này.
Pedhazur, E. J. (1982). Multiple regression in behavioral research: Explanation and prediction (2nd ed.). Một tài liệu tham khảo xuất sắc khác cung cấp những giải thích rõ ràng và sâu sắc về hồi quy bội.

Phụ lục: Dữ liệu mô phỏng cho chuỗi bài học

Để minh họa cho tính linh hoạt của MRC, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng về tiền lương, bao gồm cả biến định lượng và biến định tính. Bộ dữ liệu này mô phỏng thông tin của 200 nhân viên.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học MRC
* NGUỒN DỮ LIỆU: Dữ liệu mô phỏng cho 200 nhân viên
* BIẾN SỐ:
*   - wage: Lương tháng (triệu VND)
*   - education: Số năm đi học
*   - experience: Số năm kinh nghiệm
*   - gender: Giới tính (1=Nam, 0=Nữ)
* ==================================================

* Bước 1: Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 200
set seed 2024

* Bước 2: Tạo các biến độc lập
* Tạo biến education (học vấn)
gen education = rpoisson(12) + 8 // Phân phối quanh 12 năm
label var education "Số năm đi học"

* Tạo biến experience (kinh nghiệm)
gen experience = runiformint(1, 25)
label var experience "Số năm kinh nghiệm làm việc"

* Tạo biến gender (giới tính)
gen gender = rbinomial(1, 0.5)
label define gender_lbl 0 "Nữ" 1 "Nam"
label values gender gender_lbl
label var gender "Giới tính"

* Bước 3: Tạo biến phụ thuộc (wage)
* Giả sử lương phụ thuộc vào học vấn, kinh nghiệm, và giới tính
gen wage = 5 + 1.5*education + 0.8*experience + 2*gender + rnormal(0, 4)
label var wage "Lương tháng (triệu VND)"

* Bước 4: Lưu bộ dữ liệu để sử dụng
compress
save "mrc_wage_data.dta", replace

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học MRC
* NGUỒN DỮ LIỆU: Dữ liệu mô phỏng cho 200 nhân viên
* BIẾN SỐ:
*   - wage: Lương tháng (triệu VND)
*   - education: Số năm đi học
*   - experience: Số năm kinh nghiệm
*   - gender: Giới tính (1=Nam, 0=Nữ)
* ==================================================

* Bước 1: Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 200
set seed 2024

* Bước 2: Tạo các biến độc lập
* Tạo biến education (học vấn)
gen education = rpoisson(12) + 8 // Phân phối quanh 12 năm
label var education "Số năm đi học"

* Tạo biến experience (kinh nghiệm)
gen experience = runiformint(1, 25)
label var experience "Số năm kinh nghiệm làm việc"

* Tạo biến gender (giới tính)
gen gender = rbinomial(1, 0.5)
label define gender_lbl 0 "Nữ" 1 "Nam"
label values gender gender_lbl
label var gender "Giới tính"

* Bước 3: Tạo biến phụ thuộc (wage)
* Giả sử lương phụ thuộc vào học vấn, kinh nghiệm, và giới tính
gen wage = 5 + 1.5*education + 0.8*experience + 2*gender + rnormal(0, 4)
label var wage "Lương tháng (triệu VND)"

* Bước 4: Lưu bộ dữ liệu để sử dụng
compress
save "mrc_wage_data.dta", replace

Hướng dẫn: Các bạn hãy sao chép và chạy đoạn code trên trong Stata để tạo file dữ liệu mrc_wage_data.dta. Bộ dữ liệu này sẽ là công cụ thực hành chính của chúng ta, cho phép chúng ta khám phá các loại kiểm định khác nhau trong khuôn khổ MRC.

📚 Bài tiếp theo: Giới thiệu Hồi quy Bội và độ ảnh hưởng f²

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.