Phân tích tương tác giữa các biến phân loại: Hướng dẫn toàn diện

A Comprehensive guide to Categorical by Categorical Interactions

Khám phá sức mạnh của các mối quan hệ phụ thuộc

Trong thế giới thực, các mối quan hệ kinh tế hiếm khi đơn giản. Hiệu quả của một chính sách giáo dục có thể khác nhau giữa nam và nữ, tác động của một liệu pháp điều trị có thể phụ thuộc vào tình trạng bệnh lý ban đầu của bệnh nhân, và sự thành công của một chiến dịch marketing có thể thay đổi theo nhóm tuổi khách hàng. Những tình huống này, nơi tác động của một biến số thay đổi tùy thuộc vào giá trị của một biến số khác, chính là bản chất của “tương tác”. Việc hiểu và phân tích các tương tác, đặc biệt là giữa các biến phân loại (như giới tính, nhóm điều trị, trình độ học vấn), là một kỹ năng cốt lõi trong kinh tế lượng ứng dụng. Nó cho phép chúng ta vượt ra ngoài các phân tích tác động trung bình để khám phá những hiểu biết sâu sắc và đa sắc thái hơn về dữ liệu.

Tuy nhiên, việc phân tích tương tác không chỉ dừng lại ở việc xác định xem nó có ý nghĩa thống kê hay không. Thách thức thực sự nằm ở việc “mổ xẻ” (dissecting) tương tác đó để hiểu rõ bản chất của nó. Giống như một người thợ máy tháo rời động cơ để hiểu cách từng bộ phận hoạt động, chúng ta cũng cần các công cụ để “tháo rời” một tương tác thống kê phức tạp. Chuỗi bài viết này sẽ trang bị cho các bạn một bộ công cụ toàn diện trong Stata để làm điều đó. Chúng ta sẽ bắt đầu từ những trường hợp đơn giản nhất, như tương tác 2×2, và dần dần tiến tới các thiết kế phức tạp hơn như 2×3 và 3×3. Với mỗi trường hợp, các bạn sẽ được hướng dẫn từng bước cách kiểm định, diễn giải và trực quan hóa các khía cạnh khác nhau của tương tác, biến những kết quả thống kê phức tạp thành những câu chuyện dữ liệu rõ ràng và thuyết phục. Hãy cùng nhau bắt đầu hành trình khám phá những mối quan hệ phụ thuộc đầy thú vị này!

Cấu trúc chuỗi bài học

Chuỗi bài học này được thiết kế theo một lộ trình từ cơ bản đến nâng cao, đảm bảo các bạn có thể xây dựng kiến thức một cách vững chắc. Mỗi bài viết đều tập trung vào một khía cạnh cụ thể và xây dựng dựa trên kiến thức của bài trước đó.

Phân tích tương tác 2×2 – Nền tảng và hiệu ứng đơn giản
Học cách phân tích và diễn giải trường hợp tương tác cơ bản nhất, làm chủ các lệnh Stata cốt lõi và khái niệm hiệu ứng đơn giản.
Phân tích tương tác 2×3 – Mở rộng với tương tác riêng phần
Nâng cao kỹ năng bằng cách xử lý các biến có nhiều hơn hai cấp độ và học kỹ thuật phân tích tương tác riêng phần.
Phân tích tương tác 3×3 – Kỹ thuật nâng cao và tương phản tương tác
Khám phá trường hợp phức tạp nhất và học cách sử dụng tương phản tương tác để mổ xẻ các khía cạnh chi tiết của mối quan hệ.
Các chủ đề nâng cao và lưu ý thực tiễn
Giải quyết các vấn đề thực tế như thiết kế không cân bằng, so sánh anova và regress, và cách diễn giải đúng biểu đồ.
Bài tổng hợp: Tổng kết và ứng dụng nâng cao về tương tác biến phân loại
Hệ thống hóa toàn bộ kiến thức, cung cấp một quy trình phân tích chuẩn và định hướng các ứng dụng trong nghiên cứu thực tế.

Kiến thức tiên quyết

Để có thể theo dõi và tiếp thu tốt nhất các nội dung trong chuỗi bài viết này, các bạn cần có sự chuẩn bị về một số kiến thức nền tảng. Việc nắm vững những khái niệm này sẽ giúp bạn tập trung vào logic phân tích tương tác thay vì bỡ ngỡ với các công cụ cơ bản.

Bạn cần chuẩn bị gì?

Kiến thức Kinh tế lượng cơ bản: Hiểu biết về mô hình hồi quy tuyến tính, kiểm định giả thuyết (giá trị p, thống kê t, thống kê F), và các giả định của mô hình OLS.
Phân tích phương sai (ANOVA): Có kiến thức nền tảng về ANOVA, đặc biệt là khái niệm về tác động chính (main effects) và tác động tương tác (interaction effects).
Sử dụng Stata cơ bản: Thành thạo các lệnh cơ bản trong Stata như use, describe, summarize, regress, và cách đọc kết quả hồi quy.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ không chỉ hiểu về lý thuyết mà còn có thể tự tin áp dụng các kỹ thuật phân tích vào nghiên cứu của riêng mình. Dưới đây là những kỹ năng cụ thể mà bạn sẽ đạt được.

Hiểu rõ khái niệm tương tác (interaction) giữa hai biến phân loại và tầm quan trọng của nó trong phân tích kinh tế.
Sử dụng thành thạo lệnh anova trong Stata để kiểm định ý nghĩa thống kê của các tác động chính và tác động tương tác.
Vận dụng bộ đôi lệnh margins và marginsplot để tính toán, diễn giải và trực quan hóa các giá trị dự báo trung bình cho từng nhóm.
Làm chủ lệnh contrast để “mổ xẻ” tương tác thông qua các kỹ thuật: kiểm định hiệu ứng đơn giản (simple effects), tương tác riêng phần (partial interactions), và tương phản tương tác (interaction contrasts).
Phân biệt và lựa chọn chiến lược phân tích phù hợp cho các thiết kế dữ liệu khác nhau, bao gồm cả thiết kế cân bằng và không cân bằng.
Tự tin diễn giải kết quả phân tích tương tác một cách sâu sắc, vượt ra ngoài kết luận “có hoặc không có tương tác” đơn thuần.

Tài liệu tham khảo

Nội dung của chuỗi bài viết này được dịch, diễn giải và phát triển dựa trên kiến thức từ nguồn tài liệu gốc uy tín. Các bạn nên tham khảo tài liệu gốc để có cái nhìn sâu hơn và toàn diện hơn về chủ đề.

Mitchell, M. N. (2021). Interpreting and visualizing regression models using Stata (Second edition). Stata Press. (Chương 8)

Phụ lục: Mã Stata tạo dữ liệu mô phỏng

Để đảm bảo tất cả các bạn đều có thể thực hành trên cùng một bộ dữ liệu, dưới đây là mã Stata để tạo ra tất cả các file dữ liệu sẽ được sử dụng trong suốt chuỗi bài học này. Vui lòng chạy toàn bộ đoạn mã này một lần để tạo các file .dta trong thư mục làm việc của bạn trước khi bắt đầu các bài học tiếp theo.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
*           về tương tác giữa các biến phân loại
* TÁC GIẢ: Dựa trên mô tả của Mitchell (2021)
* ==================================================

* --- Xóa bộ nhớ và thiết lập seed để có kết quả lặp lại ---
clear all
set seed 12345

* ==================================================
* 1. TẠO DỮ LIỆU opt-2by2.dta (Tương tác 2x2)
* N=120, thiết kế cân bằng (30 obs mỗi cell)
* Biến: treat (1=Control, 2=HappinessTherapy), depstat (1=Non, 2=Dep)
* Kết quả: opt (điểm lạc quan)
* ==================================================
clear
set obs 120
gen id = _n
gen treat = mod(_n-1, 2) + 1
label define treat_lbl 1 "Con" 2 "HT"
label values treat treat_lbl

gen depstat = 1
replace depstat = 2 if _n > 60
label define depstat_lbl 1 "Non" 2 "Dep"
label values depstat depstat_lbl

* Tạo biến kết quả 'opt' dựa trên các giá trị trung bình trong sách
gen opt = .
* Cell 1: Con#Non (mean=44.9)
replace opt = 44.9 + 10*rnormal() if treat==1 & depstat==1
* Cell 2: HT#Non (mean=60.0)
replace opt = 60.0 + 10*rnormal() if treat==2 & depstat==1
* Cell 3: Con#Dep (mean=34.6)
replace opt = 34.6 + 10*rnormal() if treat==1 & depstat==2
* Cell 4: HT#Dep (mean=38.8)
replace opt = 38.8 + 10*rnormal() if treat==2 & depstat==2

compress
save "opt-2by2.dta", replace
display "Đã tạo thành công file opt-2by2.dta"

* ==================================================
* 2. TẠO DỮ LIỆU opt-2by3-ex1.dta (Tương tác 2x3)
* N=180, thiết kế cân bằng (30 obs mỗi cell)
* Biến: treat (2 cấp), depstat (3 cấp: Non, Mild, Sev)
* ==================================================
clear
set obs 180
gen id = _n
gen treat = mod(_n-1, 2) + 1
label define treat_lbl 1 "Con" 2 "HT"
label values treat treat_lbl

gen depstat = cond(_n<=60, 1, cond(_n<=120, 2, 3))
label define depstat_lbl_3 1 "Non" 2 "Mild" 3 "Sev"
label values depstat depstat_lbl_3

gen opt = .
* Con#Non (mean=44.2)
replace opt = 44.2 + 10*rnormal() if treat==1 & depstat==1
* HT#Non (mean=59.6)
replace opt = 59.6 + 10*rnormal() if treat==2 & depstat==1
* Con#Mild (mean=39.6)
replace opt = 39.6 + 10*rnormal() if treat==1 & depstat==2
* HT#Mild (mean=49.7)
replace opt = 49.7 + 10*rnormal() if treat==2 & depstat==2
* Con#Sev (mean=29.8)
replace opt = 29.8 + 10*rnormal() if treat==1 & depstat==3
* HT#Sev (mean=29.6)
replace opt = 29.6 + 10*rnormal() if treat==2 & depstat==3

compress
save "opt-2by3-ex1.dta", replace
display "Đã tạo thành công file opt-2by3-ex1.dta"

* ==================================================
* 3. TẠO DỮ LIỆU opt-2by3-ex2.dta (Tương tác 3x2)
* N=180, thiết kế cân bằng (30 obs mỗi cell)
* Biến: treat (3 cấp: Con, TT, HT), depstat (2 cấp)
* ==================================================
clear
set obs 180
gen id = _n
gen treat = cond(_n<=60, 1, cond(_n<=120, 2, 3))
label define treat_lbl_3 1 "Con" 2 "TT" 3 "HT"
label values treat treat_lbl_3

gen depstat = mod(_n-1, 2) + 1
label define depstat_lbl 1 "Non" 2 "Dep"
label values depstat depstat_lbl

gen opt = .
* Con#Non (mean=44.6)
replace opt = 44.6 + 10*rnormal() if treat==1 & depstat==1
* TT#Non (mean=54.7)
replace opt = 54.7 + 10*rnormal() if treat==2 & depstat==1
* HT#Non (mean=59.3)
replace opt = 59.3 + 10*rnormal() if treat==3 & depstat==1
* Con#Dep (mean=34.8)
replace opt = 34.8 + 10*rnormal() if treat==1 & depstat==2
* TT#Dep (mean=44.3)
replace opt = 44.3 + 10*rnormal() if treat==2 & depstat==2
* HT#Dep (mean=39.2)
replace opt = 39.2 + 10*rnormal() if treat==3 & depstat==2

compress
save "opt-2by3-ex2.dta", replace
display "Đã tạo thành công file opt-2by3-ex2.dta"

* ==================================================
* 4. TẠO DỮ LIỆU opt-3by3.dta (Tương tác 3x3)
* N=270, thiết kế cân bằng (30 obs mỗi cell)
* Biến: treat (3 cấp), depstat (3 cấp)
* ==================================================
clear
set obs 270
gen id = _n
gen treat = cond(_n<=90, 1, cond(_n<=180, 2, 3))
label define treat_lbl_3 1 "Con" 2 "TT" 3 "HT"
label values treat treat_lbl_3

gen depstat = 1
replace depstat = 2 if inrange(_n, 31, 60) | inrange(_n, 121, 150) | inrange(_n, 211, 240)
replace depstat = 3 if inrange(_n, 61, 90) | inrange(_n, 151, 180) | inrange(_n, 241, 270)
label define depstat_lbl_3 1 "Non" 2 "Mild" 3 "Sev"
label values depstat depstat_lbl_3

gen opt = .
* Con#Non (44.2), Con#Mild (39.7), Con#Sev (29.9)
replace opt = 44.2 + 10*rnormal() if treat==1 & depstat==1
replace opt = 39.7 + 10*rnormal() if treat==1 & depstat==2
replace opt = 29.9 + 10*rnormal() if treat==1 & depstat==3
* TT#Non (54.5), TT#Mild (49.5), TT#Sev (39.8)
replace opt = 54.5 + 10*rnormal() if treat==2 & depstat==1
replace opt = 49.5 + 10*rnormal() if treat==2 & depstat==2
replace opt = 39.8 + 10*rnormal() if treat==2 & depstat==3
* HT#Non (59.3), HT#Mild (49.9), HT#Sev (30.1)
replace opt = 59.3 + 10*rnormal() if treat==3 & depstat==1
replace opt = 49.9 + 10*rnormal() if treat==3 & depstat==2
replace opt = 30.1 + 10*rnormal() if treat==3 & depstat==3

compress
save "opt-3by3.dta", replace
display "Đã tạo thành công file opt-3by3.dta"

* ==================================================
* 5. TẠO DỮ LIỆU gss_ivrm.dta (Thiết kế không cân bằng)
* N=1200 để có đủ quan sát sau khi bỏ missing
* Biến: happy7, married, cograd, marital3, gender, health
* ==================================================
clear
set obs 1200
gen id = _n

* Tạo các biến độc lập
gen married = rbinomial(1, 0.5)
label define married_lbl 0 "Unmarried" 1 "Married"
label values married married_lbl

gen cograd = rbinomial(1, 0.26)
label define cograd_lbl 0 "Not CO Grad" 1 "CO Grad"
label values cograd cograd_lbl

gen gender = rbinomial(1, 0.5) + 1
label define gender_lbl 1 "Male" 2 "Female"
label values gender gender_lbl

gen marital3 = 1
replace marital3 = 2 if runiform() < 0.6
replace marital3 = 3 if runiform() < 0.3
label define marital3_lbl 1 "Married" 2 "Prevmarried" 3 "Never married"
label values marital3 marital3_lbl

gen health = rpoisson(3)

* Tạo biến phụ thuộc happy7
gen happy7 = 5.5 + 0.4*married - 0.1*cograd + 0.1*(married*cograd) + rnormal()
replace happy7 = round(happy7)
replace happy7 = 1 if happy7 < 1
replace happy7 = 7 if happy7 > 7

* Tạo một vài giá trị thiếu
replace happy7 = . if runiform() < 0.05

compress
save "gss_ivrm.dta", replace
display "Đã tạo thành công file gss_ivrm.dta"

display "HOÀN THÀNH! Tất cả các file dữ liệu đã được tạo."

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
*           về tương tác giữa các biến phân loại
* TÁC GIẢ: Dựa trên mô tả của Mitchell (2021)
* ==================================================

* --- Xóa bộ nhớ và thiết lập seed để có kết quả lặp lại ---
clear all
set seed 12345

* ==================================================
* 1. TẠO DỮ LIỆU opt-2by2.dta (Tương tác 2x2)
* N=120, thiết kế cân bằng (30 obs mỗi cell)
* Biến: treat (1=Control, 2=HappinessTherapy), depstat (1=Non, 2=Dep)
* Kết quả: opt (điểm lạc quan)
* ==================================================
clear
set obs 120
gen id = _n
gen treat = mod(_n-1, 2) + 1
label define treat_lbl 1 "Con" 2 "HT"
label values treat treat_lbl

gen depstat = 1
replace depstat = 2 if _n > 60
label define depstat_lbl 1 "Non" 2 "Dep"
label values depstat depstat_lbl

* Tạo biến kết quả 'opt' dựa trên các giá trị trung bình trong sách
gen opt = .
* Cell 1: Con#Non (mean=44.9)
replace opt = 44.9 + 10*rnormal() if treat==1 & depstat==1
* Cell 2: HT#Non (mean=60.0)
replace opt = 60.0 + 10*rnormal() if treat==2 & depstat==1
* Cell 3: Con#Dep (mean=34.6)
replace opt = 34.6 + 10*rnormal() if treat==1 & depstat==2
* Cell 4: HT#Dep (mean=38.8)
replace opt = 38.8 + 10*rnormal() if treat==2 & depstat==2

compress
save "opt-2by2.dta", replace
display "Đã tạo thành công file opt-2by2.dta"

* ==================================================
* 2. TẠO DỮ LIỆU opt-2by3-ex1.dta (Tương tác 2x3)
* N=180, thiết kế cân bằng (30 obs mỗi cell)
* Biến: treat (2 cấp), depstat (3 cấp: Non, Mild, Sev)
* ==================================================
clear
set obs 180
gen id = _n
gen treat = mod(_n-1, 2) + 1
label define treat_lbl 1 "Con" 2 "HT"
label values treat treat_lbl

gen depstat = cond(_n<=60, 1, cond(_n<=120, 2, 3))
label define depstat_lbl_3 1 "Non" 2 "Mild" 3 "Sev"
label values depstat depstat_lbl_3

gen opt = .
* Con#Non (mean=44.2)
replace opt = 44.2 + 10*rnormal() if treat==1 & depstat==1
* HT#Non (mean=59.6)
replace opt = 59.6 + 10*rnormal() if treat==2 & depstat==1
* Con#Mild (mean=39.6)
replace opt = 39.6 + 10*rnormal() if treat==1 & depstat==2
* HT#Mild (mean=49.7)
replace opt = 49.7 + 10*rnormal() if treat==2 & depstat==2
* Con#Sev (mean=29.8)
replace opt = 29.8 + 10*rnormal() if treat==1 & depstat==3
* HT#Sev (mean=29.6)
replace opt = 29.6 + 10*rnormal() if treat==2 & depstat==3

compress
save "opt-2by3-ex1.dta", replace
display "Đã tạo thành công file opt-2by3-ex1.dta"

* ==================================================
* 3. TẠO DỮ LIỆU opt-2by3-ex2.dta (Tương tác 3x2)
* N=180, thiết kế cân bằng (30 obs mỗi cell)
* Biến: treat (3 cấp: Con, TT, HT), depstat (2 cấp)
* ==================================================
clear
set obs 180
gen id = _n
gen treat = cond(_n<=60, 1, cond(_n<=120, 2, 3))
label define treat_lbl_3 1 "Con" 2 "TT" 3 "HT"
label values treat treat_lbl_3

gen depstat = mod(_n-1, 2) + 1
label define depstat_lbl 1 "Non" 2 "Dep"
label values depstat depstat_lbl

gen opt = .
* Con#Non (mean=44.6)
replace opt = 44.6 + 10*rnormal() if treat==1 & depstat==1
* TT#Non (mean=54.7)
replace opt = 54.7 + 10*rnormal() if treat==2 & depstat==1
* HT#Non (mean=59.3)
replace opt = 59.3 + 10*rnormal() if treat==3 & depstat==1
* Con#Dep (mean=34.8)
replace opt = 34.8 + 10*rnormal() if treat==1 & depstat==2
* TT#Dep (mean=44.3)
replace opt = 44.3 + 10*rnormal() if treat==2 & depstat==2
* HT#Dep (mean=39.2)
replace opt = 39.2 + 10*rnormal() if treat==3 & depstat==2

compress
save "opt-2by3-ex2.dta", replace
display "Đã tạo thành công file opt-2by3-ex2.dta"

* ==================================================
* 4. TẠO DỮ LIỆU opt-3by3.dta (Tương tác 3x3)
* N=270, thiết kế cân bằng (30 obs mỗi cell)
* Biến: treat (3 cấp), depstat (3 cấp)
* ==================================================
clear
set obs 270
gen id = _n
gen treat = cond(_n<=90, 1, cond(_n<=180, 2, 3))
label define treat_lbl_3 1 "Con" 2 "TT" 3 "HT"
label values treat treat_lbl_3

gen depstat = 1
replace depstat = 2 if inrange(_n, 31, 60) | inrange(_n, 121, 150) | inrange(_n, 211, 240)
replace depstat = 3 if inrange(_n, 61, 90) | inrange(_n, 151, 180) | inrange(_n, 241, 270)
label define depstat_lbl_3 1 "Non" 2 "Mild" 3 "Sev"
label values depstat depstat_lbl_3

gen opt = .
* Con#Non (44.2), Con#Mild (39.7), Con#Sev (29.9)
replace opt = 44.2 + 10*rnormal() if treat==1 & depstat==1
replace opt = 39.7 + 10*rnormal() if treat==1 & depstat==2
replace opt = 29.9 + 10*rnormal() if treat==1 & depstat==3
* TT#Non (54.5), TT#Mild (49.5), TT#Sev (39.8)
replace opt = 54.5 + 10*rnormal() if treat==2 & depstat==1
replace opt = 49.5 + 10*rnormal() if treat==2 & depstat==2
replace opt = 39.8 + 10*rnormal() if treat==2 & depstat==3
* HT#Non (59.3), HT#Mild (49.9), HT#Sev (30.1)
replace opt = 59.3 + 10*rnormal() if treat==3 & depstat==1
replace opt = 49.9 + 10*rnormal() if treat==3 & depstat==2
replace opt = 30.1 + 10*rnormal() if treat==3 & depstat==3

compress
save "opt-3by3.dta", replace
display "Đã tạo thành công file opt-3by3.dta"

* ==================================================
* 5. TẠO DỮ LIỆU gss_ivrm.dta (Thiết kế không cân bằng)
* N=1200 để có đủ quan sát sau khi bỏ missing
* Biến: happy7, married, cograd, marital3, gender, health
* ==================================================
clear
set obs 1200
gen id = _n

* Tạo các biến độc lập
gen married = rbinomial(1, 0.5)
label define married_lbl 0 "Unmarried" 1 "Married"
label values married married_lbl

gen cograd = rbinomial(1, 0.26)
label define cograd_lbl 0 "Not CO Grad" 1 "CO Grad"
label values cograd cograd_lbl

gen gender = rbinomial(1, 0.5) + 1
label define gender_lbl 1 "Male" 2 "Female"
label values gender gender_lbl

gen marital3 = 1
replace marital3 = 2 if runiform() < 0.6
replace marital3 = 3 if runiform() < 0.3
label define marital3_lbl 1 "Married" 2 "Prevmarried" 3 "Never married"
label values marital3 marital3_lbl

gen health = rpoisson(3)

* Tạo biến phụ thuộc happy7
gen happy7 = 5.5 + 0.4*married - 0.1*cograd + 0.1*(married*cograd) + rnormal()
replace happy7 = round(happy7)
replace happy7 = 1 if happy7 < 1
replace happy7 = 7 if happy7 > 7

* Tạo một vài giá trị thiếu
replace happy7 = . if runiform() < 0.05

compress
save "gss_ivrm.dta", replace
display "Đã tạo thành công file gss_ivrm.dta"

display "HOÀN THÀNH! Tất cả các file dữ liệu đã được tạo."