Giới thiệu mô hình đa cấp: Phân tích dữ liệu có cấu trúc lồng nhau

An Introduction to Multilevel models: Analyzing Nested data Structures

Chào mừng các bạn đã đến với chuỗi bài viết chuyên sâu về một trong những kỹ thuật mạnh mẽ và hữu ích nhất trong kinh tế lượng hiện đại: mô hình đa cấp. Trong thực tế, rất nhiều dữ liệu kinh tế – xã hội không tồn tại một cách độc lập mà được tổ chức theo các cấu trúc phân cấp tự nhiên. Ví dụ, học sinh được nhóm trong các lớp học, các lớp học lại thuộc về các trường học, và các trường học nằm trong các quận, huyện. Tương tự, nhân viên làm việc trong các phòng ban, các phòng ban thuộc về các công ty, và các công ty hoạt động trong các ngành kinh tế khác nhau. Việc bỏ qua cấu trúc “lồng nhau” này có thể dẫn đến những kết luận sai lệch và thiếu chính xác.

Mô hình đa cấp, còn được biết đến với nhiều tên gọi khác như mô hình tuyến tính phân cấp, mô hình lồng nhau, hay mô hình hiệu ứng hỗn hợp, ra đời để giải quyết chính xác vấn đề này. Chúng cho phép chúng ta phân tích đồng thời ảnh hưởng của các yếu tố ở những cấp độ khác nhau lên một biến kết quả. Ví dụ, kết quả học tập của một học sinh có thể phụ thuộc vào đặc điểm cá nhân (cấp 1) và cả chất lượng của ngôi trường mà em đó theo học (cấp 2). Chuỗi bài viết này sẽ không chỉ dừng lại ở việc giới thiệu mô hình, mà sẽ tập trung vào một khía cạnh cực kỳ thú vị: diễn giải và trực quan hóa các “tương tác chéo cấp”. Đây là những tương tác giữa các biến ở các cấp độ khác nhau, chẳng hạn như liệu tác động của điều kiện kinh tế gia đình (cấp 1) lên điểm số có thay đổi tùy thuộc vào quy mô lớp học (cấp 2) hay không. Việc hiểu rõ những tương tác này sẽ mở ra một cánh cửa mới, giúp các bạn thực hiện những phân tích sâu sắc và tinh tế hơn rất nhiều. Hãy cùng nhau bắt đầu hành trình khám phá công cụ phân tích tuyệt vời này nhé!

Nền tảng lý thuyết của mô hình đa cấp

Trước khi đi sâu vào các ví dụ thực hành, chúng ta cần hiểu rõ tại sao mô hình đa cấp lại quan trọng. Khi các quan sát được lồng vào nhau trong các nhóm (ví dụ: học sinh trong các trường), chúng thường có xu hướng giống nhau hơn so với các quan sát từ các nhóm khác. Sự tương quan nội nhóm này vi phạm giả định về tính độc lập của các sai số trong mô hình hồi quy OLS thông thường. Mô hình đa cấp giải quyết vấn đề này bằng cách phân tách phương sai của sai số thành các thành phần ở mỗi cấp độ. Ví dụ, trong mô hình hai cấp, chúng ta sẽ có phương sai ở cấp độ cá nhân (cấp 1) và phương sai ở cấp độ nhóm (cấp 2). Điều này không chỉ giúp chúng ta có được các ước lượng và sai số chuẩn chính xác hơn mà còn cho phép chúng ta khám phá xem bao nhiêu phần trăm sự biến thiên của biến phụ thuộc là do sự khác biệt giữa các nhóm.

Một trong những ưu điểm độc đáo nhất của mô hình đa cấp là khả năng kiểm định các tương tác chéo cấp. Đây là cốt lõi của chuỗi bài viết này. Một tương tác chéo cấp xảy ra khi tác động của một biến dự báo ở cấp 1 lên biến kết quả phụ thuộc vào giá trị của một biến ở cấp 2. Ví dụ, mối quan hệ giữa số giờ tự học (biến cấp 1) và thành tích học tập có thể mạnh hơn ở những trường có nguồn lực tốt (biến cấp 2). Việc hiểu và diễn giải những tương tác này cho phép chúng ta trả lời các câu hỏi nghiên cứu phức tạp hơn, vượt ra ngoài việc chỉ xem xét các tác động chính. Trong các bài viết tiếp theo, chúng ta sẽ học cách sử dụng các lệnh mixed, margins, và marginsplot trong Stata để ước tính, diễn giải và trực quan hóa những hiệu ứng tương tác này một cách hiệu quả.

Cấu trúc chuỗi bài học

Diễn giải tương tác giữa biến liên tục và biến liên tục
Học cách phân tích khi tác động của một biến liên tục cấp 1 thay đổi theo một biến liên tục cấp 2.
Diễn giải tương tác giữa biến liên tục và biến phân loại
Khám phá cách tác động của một biến liên tục cấp 1 khác nhau giữa các nhóm được xác định bởi biến phân loại cấp 2.
Diễn giải tương tác giữa biến phân loại và biến liên tục
Tìm hiểu sự khác biệt giữa các nhóm (biến phân loại cấp 1) thay đổi như thế nào theo một biến liên tục cấp 2.
Diễn giải tương tác giữa biến phân loại và biến phân loại
Phân tích sự khác biệt giữa các nhóm cấp 1 có thay đổi hay không tùy thuộc vào các nhóm cấp 2.
Bài tập thực hành tổng hợp về diễn giải tương tác
Áp dụng tất cả các kỹ năng đã học vào một bộ dữ liệu tổng hợp để củng cố kiến thức và kỹ năng thực hành.
Tổng kết và định hướng nghiên cứu nâng cao
Ôn tập các khái niệm cốt lõi, so sánh các loại tương tác và khám phá các ứng dụng nâng cao trong nghiên cứu.

Kiến thức tiên quyết

Để theo dõi tốt nhất chuỗi bài viết này, các bạn cần có kiến thức nền tảng về:

Hồi quy tuyến tính đa biến: Hiểu rõ về cách xây dựng và diễn giải các mô hình hồi quy, đặc biệt là ý nghĩa của các hệ số.
Tương tác giữa các biến: Có kinh nghiệm làm việc với các số hạng tương tác trong mô hình hồi quy thông thường.
Sử dụng Stata cơ bản: Thành thạo các lệnh cơ bản như use, summarize, regress, và hiểu cách đọc kết quả đầu ra của Stata.

Chuỗi bài viết này giả định bạn đã quen thuộc với các khái niệm trên và sẽ tập trung vào các khía cạnh đặc thù của mô hình đa cấp.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài viết này, các bạn sẽ có khả năng:

Nhận diện và mô tả dữ liệu có cấu trúc lồng nhau (nested data).
Hiểu được sự cần thiết của việc sử dụng mô hình đa cấp so với hồi quy OLS thông thường.
Thực hiện ước lượng mô hình đa cấp hai cấp đơn giản bằng lệnh mixed trong Stata.
Diễn giải và trực quan hóa bốn loại tương tác chéo cấp phổ biến nhất một cách chính xác.
Sử dụng thành thạo các lệnh margins và marginsplot để phân tích sâu hơn các hiệu ứng tương tác.
Tự tin áp dụng các kỹ thuật này vào các dự án nghiên cứu của riêng mình.

Tài liệu tham khảo

Nội dung của chuỗi bài viết này được phát triển dựa trên kiến thức từ Chương 15 của cuốn sách “Interpreting and visualizing regression models using Stata” của Michael N. Mitchell (2021). Để tìm hiểu sâu hơn về lý thuyết mô hình đa cấp, các bạn có thể tham khảo các tài liệu sau:

Kreft, I., & De Leeuw, J. (1998). Introducing multilevel modeling. Sage.
Raudenbush, S. W., & Bryk, A. S. (2002). Hierarchical linear models: Applications and data analysis methods (2nd ed.). Sage.
Snijders, T. A. B., & Bosker, R. J. (1999). Multilevel analysis: An introduction to basic and advanced multilevel modeling. Sage.
Rabe-Hesketh, S., & Skrondal, A. (2012). Multilevel and longitudinal modeling using Stata (3rd ed.). Stata Press.

Phụ lục: Mã Stata tạo dữ liệu mô phỏng

Để đảm bảo tất cả các bạn đều có thể thực hành theo các ví dụ trong chuỗi bài viết, dưới đây là mã Stata để tạo ra bốn bộ dữ liệu mô phỏng được sử dụng. Các bộ dữ liệu này được thiết kế dựa trên các thống kê mô tả trong tài liệu gốc. Các bạn chỉ cần chạy đoạn mã này một lần để tạo và lưu các tệp dữ liệu vào máy tính của mình.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài viết về Mô hình đa cấp
* LƯU Ý: Chạy toàn bộ file do-file này một lần để tạo ra 4 file .dta
* ==================================================

clear all
set seed 12345

* --- Dữ liệu 1: school_write.dta (Continuous x Continuous) ---
set obs 100
gen schoolid = _n
expand 30 // Tạo khoảng 30 học sinh mỗi trường
bysort schoolid: gen stuid = _n
drop if runiform() > 0.99 // Tạo dữ liệu không cân bằng nhẹ
gen stucomp_school = 1.15 + rnormal() * 5
bysort schoolid: egen stucomp = mean(stucomp_school)
drop stucomp_school
gen ses = 50 + rnormal()*10
gen write = 150 + 5*ses - 20*stucomp + 0.2*ses*stucomp + rnormal()*190
replace write = 0 if write < 0
replace write = 1200 if write > 1200
label var schoolid "School ID"
label var stuid "Student ID"
label var write "Writing test score"
label var ses "Socioeconomic status"
label var stucomp "Students per computer"
compress
save "school_write.dta", replace
clear

* --- Dữ liệu 2: school_read.dta (Continuous x Categorical) ---
set obs 100
gen schoolid = _n
gen schtype_val = runiformint(1,100)
gen schtype = 1 if schtype_val <= 35 // Private
replace schtype = 2 if schtype_val > 35 & schtype_val <= 70 // Public
replace schtype = 3 if schtype_val > 70 // Catholic
label define schtype_lbl 1 "Private" 2 "Public" 3 "Catholic"
label values schtype schtype_lbl
expand 30
bysort schoolid: gen stuid = _n
drop if runiform() > 0.99
gen ses = 50 + rnormal()*10
gen read = 520 + 4*ses + 40*(schtype==2) + 150*(schtype==3) - 1.2*ses*(schtype==2) - 3.4*ses*(schtype==3) + rnormal()*215
replace read = 0 if read < 0
replace read = 1485 if read > 1485
label var read "Reading score"
label var schtype "School type"
compress
save "school_read.dta", replace
clear

* --- Dữ liệu 3: school_math.dta (Categorical x Continuous) ---
set obs 100
gen schoolid = _n
expand 30
bysort schoolid: gen stuid = _n
drop if runiform() > 0.98
gen clsize_school = 10 + rnormal()*10
bysort schoolid: egen clsize = mean(clsize_school)
drop clsize_school
gen gender = rbinomial(1, 0.5)
label define gender_lbl 0 "Male" 1 "Female"
label values gender gender_lbl
gen math = 450 - 1.3*clsize + 14*gender - 1.1*clsize*gender + rnormal()*104
replace math = 24 if math < 24
replace math = 788 if math > 788
label var math "Math score"
label var gender "Student gender"
label var clsize "Average class size"
compress
save "school_math.dta", replace
clear

* --- Dữ liệu 4: school_science.dta (Categorical x Categorical) ---
set obs 100
gen schoolid = _n
gen schsize_val = runiformint(1,3)
gen schsize = 1 if schsize_val == 1 // Small
replace schsize = 2 if schsize_val == 2 // Medium
replace schsize = 3 if schsize_val == 3 // Large
label define schsize_lbl 1 "Small" 2 "Medium" 3 "Large"
label values schsize schsize_lbl
expand 30
bysort schoolid: gen stuid = _n
drop if runiform() > 0.92
gen gender = rbinomial(1, 0.5)
label define gender_lbl 0 "Male" 1 "Female"
label values gender gender_lbl
gen science = 395 - 20*gender + 18*(schsize==2) + 40*(schsize==3) + 1.5*gender*(schsize==2) + 22*gender*(schsize==3) + rnormal()*102
replace science = 88 if science < 88
replace science = 779 if science > 779
label var science "Science score"
label var schsize "School size"
compress
save "school_science.dta", replace
clear

* --- Kết thúc ---
di "Đã tạo thành công 4 bộ dữ liệu: school_write.dta, school_read.dta, school_math.dta, school_science.dta"

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài viết về Mô hình đa cấp
* LƯU Ý: Chạy toàn bộ file do-file này một lần để tạo ra 4 file .dta
* ==================================================

clear all
set seed 12345

* --- Dữ liệu 1: school_write.dta (Continuous x Continuous) ---
set obs 100
gen schoolid = _n
expand 30 // Tạo khoảng 30 học sinh mỗi trường
bysort schoolid: gen stuid = _n
drop if runiform() > 0.99 // Tạo dữ liệu không cân bằng nhẹ
gen stucomp_school = 1.15 + rnormal() * 5
bysort schoolid: egen stucomp = mean(stucomp_school)
drop stucomp_school
gen ses = 50 + rnormal()*10
gen write = 150 + 5*ses - 20*stucomp + 0.2*ses*stucomp + rnormal()*190
replace write = 0 if write < 0
replace write = 1200 if write > 1200
label var schoolid "School ID"
label var stuid "Student ID"
label var write "Writing test score"
label var ses "Socioeconomic status"
label var stucomp "Students per computer"
compress
save "school_write.dta", replace
clear

* --- Dữ liệu 2: school_read.dta (Continuous x Categorical) ---
set obs 100
gen schoolid = _n
gen schtype_val = runiformint(1,100)
gen schtype = 1 if schtype_val <= 35 // Private
replace schtype = 2 if schtype_val > 35 & schtype_val <= 70 // Public
replace schtype = 3 if schtype_val > 70 // Catholic
label define schtype_lbl 1 "Private" 2 "Public" 3 "Catholic"
label values schtype schtype_lbl
expand 30
bysort schoolid: gen stuid = _n
drop if runiform() > 0.99
gen ses = 50 + rnormal()*10
gen read = 520 + 4*ses + 40*(schtype==2) + 150*(schtype==3) - 1.2*ses*(schtype==2) - 3.4*ses*(schtype==3) + rnormal()*215
replace read = 0 if read < 0
replace read = 1485 if read > 1485
label var read "Reading score"
label var schtype "School type"
compress
save "school_read.dta", replace
clear

* --- Dữ liệu 3: school_math.dta (Categorical x Continuous) ---
set obs 100
gen schoolid = _n
expand 30
bysort schoolid: gen stuid = _n
drop if runiform() > 0.98
gen clsize_school = 10 + rnormal()*10
bysort schoolid: egen clsize = mean(clsize_school)
drop clsize_school
gen gender = rbinomial(1, 0.5)
label define gender_lbl 0 "Male" 1 "Female"
label values gender gender_lbl
gen math = 450 - 1.3*clsize + 14*gender - 1.1*clsize*gender + rnormal()*104
replace math = 24 if math < 24
replace math = 788 if math > 788
label var math "Math score"
label var gender "Student gender"
label var clsize "Average class size"
compress
save "school_math.dta", replace
clear

* --- Dữ liệu 4: school_science.dta (Categorical x Categorical) ---
set obs 100
gen schoolid = _n
gen schsize_val = runiformint(1,3)
gen schsize = 1 if schsize_val == 1 // Small
replace schsize = 2 if schsize_val == 2 // Medium
replace schsize = 3 if schsize_val == 3 // Large
label define schsize_lbl 1 "Small" 2 "Medium" 3 "Large"
label values schsize schsize_lbl
expand 30
bysort schoolid: gen stuid = _n
drop if runiform() > 0.92
gen gender = rbinomial(1, 0.5)
label define gender_lbl 0 "Male" 1 "Female"
label values gender gender_lbl
gen science = 395 - 20*gender + 18*(schsize==2) + 40*(schsize==3) + 1.5*gender*(schsize==2) + 22*gender*(schsize==3) + rnormal()*102
replace science = 88 if science < 88
replace science = 779 if science > 779
label var science "Science score"
label var schsize "School size"
compress
save "school_science.dta", replace
clear

* --- Kết thúc ---
di "Đã tạo thành công 4 bộ dữ liệu: school_write.dta, school_read.dta, school_math.dta, school_science.dta"

📚 Bài tiếp theo: Diễn giải Tương tác giữa Biến liên tục và Biến liên tục

💡 Lưu ý: Hãy đảm bảo bạn đã chạy mã Stata ở trên để tạo các bộ dữ liệu cần thiết. Trong bài tiếp theo, chúng ta sẽ bắt đầu với ví dụ đầu tiên và phân tích bộ dữ liệu school_write.dta.