Diễn giải và trực quan hóa các mô hình với biến dự báo định tính

Interpreting and Visualizing models with Categorical Predictors

Giới thiệu về chuỗi bài viết

Chào mừng các bạn sinh viên đến với chuỗi bài học chuyên sâu về cách xử lý, diễn giải và trực quan hóa các mô hình kinh tế lượng có chứa biến dự báo định tính. Trong nghiên cứu kinh tế và xã hội, chúng ta thường xuyên làm việc với các biến không thể đo lường bằng những con số liên tục, chẳng hạn như giới tính (nam/nữ), vùng miền (Bắc/Trung/Nam), trình độ học vấn (phổ thông/cao đẳng/đại học), hay tình trạng hôn nhân. Những biến này, được gọi là biến định tính hay biến phân loại, chứa đựng những thông tin vô cùng quý giá. Tuy nhiên, việc diễn giải tác động của chúng không chỉ đơn giản là đọc một hệ số hồi quy. Làm thế nào để so sánh mức lương trung bình giữa người đã kết hôn và người chưa kết hôn? Làm thế nào để biết liều thuốc nào bắt đầu có tác dụng giảm đau đáng kể? Hay làm thế nào để trực quan hóa sự khác biệt về mức độ hạnh phúc giữa các nhóm tình trạng hôn nhân khác nhau một cách chính xác?

Chuỗi bài viết này được thiết kế để trả lời những câu hỏi đó một cách hệ thống và trực quan. Chúng ta sẽ bắt đầu từ những khái niệm cơ bản nhất như so sánh hai nhóm, sau đó từng bước khám phá những công cụ mạnh mẽ trong Stata như margins, contrast, và marginsplot. Đây không chỉ là một hành trình học về các câu lệnh, mà là một hành trình rèn luyện tư duy phân tích. Các bạn sẽ học cách “đặt câu hỏi” cho dữ liệu của mình thông qua các phép so sánh (tương phản) và “kể câu chuyện” từ những con số thông qua các biểu đồ ý nghĩa. Đừng lo lắng nếu các khái niệm ban đầu có vẻ mới lạ. Mỗi bài viết đều được trình bày theo lối đi từ lý thuyết nền tảng đến thực hành chi tiết, với vô số ví dụ minh họa và giải thích cặn kẽ. Mục tiêu cuối cùng là trang bị cho bạn không chỉ kiến thức, mà còn là sự tự tin để áp dụng những kỹ thuật này vào các dự án nghiên cứu của riêng mình. Hãy cùng nhau bắt đầu hành trình thú vị này để làm chủ một trong những kỹ năng quan trọng nhất của kinh tế lượng ứng dụng!

Cấu trúc loạt bài học

Phân tích biến định tính cơ bản trong Stata
Nắm vững nền tảng với kiểm định t, ANOVA, và các lệnh thiết yếu margins, marginsplot để phân tích các nhóm.
So sánh nhóm với toán tử tương phản (Phần 1)
Khám phá các toán tử tương phản mạnh mẽ để so sánh các nhóm với nhóm gốc, trung bình chung và các nhóm kề nhau.
So sánh nhóm với toán tử tương phản (Phần 2)
Làm chủ các kỹ thuật so sánh nâng cao như Helmert và tương phản đa thức để phát hiện các xu hướng phức tạp trong dữ liệu.
Tương phản tùy chỉnh và tương phản theo trọng số
Học cách tự xây dựng các phép so sánh phức tạp và xử lý chính xác khi các nhóm có kích thước mẫu không bằng nhau.
Thực hành tổng hợp và các lưu ý chuyên sâu
Vận dụng toàn bộ kiến thức qua bài tập lớn, kết hợp so sánh cặp và phân biệt giữa các lệnh anova và regress.
Bài tổng hợp: Hệ thống hóa kiến thức và định hướng nâng cao
Cung cấp cái nhìn toàn cảnh, kết nối các kỹ thuật đã học và gợi mở những hướng nghiên cứu, phân tích chuyên sâu hơn.

Các kiến thức tiên quyết

Để theo dõi tốt nhất chuỗi bài học này, các bạn nên trang bị trước những kiến thức và kỹ năng cơ bản sau:

Kiến thức Kinh tế lượng cơ bản: Hiểu rõ về mô hình hồi quy tuyến tính OLS, ý nghĩa của hệ số hồi quy, sai số chuẩn, giá trị p, và R-bình phương.
Kỹ năng Stata cơ bản: Thành thạo các lệnh cơ bản như use, describe, summarize, tabulate, và regress.
Hiểu biết về các loại biến: Phân biệt rõ ràng giữa biến liên tục (continuous), biến định tính (categorical), và biến thứ tự (ordinal).

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài viết này, các bạn sẽ có khả năng:

Hiểu và diễn giải chính xác ý nghĩa của các biến định tính trong kết quả hồi quy, vượt ra ngoài việc chỉ đọc hệ số.
Sử dụng thành thạo bộ ba lệnh margins, contrast, và marginsplot để thực hiện các phân tích sâu về sự khác biệt giữa các nhóm.
Thực hiện và diễn giải nhiều loại so sánh nhóm (tương phản) khác nhau, từ đơn giản đến phức tạp, để trả lời các câu hỏi nghiên cứu cụ thể.
Tạo ra các biểu đồ chuyên nghiệp và giàu thông tin để trực quan hóa kết quả phân tích, giúp bài nghiên cứu của bạn trở nên thuyết phục hơn.
Tự tin áp dụng các kỹ thuật này để phân tích dữ liệu định tính trong các dự án, bài tập lớn, và luận văn tốt nghiệp.

Tài liệu tham khảo

Nội dung của chuỗi bài viết này được dịch, diễn giải và phát triển chủ yếu từ nguồn tài liệu sau:

Mitchell, M. N. (2021). Interpreting and visualizing regression models using Stata (Second edition). Stata Press. (Cụ thể là Chương 7).

Để tìm hiểu sâu hơn, các bạn có thể tham khảo thêm:

Keppel, G., and T. D. Wickens. (2004). Design and Analysis: A Researcher’s Handbook. 4th ed. Upper Saddle River, NJ: Pearson.
Maxwell, S. E., H. D. Delaney, and K. Kelley. (2018). Designing Experiments and Analyzing Data: A Model Comparison Perspective. 3rd ed. New York: Routledge.

Phụ lục: Dữ liệu mô phỏng cho chuỗi bài viết

Để đảm bảo tất cả các bạn đều có thể thực hành theo các ví dụ trong chuỗi bài viết, chúng tôi đã tạo ra các bộ dữ liệu mô phỏng dựa trên các ví dụ trong sách. Vui lòng chạy toàn bộ đoạn code Stata dưới đây một lần để tạo ra các file gss_ivrm_vn.dta, pain_vn.dta, và pain2_vn.dta trong thư mục làm việc của bạn. Các bài viết sau sẽ sử dụng trực tiếp các file dữ liệu này.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài viết
* TÁC GIẢ: Econometrics Professor
* NGÀY TẠO: 23/09/2025
* ==================================================

* --- Dữ liệu 1: Khảo sát Hạnh phúc (gss_ivrm_vn.dta) ---
clear
set obs 1200
set seed 12345

* Tạo biến mức độ hạnh phúc (1-7)
gen happy7 = round(rnormal(5.5, 1.5))
replace happy7 = 1 if happy7 < 1
replace happy7 = 7 if happy7 > 7

* Tạo biến tình trạng hôn nhân (5 nhóm)
gen marital = runiformint(1, 5)
label define marital_lbl 1 "Đã kết hôn" 2 "Góa" 3 "Ly hôn" 4 "Ly thân" 5 "Chưa kết hôn"
label values marital marital_lbl

* Tạo biến giới tính
gen gender = runiformint(1, 2)
label define gender_lbl 1 "Nam" 2 "Nữ"
label values gender gender_lbl

* Tạo biến chủng tộc/dân tộc
gen race = runiformint(1, 3)
label define race_lbl 1 "Kinh" 2 "Tày" 3 "Khác"
label values race race_lbl

* Tạo biến tuổi
gen age = runiformint(18, 65)

* Tạo mối quan hệ giả định giữa các biến
* Người đã kết hôn có xu hướng hạnh phúc hơn
replace happy7 = happy7 + 0.5 if marital == 1 & rnormal(0,1) > 0.5
* Người ly hôn/ly thân có xu hướng kém hạnh phúc hơn
replace happy7 = happy7 - 0.5 if inlist(marital, 3, 4) & rnormal(0,1) > 0.5
* Tuổi tác có ảnh hưởng nhỏ
replace happy7 = happy7 + age/50

* Đảm bảo thang đo vẫn trong khoảng 1-7
replace happy7 = 1 if happy7 < 1
replace happy7 = 7 if happy7 > 7

* Lưu dữ liệu
compress
save "gss_ivrm_vn.dta", replace
* --------------------------------------------------


* --- Dữ liệu 2: Nghiên cứu về thuốc giảm đau (pain_vn.dta) ---
clear
set obs 180
set seed 54321

* Tạo biến nhóm liều lượng (6 nhóm)
gen dosegrp = mod(_n-1, 6) + 1
label define dose_lbl 1 "0mg" 2 "50mg" 3 "100mg" 4 "150mg" 5 "200mg" 6 "250mg"
label values dosegrp dose_lbl

* Tạo biến mức độ đau (thang 100)
gen pain = 75 + rnormal(0, 10) // Mức đau ban đầu
* Giả định thuốc có tác dụng rõ rệt từ liều 200mg
replace pain = pain - 15 - rnormal(0,5) if dosegrp == 5
replace pain = pain - 22 - rnormal(0,5) if dosegrp == 6
* Thêm một chút nhiễu cho các nhóm khác
replace pain = pain + rnormal(0, 3)

* Đảm bảo thang đo trong khoảng hợp lý
replace pain = 0 if pain < 0
replace pain = 100 if pain > 100

* Lưu dữ liệu
compress
save "pain_vn.dta", replace
* --------------------------------------------------


* --- Dữ liệu 3: Nghiên cứu thuốc giảm đau liều cao (pain2_vn.dta) ---
clear
set obs 180
set seed 98765

* Tạo biến liều lượng thực tế (không cách đều)
gen dosage = .
replace dosage = 300 if _n <= 30
replace dosage = 400 if _n > 30 & _n <= 60
replace dosage = 500 if _n > 60 & _n <= 90
replace dosage = 600 if _n > 90 & _n <= 120
replace dosage = 800 if _n > 120 & _n <= 150
replace dosage = 1000 if _n > 150

* Tạo biến mức độ đau
gen pain = 50 + rnormal(0, 10)
* Giả định tác dụng giảm dần khi liều lượng tăng cao
replace pain = pain - 10 if dosage == 400
replace pain = pain - 18 if dosage == 500
replace pain = pain - 20 if dosage == 600
replace pain = pain - 19 if dosage == 800 // Tác dụng không tăng nhiều
replace pain = pain - 21 if dosage == 1000

* Thêm nhiễu ngẫu nhiên
replace pain = pain + rnormal(0, 5)
replace pain = 0 if pain < 0
replace pain = 100 if pain > 100

* Lưu dữ liệu
compress
save "pain2_vn.dta", replace
* --------------------------------------------------

di "Đã tạo thành công 3 bộ dữ liệu: gss_ivrm_vn.dta, pain_vn.dta, và pain2_vn.dta"

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài viết
* TÁC GIẢ: Econometrics Professor
* NGÀY TẠO: 23/09/2025
* ==================================================

* --- Dữ liệu 1: Khảo sát Hạnh phúc (gss_ivrm_vn.dta) ---
clear
set obs 1200
set seed 12345

* Tạo biến mức độ hạnh phúc (1-7)
gen happy7 = round(rnormal(5.5, 1.5))
replace happy7 = 1 if happy7 < 1
replace happy7 = 7 if happy7 > 7

* Tạo biến tình trạng hôn nhân (5 nhóm)
gen marital = runiformint(1, 5)
label define marital_lbl 1 "Đã kết hôn" 2 "Góa" 3 "Ly hôn" 4 "Ly thân" 5 "Chưa kết hôn"
label values marital marital_lbl

* Tạo biến giới tính
gen gender = runiformint(1, 2)
label define gender_lbl 1 "Nam" 2 "Nữ"
label values gender gender_lbl

* Tạo biến chủng tộc/dân tộc
gen race = runiformint(1, 3)
label define race_lbl 1 "Kinh" 2 "Tày" 3 "Khác"
label values race race_lbl

* Tạo biến tuổi
gen age = runiformint(18, 65)

* Tạo mối quan hệ giả định giữa các biến
* Người đã kết hôn có xu hướng hạnh phúc hơn
replace happy7 = happy7 + 0.5 if marital == 1 & rnormal(0,1) > 0.5
* Người ly hôn/ly thân có xu hướng kém hạnh phúc hơn
replace happy7 = happy7 - 0.5 if inlist(marital, 3, 4) & rnormal(0,1) > 0.5
* Tuổi tác có ảnh hưởng nhỏ
replace happy7 = happy7 + age/50

* Đảm bảo thang đo vẫn trong khoảng 1-7
replace happy7 = 1 if happy7 < 1
replace happy7 = 7 if happy7 > 7

* Lưu dữ liệu
compress
save "gss_ivrm_vn.dta", replace
* --------------------------------------------------


* --- Dữ liệu 2: Nghiên cứu về thuốc giảm đau (pain_vn.dta) ---
clear
set obs 180
set seed 54321

* Tạo biến nhóm liều lượng (6 nhóm)
gen dosegrp = mod(_n-1, 6) + 1
label define dose_lbl 1 "0mg" 2 "50mg" 3 "100mg" 4 "150mg" 5 "200mg" 6 "250mg"
label values dosegrp dose_lbl

* Tạo biến mức độ đau (thang 100)
gen pain = 75 + rnormal(0, 10) // Mức đau ban đầu
* Giả định thuốc có tác dụng rõ rệt từ liều 200mg
replace pain = pain - 15 - rnormal(0,5) if dosegrp == 5
replace pain = pain - 22 - rnormal(0,5) if dosegrp == 6
* Thêm một chút nhiễu cho các nhóm khác
replace pain = pain + rnormal(0, 3)

* Đảm bảo thang đo trong khoảng hợp lý
replace pain = 0 if pain < 0
replace pain = 100 if pain > 100

* Lưu dữ liệu
compress
save "pain_vn.dta", replace
* --------------------------------------------------


* --- Dữ liệu 3: Nghiên cứu thuốc giảm đau liều cao (pain2_vn.dta) ---
clear
set obs 180
set seed 98765

* Tạo biến liều lượng thực tế (không cách đều)
gen dosage = .
replace dosage = 300 if _n <= 30
replace dosage = 400 if _n > 30 & _n <= 60
replace dosage = 500 if _n > 60 & _n <= 90
replace dosage = 600 if _n > 90 & _n <= 120
replace dosage = 800 if _n > 120 & _n <= 150
replace dosage = 1000 if _n > 150

* Tạo biến mức độ đau
gen pain = 50 + rnormal(0, 10)
* Giả định tác dụng giảm dần khi liều lượng tăng cao
replace pain = pain - 10 if dosage == 400
replace pain = pain - 18 if dosage == 500
replace pain = pain - 20 if dosage == 600
replace pain = pain - 19 if dosage == 800 // Tác dụng không tăng nhiều
replace pain = pain - 21 if dosage == 1000

* Thêm nhiễu ngẫu nhiên
replace pain = pain + rnormal(0, 5)
replace pain = 0 if pain < 0
replace pain = 100 if pain > 100

* Lưu dữ liệu
compress
save "pain2_vn.dta", replace
* --------------------------------------------------

di "Đã tạo thành công 3 bộ dữ liệu: gss_ivrm_vn.dta, pain_vn.dta, và pain2_vn.dta"