Mô hình hồi quy với biến định tính
Trong phân tích kinh tế lượng, chúng ta thường xuyên làm việc với các biến số có thể đo lường được như thu nhập, chi tiêu, hay số năm đi học. Tuy nhiên, thực tế kinh tế-xã hội phức tạp hơn nhiều và thường bị ảnh hưởng bởi các yếu tố không thể định lượng một cách trực tiếp, chẳng hạn như giới tính, khu vực địa lý, ngành nghề, hay tình trạng hôn nhân. Vậy làm thế nào để đưa những yếu tố định tính này vào một mô hình hồi quy tuyến tính một cách khoa học và hiệu quả? Câu trả lời nằm ở một công cụ mạnh mẽ và linh hoạt: biến giả (dummy variables).
Chuỗi bài viết này sẽ cung cấp một hành trình toàn diện, đi từ những khái niệm cơ bản nhất đến các kỹ thuật ứng dụng nâng cao về việc sử dụng biến định tính làm biến dự báo trong mô hình hồi quy. Chúng ta sẽ khám phá cách mã hóa thông tin định tính thành các biến nhị phân (0 và 1), từ đó cho phép mô hình lượng hóa tác động của các thuộc tính như “nữ” so với “nam”, hoặc “thành thị” so với “nông thôn”. Không chỉ dừng lại ở việc thay đổi điểm chặn của đường hồi quy, chúng ta sẽ tìm hiểu sâu hơn về cách các biến giả có thể tương tác với các biến khác, cho phép mô hình nắm bắt những mối quan hệ phức tạp hơn, ví dụ như lợi tức của giáo dục có khác biệt giữa nam và nữ hay không. Với các ví dụ minh họa chi tiết và hướng dẫn thực hành từng bước trên Stata, chuỗi bài học này sẽ trang bị cho bạn những kỹ năng cần thiết để phân tích dữ liệu một cách tinh vi và chính xác hơn.
Các từ khóa chính xuyên suốt series này bao gồm: biến giả, hồi quy tuyến tính, và tương tác biến.
Kiến thức tiên quyết
- Kinh tế lượng căn bản: Hiểu biết vững chắc về mô hình hồi quy OLS, các giả định cổ điển và cách diễn giải hệ số.
- Thống kê cơ bản: Nắm vững các khái niệm về kiểm định giả thuyết (t-test, F-test) và khoảng tin cậy.
- Stata cơ bản: Quen thuộc với giao diện Stata, các lệnh quản lý dữ liệu cơ bản (use, generate, replace) và lệnh
regress.
Mục tiêu học tập
- Nắm vững lý thuyết về biến giả, bao gồm biến giả chặn và biến giả tương tác.
- Thành thạo kỹ năng tạo, sử dụng và diễn giải các mô hình hồi quy có chứa biến định tính trong Stata.
- Có khả năng phân tích và diễn giải kết quả một cách sâu sắc, nhận biết được các vấn đề tiềm ẩn như “bẫy biến giả”.
- Áp dụng kiến thức để trả lời các câu hỏi nghiên cứu thực tế liên quan đến sự khác biệt giữa các nhóm.
Tài liệu tham khảo chính
- Das, P. (2019). Econometrics in theory and practice: Analysis of cross section, time series and panel data with Stata 15.1. Springer Nature Singapore. (Chương 6)
- Wooldridge, J. M. (2019). Introductory econometrics: A modern approach. Cengage learning.
- Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics: Methods and applications. Cambridge university press.
Phụ lục: Dữ liệu mô phỏng cho chuỗi bài viết
Để đảm bảo tính nhất quán và giúp bạn đọc dễ dàng thực hành theo các ví dụ, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng dựa trên bối cảnh nghiên cứu về tiền lương trong tài liệu gốc. Dưới đây là mã Stata để tạo ra bộ dữ liệu này.
* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG: TIỀN LƯƠNG VÀ CÁC YẾU TỐ ẢNH HƯỞNG
* Mục đích: Dùng cho chuỗi bài viết về biến giả
* Tác giả: GS. Kinh tế lượng & Thống kê Ứng dụng
* ==================================================
clear
set obs 4120
set seed 12345
* --- Bước 1: Tạo các biến định tính ---
* Tạo biến giới tính (female = 1 nếu là nữ, 0 nếu là nam)
gen female = rbinomial(1, 0.47) // Giả sử 47% là nữ
* Tạo biến nhóm xã hội (1-4)
* 1: Scheduled Tribe (ST), 2: Scheduled Caste (SC)
* 3: Other Backward Class (OBC - Nhóm tham chiếu), 4: General
gen social_group = runiformint(1, 4)
label define sg_lbl 1 "ST" 2 "SC" 3 "OBC" 4 "General"
label values social_group sg_lbl
* --- Bước 2: Tạo biến định lượng ---
* Tạo biến số năm đi học (log)
gen ln_yr_schooling = rnormal(2, 0.5)
* --- Bước 3: Tạo biến phụ thuộc (log tiền lương) dựa trên mô hình ---
* Giả định một mô hình dân số thực sự
* ln_wage = 6.5 + 0.4*ln_yr_schooling - 0.06*female + ... + error
gen ln_wage = 6.5 + 0.4*ln_yr_schooling - 0.06*female ///
+ 0.01*(social_group==1) - 0.12*(social_group==2) + 0.19*(social_group==4) ///
+ rnormal(0, 1)
* --- Bước 4: Mô tả và lưu dữ liệu ---
describe
summarize
* Lưu dữ liệu để sử dụng cho các bài sau
compress
save "simulated_wage_data.dta", replace
Mô tả biến
ln_wage: Logarit của tiền lương hàng tháng (biến phụ thuộc).ln_yr_schooling: Logarit của số năm đi học (biến giải thích định lượng).female: Biến giả, nhận giá trị 1 nếu là nữ, 0 nếu là nam.social_group: Biến phân loại cho nhóm xã hội, với 4 hạng mục (ST, SC, OBC, General).
Bạn có thể chạy đoạn mã trên trong Stata để tạo file simulated_wage_data.dta và sử dụng cho các bài thực hành tiếp theo.
📚 Bài tiếp theo: Giới thiệu Biến giả trong Mô hình Hồi quy
💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.