Giới thiệu hồi quy phân vị cho người mới bắt đầu

An Introduction to Quantile Regression for Beginners

Tổng quan về hồi quy phân vị

Chào các bạn sinh viên, trong hành trình khám phá kinh tế lượng, chúng ta thường bắt đầu với mô hình hồi quy tuyến tính cổ điển (OLS). OLS là một công cụ cực kỳ mạnh mẽ, giúp chúng ta hiểu được mối quan hệ trung bình giữa các biến. Ví dụ, OLS có thể cho biết trung bình một năm kinh nghiệm làm việc sẽ làm tăng mức lương lên bao nhiêu. Tuy nhiên, thế giới thực lại phức tạp hơn rất nhiều. Liệu tác động của kinh nghiệm lên lương có giống nhau ở nhóm người có thu nhập thấp nhất và nhóm có thu nhập cao nhất không? Rất có thể là không. OLS, với việc chỉ tập trung vào giá trị trung bình, đã bỏ qua bức tranh toàn cảnh về sự đa dạng này.

Đây chính là lúc Hồi quy phân vị (Quantile Regression) tỏa sáng. Thay vì chỉ nhìn vào “trung tâm” của dữ liệu, hồi quy phân vị cho phép chúng ta khám phá mối quan hệ tại bất kỳ điểm nào trong phân phối của biến kết quả. Chúng ta có thể xem xét tác động của các biến độc lập lên phân vị thứ 10 (nhóm thu nhập thấp), phân vị thứ 50 (trung vị – median), hay phân vị thứ 90 (nhóm thu nhập cao). Điều này mở ra một cánh cửa hoàn toàn mới, giúp chúng ta phát hiện ra các hiệu ứng không đồng nhất (heterogeneous effects), tức là tác động của một biến có thể thay đổi đáng kể tùy thuộc vào vị trí của cá nhân trong phân phối thu nhập.

Hơn nữa, hồi quy phân vị còn có một ưu điểm vượt trội là tính bền vững (robustness). Mô hình này ít bị ảnh hưởng bởi các giá trị ngoại lai (outliers) hơn so với OLS. Trong chuỗi bài học này, Giáo sư sẽ hướng dẫn các bạn từ những khái niệm cơ bản nhất đến cách ứng dụng hồi quy phân vị vào phân tích dữ liệu thực tế bằng phần mềm Stata, giúp các bạn có được một công cụ phân tích tinh vi và mạnh mẽ hơn cho các nghiên cứu của mình.

CẤU TRÚC CHUỖI BÀI HỌC

Nền tảng lý thuyết CQR
Nắm vững các khái niệm cốt lõi, từ hàm mất mát bất đối xứng đến cách Stata tính toán các ước lượng hồi quy phân vị.
Thực hành CQR với dữ liệu y tế
Học cách chạy mô hình CQR đầu tiên, diễn giải chính xác các hệ số, và xử lý các phép biến đổi biến phụ thuộc.
So sánh và kiểm định trong CQR
Khám phá cách so sánh tác động tại các phân vị khác nhau và thực hiện các kiểm định quan trọng về sai số mô hình.
Minh họa CQR qua dữ liệu mô phỏng
Hiểu sâu sắc bản chất của CQR thông qua việc phân tích dữ liệu tự tạo với các đặc tính được kiểm soát.
Bài thực hành: Phân tích tác động xử lý (QTE)
Ứng dụng CQR để đánh giá tác động của một chính sách hoặc sự kiện lên toàn bộ phân phối của biến kết quả.
Bài tổng hợp: Tổng kết và ứng dụng
Hệ thống hóa toàn bộ kiến thức và cung cấp một quy trình chuẩn để áp dụng hồi quy phân vị trong nghiên cứu thực tế.

KIẾN THỨC TIÊN QUYẾT

Kinh tế lượng cơ bản: Hiểu rõ về mô hình hồi quy tuyến tính OLS, các giả định, kiểm định giả thuyết và ý nghĩa của hệ số hồi quy.
Thống kê căn bản: Nắm vững các khái niệm về phân phối xác suất, hàm mật độ, hàm phân phối tích lũy, và các đại lượng như trung vị, phân vị.
Stata cơ bản: Quen thuộc với giao diện Stata, cách quản lý dữ liệu, và thực hiện các lệnh hồi quy cơ bản như regress.

MỤC TIÊU HỌC TẬP

Hiểu rõ sự khác biệt và ưu điểm của hồi quy phân vị so với hồi quy OLS truyền thống.
Vận dụng thành thạo các lệnh qreg, sqreg, bsqreg, và qreg2 trong Stata để phân tích dữ liệu.
Diễn giải một cách chính xác và sâu sắc các kết quả từ mô hình hồi quy phân vị, đặc biệt là các hiệu ứng không đồng nhất.
Trực quan hóa kết quả hồi quy phân vị để trình bày trong các báo cáo và nghiên cứu khoa học.

TÀI LIỆU THAM KHẢO

Cameron, A. C., and P. K. Trivedi. (2022). Microeconometrics Using Stata, Volume I: Cross-Sectional and Panel Data. Stata Press. (Đây là tài liệu gốc cho chuỗi bài viết này).
Koenker, R. (2005). Quantile Regression. Cambridge University Press. (Cuốn sách kinh điển và toàn diện nhất về chủ đề này).
Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning. (Để ôn tập các kiến thức nền tảng về kinh tế lượng).

PHỤ LỤC: Dữ liệu mô phỏng cho series

Để giúp các bạn dễ dàng thực hành theo các ví dụ trong chuỗi bài viết, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng về chi phí y tế. Dưới đây là đoạn code Stata để tạo ra bộ dữ liệu này. Các bạn chỉ cần sao chép và chạy trong Stata để có file dữ liệu thực hành.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng về chi phí y tế
* SỐ QUAN SÁT: 3000 người cao tuổi
* NỘI DUNG: Mô phỏng mối quan hệ giữa chi phí y tế và các yếu tố kinh tế-xã hội
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 3000
set seed 12345 // Đảm bảo kết quả có thể tái lập

* --- TẠO CÁC BIẾN GIẢI THÍCH ---

* Biến tuổi (age): từ 65 đến 90
gen age = 65 + floor(26 * runiform())

* Biến giới tính (female): 1 = Nữ, 0 = Nam (giả sử 60% là nữ)
gen female = (runiform() < 0.6)

* Biến có bảo hiểm bổ sung (suppins): 1 = Có, 0 = Không (giả sử 55% có)
gen suppins = (runiform() < 0.55)

* Biến số bệnh mãn tính (totchr): từ 0 đến 7
gen totchr = floor(8 * runiform())

* Biến da trắng (white): 1 = Có, 0 = Không (giả sử 90% là da trắng)
gen white = (runiform() < 0.9)

* --- TẠO SAI SỐ VÀ BIẾN PHỤ THUỘC ---

* Tạo thành phần phương sai thay đổi phụ thuộc vào số bệnh mãn tính
* Những người có nhiều bệnh mãn tính hơn sẽ có sự biến động chi phí lớn hơn
gen heteroskedastic_component = 1 + 0.5 * totchr

* Tạo sai số ngẫu nhiên từ phân phối chuẩn
gen error = rnormal(0, 250) * heteroskedastic_component

* Tạo biến chi phí y tế (totexp)
* Giả định một mối quan hệ tuyến tính cơ bản
gen totexp = 2000 + 150*suppins + 300*totchr + 50*age - 100*female + 80*white + error

* Đảm bảo chi phí không âm
replace totexp = 100 if totexp <= 0

* Tạo biến log của chi phí y tế (ltotexp)
gen ltotexp = log(totexp)

* --- GÁN NHÃN CHO BIẾN ĐỂ DỄ QUẢN LÝ ---
label variable totexp "Tổng chi phí y tế hàng năm ($)"
label variable ltotexp "Log của tổng chi phí y tế"
label variable suppins "Có bảo hiểm bổ sung (1=có)"
label variable totchr "Số lượng bệnh mãn tính"
label variable age "Tuổi"
label variable female "Giới tính (1=nữ)"
label variable white "Chủng tộc (1=da trắng)"

* Lưu dữ liệu để sử dụng
compress
save "medical_expenditures_simulated.dta", replace

* Xem qua dữ liệu vừa tạo
summarize

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng về chi phí y tế
* SỐ QUAN SÁT: 3000 người cao tuổi
* NỘI DUNG: Mô phỏng mối quan hệ giữa chi phí y tế và các yếu tố kinh tế-xã hội
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 3000
set seed 12345 // Đảm bảo kết quả có thể tái lập

* --- TẠO CÁC BIẾN GIẢI THÍCH ---

* Biến tuổi (age): từ 65 đến 90
gen age = 65 + floor(26 * runiform())

* Biến giới tính (female): 1 = Nữ, 0 = Nam (giả sử 60% là nữ)
gen female = (runiform() < 0.6)

* Biến có bảo hiểm bổ sung (suppins): 1 = Có, 0 = Không (giả sử 55% có)
gen suppins = (runiform() < 0.55)

* Biến số bệnh mãn tính (totchr): từ 0 đến 7
gen totchr = floor(8 * runiform())

* Biến da trắng (white): 1 = Có, 0 = Không (giả sử 90% là da trắng)
gen white = (runiform() < 0.9)

* --- TẠO SAI SỐ VÀ BIẾN PHỤ THUỘC ---

* Tạo thành phần phương sai thay đổi phụ thuộc vào số bệnh mãn tính
* Những người có nhiều bệnh mãn tính hơn sẽ có sự biến động chi phí lớn hơn
gen heteroskedastic_component = 1 + 0.5 * totchr

* Tạo sai số ngẫu nhiên từ phân phối chuẩn
gen error = rnormal(0, 250) * heteroskedastic_component

* Tạo biến chi phí y tế (totexp)
* Giả định một mối quan hệ tuyến tính cơ bản
gen totexp = 2000 + 150*suppins + 300*totchr + 50*age - 100*female + 80*white + error

* Đảm bảo chi phí không âm
replace totexp = 100 if totexp <= 0

* Tạo biến log của chi phí y tế (ltotexp)
gen ltotexp = log(totexp)

* --- GÁN NHÃN CHO BIẾN ĐỂ DỄ QUẢN LÝ ---
label variable totexp "Tổng chi phí y tế hàng năm ($)"
label variable ltotexp "Log của tổng chi phí y tế"
label variable suppins "Có bảo hiểm bổ sung (1=có)"
label variable totchr "Số lượng bệnh mãn tính"
label variable age "Tuổi"
label variable female "Giới tính (1=nữ)"
label variable white "Chủng tộc (1=da trắng)"

* Lưu dữ liệu để sử dụng
compress
save "medical_expenditures_simulated.dta", replace

* Xem qua dữ liệu vừa tạo
summarize