Hồi quy bách phân vị

Chào mừng các bạn sinh viên đến với chuỗi bài học chuyên sâu về một trong những công cụ mạnh mẽ và linh hoạt nhất của kinh tế lượng hiện đại: Hồi quy Phân vị (Quantile Regression). Trong hầu hết các khóa học nhập môn, chúng ta thường tập trung vào hồi quy OLS, một phương pháp tuyệt vời để ước lượng tác động của một biến lên giá trị trung bình của một biến khác. Tuy nhiên, thực tế kinh tế – xã hội thường phức tạp hơn nhiều. Tác động của giáo dục lên thu nhập có giống nhau ở nhóm người thu nhập thấp và nhóm người thu nhập cao không? Chính sách hỗ trợ có giúp ích như nhau cho các doanh nghiệp đang gặp khó khăn và các doanh nghiệp đang trên đà phát triển không? Hồi quy OLS không thể trả lời đầy đủ những câu hỏi này.

Đây chính là lúc Hồi quy Phân vị phát huy sức mạnh. Thay vì chỉ nhìn vào “trung bình”, phương pháp này cho phép chúng ta phân tích tác động của các biến giải thích lên toàn bộ phân phối của biến phụ thuộc – từ các phân vị thấp nhất (ví dụ: 10%), trung vị (50%), cho đến các phân vị cao nhất (ví dụ: 90%). Điều này mở ra một bức tranh toàn cảnh, chi tiết và sâu sắc hơn về các mối quan hệ kinh tế, giúp chúng ta hiểu được sự không đồng nhất (heterogeneity) vốn có trong dữ liệu. Chuỗi bài học này sẽ trang bị cho các bạn kiến thức từ lý thuyết nền tảng đến kỹ năng thực hành thành thạo trên Stata, dựa trên giáo trình kinh điển “Econometrics” của Bruce E. Hansen (2022).

Trong chuỗi bài này, chúng ta sẽ cùng nhau tìm hiểu ba khái niệm cốt lõi: Hồi quy Trung vị (Median Regression), bước đệm đầu tiên để thoát khỏi tư duy về “trung bình”; Hồi quy Phân vị (Quantile Regression), công cụ chính để phân tích toàn bộ phân phối; và Ước lượng LAD (Least Absolute Deviations), phương pháp ước lượng nền tảng cho các mô hình này. Mục tiêu của chúng ta không chỉ là hiểu công thức, mà là xây dựng một tư duy phân tích dữ liệu đa chiều, cho phép bạn khám phá những câu chuyện ẩn sau những con số mà hồi quy OLS có thể bỏ lỡ.

Cấu trúc chuỗi bài học

Bài 1: Nền tảng về hồi quy trung vị và ước lượng LAD
Chúng ta sẽ bắt đầu với các khái niệm cơ bản nhất, tìm hiểu tại sao cần một giải pháp thay thế cho OLS và cách hồi quy trung vị hoạt động.
Bài 2: Khám phá hồi quy phân vị và các tính chất
Bài học này mở rộng từ trung vị sang toàn bộ các phân vị, giới thiệu mô hình, hàm mất mát và các đặc điểm quan trọng của hồi quy phân vị.
Bài 3: Suy diễn thống kê trong hồi quy phân vị
Chúng ta sẽ đi sâu vào các khía cạnh kỹ thuật như phân phối tiệm cận, cách ước lượng sai số chuẩn và xử lý dữ liệu có cấu trúc cụm.
Bài 4: Các chủ đề nâng cao và diễn giải nhân quả
Bài học này khám phá các vấn đề thực tế như đường phân vị giao nhau, điều kiện để diễn giải kết quả theo hướng nhân quả và ứng dụng cho dữ liệu bảng.
Bài 5: Hướng dẫn thực hành hồi quy phân vị với Stata
Chúng ta sẽ áp dụng tất cả kiến thức đã học để thực hiện một phân tích hoàn chỉnh từ khâu chuẩn bị dữ liệu, ước lượng, kiểm định đến diễn giải kết quả.

KIẾN THỨC TIÊN QUYẾT

Toán học cơ bản: Đại số tuyến tính (ma trận, véc-tơ), Giải tích (đạo hàm, tối ưu hóa cơ bản).
Thống kê căn bản: Phân phối xác suất, kỳ vọng có điều kiện, trung vị, phân vị.
Kinh tế lượng nhập môn: Hiểu sâu về hồi quy OLS, các giả định, ước lượng và suy diễn thống kê (kiểm định t, kiểm định F).
Stata cơ bản: Nhập và quản lý dữ liệu, các lệnh summarize, regress, và đọc hiểu kết quả Stata.

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Nắm vững sự khác biệt giữa hồi quy trung bình và hồi quy phân vị, cũng như cơ sở lý thuyết của ước lượng LAD.
Thực hành thành thạo: Sử dụng Stata để ước lượng các mô hình hồi quy phân vị, tính toán sai số chuẩn và diễn giải kết quả một cách tự tin.
Phân tích thực tế: Có khả năng áp dụng hồi quy phân vị để phân tích sự không đồng nhất trong tác động của các biến số lên các phân vị khác nhau của biến kết quả.
Tư duy phản biện: Nhận biết được các ưu điểm, nhược điểm và các vấn đề tiềm ẩn khi áp dụng hồi quy phân vị trong nghiên cứu thực tế.

TÀI LIỆU THAM KHẢO

Chính: Hansen, B. E. (2022). Econometrics. Princeton University Press. (Chương 24).
Bổ sung: Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning. (Cung cấp nền tảng OLS dễ hiểu).
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Stata Press. (Nhiều ví dụ thực hành nâng cao).
Kinh điển: Koenker, R. (2005). Quantile Regression. Cambridge University Press. (Tài liệu tham khảo sâu cho các bạn muốn nghiên cứu chuyên sâu).

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài. Bộ dữ liệu này mô phỏng thu nhập của sinh viên mới ra trường dựa trên một số đặc điểm. Điều này sẽ giúp chúng ta tập trung vào việc học phương pháp mà không bị phân tâm bởi các vấn đề phức tạp của dữ liệu thực tế.

Hãy mở Stata và chạy đoạn code dưới đây để tạo và lưu bộ dữ liệu student_income.dta. Chúng ta sẽ sử dụng tệp này trong các bài học tiếp theo.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO HỒI QUY PHÂN VỊ
* Mục đích: Tạo bộ dữ liệu đơn giản về thu nhập sinh viên
* ==================================================

* Xóa bộ nhớ và cài đặt số quan sát
clear
set obs 1000
set seed 12345 // Để đảm bảo kết quả có thể tái lập

* --- TẠO CÁC BIẾN ĐỘC LẬP ---

* gpa: Điểm trung bình, phân phối đều từ 2.5 đến 4.0
gen gpa = 2.5 + (4 - 2.5) * runiform()

* internships: Số kỳ thực tập (0, 1, 2, 3), giả định 40% không đi, 30% đi 1 kỳ, 20% đi 2 kỳ, 10% đi 3 kỳ
gen internships = 0
replace internships = 1 in 401/700
replace internships = 2 in 701/900
replace internships = 3 in 901/1000

* is_stem: Biến giả cho ngành STEM (1=STEM, 0=Khác), giả định 50%
gen is_stem = (runiform() > 0.5)

* --- TẠO BIẾN PHỤ THUỘC (THU NHẬP) VỚI HIỆU ỨNG KHÔNG ĐỒNG NHẤT ---

* Tạo một sai số có phương sai thay đổi (heteroskedastic error)
* Phương sai của sai số sẽ lớn hơn đối với những người có GPA cao
gen error = rnormal(0, 1 + 2*gpa)

* Tạo biến thu nhập (đơn vị: triệu VND/tháng)
* Tác động của GPA lên thu nhập sẽ lớn hơn đối với những người có thu nhập cao (tương tác với sai số)
gen income = 5 + 2*gpa + 1.5*internships + 3*is_stem + error

* Gán nhãn cho các biến để dễ hiểu
label var income "Thu nhập khởi điểm (triệu VND/tháng)"
label var gpa "Điểm GPA hệ 4"
label var internships "Số kỳ thực tập đã hoàn thành"
label var is_stem "Tốt nghiệp ngành STEM (1=Có)"

* Lưu bộ dữ liệu để sử dụng cho các bài sau
save "student_income.dta", replace

* Xem qua dữ liệu vừa tạo
summarize income gpa internships is_stem

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO HỒI QUY PHÂN VỊ
* Mục đích: Tạo bộ dữ liệu đơn giản về thu nhập sinh viên
* ==================================================

* Xóa bộ nhớ và cài đặt số quan sát
clear
set obs 1000
set seed 12345 // Để đảm bảo kết quả có thể tái lập

* --- TẠO CÁC BIẾN ĐỘC LẬP ---

* gpa: Điểm trung bình, phân phối đều từ 2.5 đến 4.0
gen gpa = 2.5 + (4 - 2.5) * runiform()

* internships: Số kỳ thực tập (0, 1, 2, 3), giả định 40% không đi, 30% đi 1 kỳ, 20% đi 2 kỳ, 10% đi 3 kỳ
gen internships = 0
replace internships = 1 in 401/700
replace internships = 2 in 701/900
replace internships = 3 in 901/1000

* is_stem: Biến giả cho ngành STEM (1=STEM, 0=Khác), giả định 50%
gen is_stem = (runiform() > 0.5)

* --- TẠO BIẾN PHỤ THUỘC (THU NHẬP) VỚI HIỆU ỨNG KHÔNG ĐỒNG NHẤT ---

* Tạo một sai số có phương sai thay đổi (heteroskedastic error)
* Phương sai của sai số sẽ lớn hơn đối với những người có GPA cao
gen error = rnormal(0, 1 + 2*gpa)

* Tạo biến thu nhập (đơn vị: triệu VND/tháng)
* Tác động của GPA lên thu nhập sẽ lớn hơn đối với những người có thu nhập cao (tương tác với sai số)
gen income = 5 + 2*gpa + 1.5*internships + 3*is_stem + error

* Gán nhãn cho các biến để dễ hiểu
label var income "Thu nhập khởi điểm (triệu VND/tháng)"
label var gpa "Điểm GPA hệ 4"
label var internships "Số kỳ thực tập đã hoàn thành"
label var is_stem "Tốt nghiệp ngành STEM (1=Có)"

* Lưu bộ dữ liệu để sử dụng cho các bài sau
save "student_income.dta", replace

* Xem qua dữ liệu vừa tạo
summarize income gpa internships is_stem

Hướng dẫn: Sao chép toàn bộ đoạn code trên, dán vào Do-file của Stata và chạy. Một tệp có tên student_income.dta sẽ được tạo trong thư mục làm việc hiện tại của bạn. Hãy chắc chắn rằng bạn biết tệp này được lưu ở đâu nhé!

📚 Bài tiếp theo: Giới thiệu Hồi quy Trung vị và LAD

💡 Lưu ý: Hãy đảm bảo bạn đã chạy code để tạo bộ dữ liệu mô phỏng. Việc có sẵn dữ liệu sẽ giúp bạn thực hành ngay lập tức trong các bài học tới.