Hồi quy phi tham số

Giới thiệu chuỗi bài học về hồi quy phi tham số

Chào mừng các bạn sinh viên đến với chuỗi bài học chuyên sâu về một trong những công cụ hiện đại và mạnh mẽ nhất của kinh tế lượng: Hồi quy phi tham số. Trong kinh tế lượng cơ bản, chúng ta thường bắt đầu với giả định rằng mối quan hệ giữa các biến là tuyến tính, ví dụ như mô hình OLS. Tuy nhiên, thế giới thực tế hiếm khi đơn giản như vậy. Mối quan hệ giữa trình độ học vấn và thu nhập, hay giữa chi tiêu quảng cáo và doanh thu, thường có những hình dạng phức tạp và phi tuyến tính mà một đường thẳng không thể nắm bắt hết được. Vậy làm thế nào để chúng ta có thể mô hình hóa những mối quan hệ phức tạp này mà không cần áp đặt trước một dạng hàm cụ thể? Câu trả lời nằm ở các phương pháp phi tham số.

Chuỗi bài học này, dựa trên nền tảng kiến thức từ chương 19 của cuốn sách “Econometrics” (2022) của Giáo sư Bruce E. Hansen, sẽ dẫn dắt các bạn từng bước khám phá thế giới của hồi quy phi tham số. Chúng ta sẽ bắt đầu từ những ý tưởng trực quan nhất như “lấy trung bình cục bộ” và dần dần xây dựng nên các bộ ước lượng tinh vi như Hồi quy Kernel và Hồi quy Tuyến tính Cục bộ. Mục tiêu của chuỗi bài viết không chỉ là giới thiệu công thức, mà là giúp các bạn xây dựng một tư duy phân tích linh hoạt, biết cách “để dữ liệu tự kể câu chuyện của nó”. Chúng ta sẽ cùng nhau tìm hiểu các khái niệm cốt lõi, cách triển khai chúng trong Stata, và quan trọng nhất là cách diễn giải kết quả một cách có ý nghĩa.

Để bắt đầu hành trình này, hãy làm quen với ba khái niệm nền tảng sẽ đồng hành cùng chúng ta:

Hồi quy Kernel (Kernel Regression): Đây là kỹ thuật cốt lõi, sử dụng một “hàm trọng số” (kernel) để tính trung bình có trọng số của các điểm dữ liệu lân cận, từ đó làm mượt và ước lượng mối quan hệ tại một điểm cụ thể.
Băng thông (Bandwidth): Đây là tham số quan trọng nhất trong hồi quy kernel, quyết định mức độ “làm mượt”. Một băng thông hẹp sẽ tạo ra một đường hồi quy gồ ghề, bám sát dữ liệu, trong khi một băng thông rộng sẽ tạo ra một đường cong mượt mà hơn.
Hồi quy Tuyến tính Cục bộ (Local Linear Regression): Một phiên bản cải tiến của hồi quy kernel, thay vì chỉ lấy trung bình cục bộ, nó chạy một mô hình hồi quy tuyến tính trong một “cửa sổ” nhỏ của dữ liệu, giúp giảm thiên lệch, đặc biệt ở các vùng biên.

Bài 1: Giới thiệu về hồi quy phi tham số
Chúng ta sẽ tìm hiểu các khái niệm cơ bản nhất, bắt đầu từ ý tưởng trực quan về làm mượt dữ liệu và các bộ ước lượng đầu tiên.
Bài 2: Các bộ ước lượng Kernel nâng cao
Bài học này sẽ giới thiệu các phương pháp mạnh mẽ hơn như hồi quy tuyến tính cục bộ, giúp giải quyết một số hạn chế của các phương pháp cơ bản.
Bài 3: Thuộc tính thống kê của các bộ ước lượng
Chúng ta sẽ đi sâu vào lý thuyết, tìm hiểu về sự đánh đổi quan trọng giữa thiên lệch và phương sai, một khái niệm cốt lõi trong thống kê.
Bài 4: Lựa chọn băng thông trong thực hành
Đây là bài học cực kỳ thực tế, hướng dẫn các bạn cách lựa chọn tham số băng thông một cách khoa học bằng các phương pháp phổ biến nhất.
Bài 5: Suy luận thống kê và các vấn đề đặc biệt
Sau khi có ước lượng, làm thế nào để đánh giá độ tin cậy của nó? Chúng ta sẽ học cách xây dựng khoảng tin cậy và xử lý các tình huống khó.
Bài 6: Mở rộng cho hồi quy đa biến và bán tuyến tính
Thế giới thực có nhiều hơn một biến giải thích. Bài học này sẽ chỉ cho bạn cách mở rộng mô hình và đối phó với “lời nguyền của chiều không gian”.
Bài 7: Phân tích dữ liệu cụm và ứng dụng
Chúng ta sẽ tìm hiểu cách áp dụng các phương pháp này cho các loại dữ liệu phức tạp hơn như dữ liệu cụm và xem xét các ví dụ ứng dụng thực tế.
Bài 8: Hướng dẫn thực hành tổng hợp với Stata
Bài học cuối cùng sẽ tổng kết tất cả kiến thức đã học thông qua một bài thực hành phân tích dữ liệu hoàn chỉnh từ đầu đến cuối bằng Stata.

KIẾN THỨC TIÊN QUYẾT

Xác suất Thống kê: Hiểu về hàm mật độ xác suất (PDF), kỳ vọng có điều kiện, phương sai, và các định lý giới hạn trung tâm.
Kinh tế lượng cơ bản: Nắm vững mô hình hồi quy OLS, ý nghĩa của hệ số hồi quy, sai số chuẩn và kiểm định giả thuyết.
Toán học: Có kiến thức cơ bản về giải tích (đạo hàm bậc một, bậc hai) và khai triển Taylor.
Stata cơ bản: Biết cách nhập dữ liệu, sử dụng các lệnh cơ bản như summarize, regress, và tạo đồ thị twoway scatter.

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Nắm vững các khái niệm cốt lõi đằng sau hồi quy phi tham số và sự đánh đổi giữa thiên lệch-phương sai.
Thực hành thành thạo: Sử dụng Stata một cách tự tin để ước lượng các mô hình hồi quy kernel và tuyến tính cục bộ.
Lựa chọn mô hình: Biết cách lựa chọn băng thông một cách có hệ thống bằng các phương pháp như kiểm định chéo (cross-validation).
Diễn giải kết quả: Có khả năng phân tích kết quả hồi quy phi tham số, vẽ đồ thị và rút ra các kết luận kinh tế có ý nghĩa.
Tư duy phản biện: Nhận biết được ưu điểm, nhược điểm và các cạm bẫy tiềm tàng của các phương pháp phi tham số, như “lời nguyền của chiều không gian”.

TÀI LIỆU THAM KHẢO

Chính: Hansen, B. E. (2022). Econometrics. Princeton University Press. (Chương 19).
Bổ sung dễ hiểu: Wooldridge, J. M. (2019). Introductory econometrics: A modern approach. Cengage learning.
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics using Stata. Stata press.
Nâng cao: Li, Q., & Racine, J. S. (2007). Nonparametric econometrics: Theory and practice. Princeton university press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan và dễ dàng thực hành, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng trong suốt chuỗi bài viết này. Bộ dữ liệu này mô phỏng mối quan hệ phi tuyến giữa kinh nghiệm làm việc và logarit tiền lương của một nhóm người lao động. Hãy mở Stata, chạy đoạn code dưới đây để tạo và lưu dữ liệu. Chúng ta sẽ sử dụng tệp nonparametric_wage.dta này trong các bài học tiếp theo.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu đơn giản với mối quan hệ phi tuyến
* để thực hành các kỹ thuật hồi quy phi tham số.
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 1000

* Đặt một seed để kết quả có thể tái lặp lại
set seed 12345

* --- Bước 1: Tạo biến độc lập (Kinh nghiệm) ---
* Giả sử kinh nghiệm (experience) được phân phối đều từ 0 đến 40 năm
gen experience = runiform() * 40

* --- Bước 2: Tạo mối quan hệ phi tuyến thực sự (m(x)) ---
* Đây là "sự thật ngầm hiểu" mà chúng ta sẽ cố gắng ước lượng.
* Mối quan hệ này có dạng logarit, tăng nhanh lúc đầu và chậm dần về sau.
* Thêm một chút gợn sóng (sin) để làm cho nó thú vị hơn.
gen m_x = 2 + 0.08*experience - 0.001*experience^2 + 0.1*sin(experience/2)

* --- Bước 3: Tạo sai số ngẫu nhiên (e) ---
* Giả định sai số có phân phối chuẩn với trung bình 0
* và phương sai thay đổi (heteroskedasticity) - phương sai lớn hơn ở người có nhiều kinh nghiệm
gen error = rnormal(0, 0.15 + 0.005*experience)

* --- Bước 4: Tạo biến phụ thuộc (Log(Lương)) ---
* Biến phụ thuộc được quan sát là tổng của mối quan hệ thực và sai số
gen log_wage = m_x + error

* --- Bước 5: Dán nhãn cho các biến để dễ hiểu ---
label variable experience "Kinh nghiệm làm việc (năm)"
label variable log_wage "Logarit của lương giờ"
label variable m_x "Hàm hồi quy thực (không quan sát được)"

* --- Bước 6: Lưu bộ dữ liệu để sử dụng sau này ---
* Hãy chắc chắn rằng bạn thay "D:/your_folder/" bằng đường dẫn đến thư mục làm việc của bạn
save "nonparametric_wage.dta", replace

* --- Bước 7: (Tùy chọn) Vẽ đồ thị để xem dữ liệu ---
* Vẽ biểu đồ phân tán của dữ liệu và đường hồi quy thực
twoway (scatter log_wage experience, msymbol(Oh) mcolor(%30)) ///
       (line m_x experience, sort lcolor(red)), ///
       title("Dữ liệu mô phỏng: Lương và Kinh nghiệm") ///
       ytitle("Log(Lương)") xtitle("Kinh nghiệm (năm)") ///
       legend(label(1 "Dữ liệu quan sát") label(2 "Mối quan hệ thực"))

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu đơn giản với mối quan hệ phi tuyến
* để thực hành các kỹ thuật hồi quy phi tham số.
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 1000

* Đặt một seed để kết quả có thể tái lặp lại
set seed 12345

* --- Bước 1: Tạo biến độc lập (Kinh nghiệm) ---
* Giả sử kinh nghiệm (experience) được phân phối đều từ 0 đến 40 năm
gen experience = runiform() * 40

* --- Bước 2: Tạo mối quan hệ phi tuyến thực sự (m(x)) ---
* Đây là "sự thật ngầm hiểu" mà chúng ta sẽ cố gắng ước lượng.
* Mối quan hệ này có dạng logarit, tăng nhanh lúc đầu và chậm dần về sau.
* Thêm một chút gợn sóng (sin) để làm cho nó thú vị hơn.
gen m_x = 2 + 0.08*experience - 0.001*experience^2 + 0.1*sin(experience/2)

* --- Bước 3: Tạo sai số ngẫu nhiên (e) ---
* Giả định sai số có phân phối chuẩn với trung bình 0
* và phương sai thay đổi (heteroskedasticity) - phương sai lớn hơn ở người có nhiều kinh nghiệm
gen error = rnormal(0, 0.15 + 0.005*experience)

* --- Bước 4: Tạo biến phụ thuộc (Log(Lương)) ---
* Biến phụ thuộc được quan sát là tổng của mối quan hệ thực và sai số
gen log_wage = m_x + error

* --- Bước 5: Dán nhãn cho các biến để dễ hiểu ---
label variable experience "Kinh nghiệm làm việc (năm)"
label variable log_wage "Logarit của lương giờ"
label variable m_x "Hàm hồi quy thực (không quan sát được)"

* --- Bước 6: Lưu bộ dữ liệu để sử dụng sau này ---
* Hãy chắc chắn rằng bạn thay "D:/your_folder/" bằng đường dẫn đến thư mục làm việc của bạn
save "nonparametric_wage.dta", replace

* --- Bước 7: (Tùy chọn) Vẽ đồ thị để xem dữ liệu ---
* Vẽ biểu đồ phân tán của dữ liệu và đường hồi quy thực
twoway (scatter log_wage experience, msymbol(Oh) mcolor(%30)) ///
       (line m_x experience, sort lcolor(red)), ///
       title("Dữ liệu mô phỏng: Lương và Kinh nghiệm") ///
       ytitle("Log(Lương)") xtitle("Kinh nghiệm (năm)") ///
       legend(label(1 "Dữ liệu quan sát") label(2 "Mối quan hệ thực"))

📚 Bài tiếp theo: Giới thiệu về hồi quy phi tham số

💡 Lưu ý: Hãy đảm bảo bạn đã chạy đoạn code trên và lưu thành công tệp nonparametric_wage.dta. Việc có sẵn dữ liệu sẽ giúp bạn thực hành ngay lập tức trong các bài học tới.