Tổng quan về hồi quy bán tham số trong kinh tế lượng

An Overview of Semiparametric Regression in Econometrics

Giới thiệu về hồi quy bán tham số và tầm quan trọng

Chào mừng các bạn đến với chuỗi bài học chuyên sâu về hồi quy bán tham số, một trong những công cụ mạnh mẽ và linh hoạt nhất trong kho tàng kinh tế lượng hiện đại. Trong các chương trước, chúng ta đã làm quen với các mô hình hồi quy tham số, chẳng hạn như OLS, vốn yêu cầu chúng ta phải xác định trước một dạng hàm cụ thể (ví dụ: tuyến tính) cho mối quan hệ giữa các biến. Tuy nhiên, trong thực tế, các mối quan hệ kinh tế thường phức tạp hơn nhiều và không phải lúc nào cũng tuân theo một dạng hàm đơn giản. Đây chính là lúc các phương pháp phi tham số và bán tham số phát huy vai trò của mình.

Hồi quy phi tham số cho phép chúng ta khám phá mối quan hệ giữa các biến mà không cần áp đặt các giả định cứng nhắc về dạng hàm. Thay vì giả định một đường thẳng, chúng ta để cho chính dữ liệu “kể câu chuyện” của nó, qua đó có thể phát hiện ra các mối quan hệ phi tuyến, các điểm gãy cấu trúc, hay các tương tác phức tạp mà mô hình tuyến tính có thể bỏ sót. Tuy nhiên, phương pháp này cũng có một thách thức lớn được gọi là lời nguyền của số chiều (curse of dimensionality).

Để giải quyết vấn đề này, hồi quy bán tham số ra đời như một sự kết hợp thông minh giữa hai thế giới: nó giữ lại sự linh hoạt của các thành phần phi tham số cho những mối quan hệ phức tạp, đồng thời vẫn duy trì cấu trúc tham số cho các phần còn lại của mô hình. Cách tiếp cận này giúp giảm đáng kể yêu cầu về dữ liệu và cho phép chúng ta ước lượng các tác động biên một cách hiệu quả. Trong chuỗi bài học này, chúng ta sẽ cùng nhau khám phá từ những khái niệm cơ bản nhất của hồi quy kernel, hồi quy chuỗi, đến các mô hình ứng dụng mạnh mẽ như mô hình tuyến tính từng phần, mô hình chỉ số đơn, và mô hình cộng tổng quát. Với các hướng dẫn thực hành chi tiết bằng Stata, các bạn sẽ được trang bị đầy đủ kỹ năng để áp dụng những kỹ thuật tiên tiến này vào nghiên cứu của riêng mình.

Cấu trúc chuỗi bài học

Hồi quy Kernel – Nền tảng và Ứng dụng với một biến giải thích
Nắm vững lý thuyết về hồi quy hằng số cục bộ, tuyến tính cục bộ, hàm kernel và lựa chọn băng thông, sau đó áp dụng để phân tích mối quan hệ phi tuyến với một biến.
Mở rộng Hồi quy Kernel và Giới thiệu Hồi quy Chuỗi
Học cách xử lý hồi quy kernel với nhiều biến giải thích và khám phá phương pháp thay thế mạnh mẽ là hồi quy chuỗi (series regression) sử dụng đa thức và splines.
Các Mô hình Bán tham số Phổ biến – Tuyến tính từng phần và Chỉ số đơn
Tìm hiểu hai mô hình bán tham số quan trọng: mô hình tuyến tính từng phần (partial linear model) và mô hình chỉ số đơn (single-index model) cùng ứng dụng thực tế.
Mô hình Cộng tổng quát (Generalized Additive Models – GAM)
Khám phá mô hình GAM, một kỹ thuật linh hoạt để mô hình hóa các hiệu ứng phi tuyến của nhiều biến một cách cộng tính, giúp vượt qua lời nguyền của số chiều.
Bài tập Thực hành Tổng hợp về Hồi quy Bán tham số
Vận dụng tất cả kiến thức đã học vào một bài tập tình huống lớn, từ chuẩn bị dữ liệu, lựa chọn mô hình, ước lượng và diễn giải kết quả một cách chuyên sâu.
Tổng hợp Hồi quy Bán tham số – Kết nối Lý thuyết và Thực tiễn Nghiên cứu
Tổng kết toàn bộ chuỗi bài học, hệ thống hóa kiến thức, so sánh các phương pháp và thảo luận về các hướng nghiên cứu nâng cao trong lĩnh vực này.

Kiến thức tiên quyết

Để theo dõi tốt nhất chuỗi bài học này, các bạn cần có kiến thức nền tảng vững chắc về các chủ đề sau:

Kinh tế lượng cơ bản: Hiểu rõ về mô hình hồi quy tuyến tính OLS, các giả định của nó, kiểm định giả thuyết và diễn giải hệ số.
Xác suất thống kê: Nắm vững các khái niệm về kỳ vọng có điều kiện, hàm mật độ xác suất, và các phân phối xác suất cơ bản.
Sử dụng Stata: Có kinh nghiệm cơ bản về cách nhập dữ liệu, thực hiện các lệnh hồi quy (regress), và tạo biểu đồ trong Stata.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng:

Giải thích sự khác biệt và ưu nhược điểm giữa các phương pháp hồi quy tham số, phi tham số và bán tham số.
Hiểu và áp dụng thành thạo hồi quy kernel (tuyến tính cục bộ và hằng số cục bộ) để phân tích các mối quan hệ phi tuyến.
Thực hiện và diễn giải kết quả từ các mô hình bán tham số phổ biến như mô hình tuyến tính từng phần, mô hình chỉ số đơn và mô hình cộng tổng quát (GAM) bằng Stata.
Lựa chọn phương pháp phù hợp cho các bài toán nghiên cứu cụ thể và đánh giá độ tin cậy của kết quả.
Trực quan hóa các mối quan hệ phi tuyến và tác động biên một cách hiệu quả bằng các lệnh hậu ước lượng trong Stata.

Tài liệu tham khảo

Cameron, A. C., & Trivedi, P. K. (2022). Microeconometrics Using Stata (Second Edition, Revised). Stata Press. (Đây là tài liệu chính cho chuỗi bài viết, đặc biệt là Chương 27).
Li, Q., & Racine, J. S. (2007). Nonparametric Econometrics: Theory and Practice. Princeton University Press. (Một tài liệu tham khảo sâu hơn về lý thuyết nền tảng).
Hansen, B. E. (2022). Econometrics. Princeton University Press. (Cung cấp một cái nhìn tổng quan và súc tích về các phương pháp phi tham số trong các chương 19 và 20).

Phụ lục: Dữ liệu mô phỏng cho chuỗi bài học

Để giúp các bạn dễ dàng theo dõi và thực hành, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài học. Bộ dữ liệu này mô tả mối quan hệ phi tuyến giữa thu nhập (income) và kinh nghiệm làm việc (experience) của 500 cá nhân.

Mối quan hệ thực sự trong dữ liệu được tạo ra theo dạng bậc hai: thu nhập tăng theo kinh nghiệm nhưng với tốc độ chậm dần và sau đó giảm xuống khi kinh nghiệm quá cao (hiệu ứng “learning-by-doing” và sự lỗi thời của kỹ năng). Mô hình hồi quy tuyến tính đơn giản sẽ không nắm bắt được mối quan hệ hình chữ U ngược này, tạo cơ hội hoàn hảo để chúng ta áp dụng các kỹ thuật hồi quy phi tham số và bán tham số.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* TÊN FILE: semiparam_data.dta
* MÔ TẢ: 500 quan sát về thu nhập và kinh nghiệm
* ==================================================

* Bước 1: Xóa bộ nhớ và cài đặt số quan sát
clear
set obs 500
set seed 12345

* Bước 2: Tạo biến kinh nghiệm làm việc (experience)
* Giả định kinh nghiệm phân phối đều từ 1 đến 40 năm
gen experience = runiform()*39 + 1

* Bước 3: Tạo mối quan hệ bậc hai giữa thu nhập và kinh nghiệm
* Thu nhập = 10 + 2*kinh_nghiệm - 0.03*kinh_nghiệm^2 + nhiễu
gen income = 10 + 2*experience - 0.03*experience^2 + rnormal(0, 5)

* Bước 4: Thêm một biến kiểm soát tuyến tính (education)
gen education = rpoisson(14)

* Cập nhật lại biến thu nhập để bao gồm cả giáo dục
replace income = income + 1.5*education

* Bước 5: Đặt nhãn cho các biến để dễ hiểu
label variable experience "Số năm kinh nghiệm làm việc"
label variable income "Thu nhập hàng tháng (triệu VND)"
label variable education "Số năm đi học"

* Bước 6: Lưu bộ dữ liệu để sử dụng trong các bài học sau
save "semiparam_data.dta", replace

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* TÊN FILE: semiparam_data.dta
* MÔ TẢ: 500 quan sát về thu nhập và kinh nghiệm
* ==================================================

* Bước 1: Xóa bộ nhớ và cài đặt số quan sát
clear
set obs 500
set seed 12345

* Bước 2: Tạo biến kinh nghiệm làm việc (experience)
* Giả định kinh nghiệm phân phối đều từ 1 đến 40 năm
gen experience = runiform()*39 + 1

* Bước 3: Tạo mối quan hệ bậc hai giữa thu nhập và kinh nghiệm
* Thu nhập = 10 + 2*kinh_nghiệm - 0.03*kinh_nghiệm^2 + nhiễu
gen income = 10 + 2*experience - 0.03*experience^2 + rnormal(0, 5)

* Bước 4: Thêm một biến kiểm soát tuyến tính (education)
gen education = rpoisson(14)

* Cập nhật lại biến thu nhập để bao gồm cả giáo dục
replace income = income + 1.5*education

* Bước 5: Đặt nhãn cho các biến để dễ hiểu
label variable experience "Số năm kinh nghiệm làm việc"
label variable income "Thu nhập hàng tháng (triệu VND)"
label variable education "Số năm đi học"

* Bước 6: Lưu bộ dữ liệu để sử dụng trong các bài học sau
save "semiparam_data.dta", replace