Giới thiệu về các mô hình phi tuyến trong kinh tế lượng

An Introduction to Nonlinear models in Econometrics

Tổng quan về chuỗi bài học

Chào mừng các bạn đã đến với chuỗi bài học về các mô hình phi tuyến, một trong những công cụ mạnh mẽ và phổ biến nhất trong kho tàng kinh tế lượng ứng dụng. Trong thực tế, rất nhiều biến số kinh tế mà chúng ta quan tâm không phải là biến liên tục. Ví dụ, một người quyết định có mua nhà hay không (có/không), một hộ gia đình có bao nhiêu chiếc xe (một số đếm), hay mức độ hài lòng của khách hàng được xếp loại như thế nào (thấp, trung bình, cao). Các mô hình tuyến tính cổ điển như OLS không thể xử lý hiệu quả những loại biến kết quả này. Đây chính là lúc các mô hình phi tuyến phát huy vai trò của mình.

Chuỗi bài viết này sẽ trang bị cho các bạn kiến thức từ cơ bản đến nâng cao để có thể tự tin làm chủ các mô hình như Hồi quy Logistic, Hồi quy Poisson và nhiều ứng dụng khác. Điểm đặc biệt của chuỗi bài là sự tập trung vào việc diễn giải kết quả. Trong các mô hình phi tuyến, việc hiểu ý nghĩa của các hệ số phức tạp hơn nhiều so với mô hình tuyến tính. Chúng ta sẽ học cách sử dụng các lệnh hậu ước lượng cực kỳ hữu ích trong Stata như margins, contrast, và marginsplot để chuyển hóa những con số thống kê phức tạp thành những diễn giải trực quan và dễ hiểu theo nhiều thước đo khác nhau, từ log-odds, tỷ lệ chênh (odds ratio) cho đến xác suất. Bằng cách tiếp cận từng bước, kết hợp giữa lý thuyết vững chắc và thực hành chi tiết, các bạn sẽ xây dựng được một nền tảng vững chắc để áp dụng các kỹ thuật này vào nghiên cứu của riêng mình.

Cấu trúc chuỗi bài học về mô hình phi tuyến

Để giúp các bạn tiếp cận kiến thức một cách có hệ thống và hiệu quả, chuỗi bài học được thiết kế theo một lộ trình rõ ràng, đi từ những khái niệm nền tảng đến các ứng dụng phức tạp hơn. Mỗi bài viết đều được xây dựng dựa trên kiến thức của bài trước, tạo nên một dòng chảy logic và liền mạch.

Hồi quy Logistic nhị phân – Nền tảng và diễn giải
Khám phá mô hình nền tảng nhất cho biến kết quả có/không, học cách diễn giải hệ số theo log-odds, odds ratio và xác suất.
Mở rộng hồi quy logistic – Mô hình đa thức, thứ tự và poisson
Làm chủ các mô hình cho biến kết quả có nhiều hơn hai lựa chọn, các lựa chọn có thứ bậc, và các biến dạng đếm.
Ứng dụng nâng cao – Tương tác và mô hình gãy khúc trong hồi quy logistic
Tìm hiểu cách mô hình hóa các mối quan hệ phức tạp hơn, chẳng hạn như tác động của một biến thay đổi theo một biến khác.
Bài tập thực hành tổng hợp về mô hình phi tuyến
Áp dụng tất cả kiến thức đã học vào một nghiên cứu tình huống từ đầu đến cuối, rèn luyện kỹ năng phân tích toàn diện.
Bài tổng hợp: Tổng quan và lựa chọn mô hình phi tuyến phù hợp
Hệ thống hóa lại toàn bộ kiến thức, so sánh các mô hình và học cách lựa chọn công cụ phân tích phù hợp nhất cho câu hỏi nghiên cứu.

Kiến thức tiên quyết cần chuẩn bị

Để có thể theo dõi và tiếp thu tốt nhất các nội dung trong chuỗi bài viết này, các bạn cần có sự chuẩn bị trước một số kiến thức và kỹ năng nền tảng. Việc này sẽ giúp bạn không bị bỡ ngỡ và có thể tập trung vào các khái niệm mới của mô hình phi tuyến.

Những gì bạn cần biết trước khi bắt đầu

Kiến thức Hồi quy Tuyến tính: Bạn cần hiểu rõ về mô hình hồi quy tuyến tính đơn và bội (lệnh regress), bao gồm cách diễn giải hệ số, ý nghĩa của R-squared và các kiểm định giả thuyết cơ bản.
Kỹ năng Stata cơ bản: Thành thạo các thao tác cơ bản trong Stata như nhập và quản lý dữ liệu, sử dụng tệp do-file, và hiểu cú pháp lệnh chung, đặc biệt là cách sử dụng tiền tố i. cho biến phân loại.
Thống kê cơ bản: Nắm vững các khái niệm về phân phối xác suất, kiểm định giả thuyết thống kê (giá trị p, khoảng tin cậy), và sự khác biệt giữa các loại biến số (liên tục, phân loại, thứ tự).

Mục tiêu học tập của chuỗi bài viết

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ không chỉ hiểu về lý thuyết mà còn có khả năng áp dụng một cách thành thạo các mô hình phi tuyến vào thực tế. Dưới đây là những kỹ năng và kiến thức cụ thể mà bạn sẽ đạt được.

Nhận diện và lựa chọn mô hình phù hợp: Có khả năng xác định khi nào cần sử dụng mô hình phi tuyến và lựa chọn được mô hình cụ thể (logit, ologit, mlogit, poisson) phù hợp nhất với bản chất của biến kết quả và câu hỏi nghiên cứu.
Xây dựng và ước lượng mô hình trong Stata: Thành thạo việc sử dụng các lệnh Stata để ước lượng các mô hình phi tuyến khác nhau, bao gồm cả các mô hình có biến tương tác và cấu trúc phức tạp.
Diễn giải kết quả một cách toàn diện: Có khả năng diễn giải các hệ số hồi quy theo nhiều thước đo có ý nghĩa: log-odds, tỷ số chênh (odds ratios), và đặc biệt là các tác động biên trên xác suất dự báo (predictive margins of probability).
Trực quan hóa kết quả: Sử dụng thành thạo lệnh marginsplot để tạo ra các biểu đồ trực quan, giúp việc trình bày và diễn giải kết quả của các mô hình phi tuyến trở nên rõ ràng và thuyết phục hơn.
Kiểm tra và so sánh các giả thuyết: Vận dụng lệnh contrast và pwcompare để thực hiện các kiểm định giả thuyết thống kê phức tạp về sự khác biệt giữa các nhóm hoặc các tác động trong mô hình.

Tài liệu tham khảo và học liệu bổ sung

Kiến thức trong chuỗi bài viết này được xây dựng và phát triển dựa trên các tài liệu kinh tế lượng uy tín. Để tìm hiểu sâu hơn, các bạn có thể tham khảo các nguồn tài liệu gốc dưới đây. Đây là những cuốn sách và bài viết kinh điển giúp bạn mở rộng và đào sâu kiến thức của mình.

Mitchell, M. N. (2021). Interpreting and visualizing regression models using Stata (Second edition). Stata Press. (Đây là tài liệu tham khảo chính cho chuỗi bài viết này).
Long, J. S., & Freese, J. (2014). Regression models for categorical dependent variables using Stata (Third edition). Stata Press. (Một nguồn tài liệu tuyệt vời và toàn diện về các mô hình cho biến kết quả phân loại).
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (Third edition). Wiley. (Cuốn sách kinh điển về hồi quy logistic, đi sâu vào cả lý thuyết và ứng dụng).
Gould, W. W. (2000). Interpreting logistic regression in all its forms. Stata Technical Bulletin, 56, 10-28. (Một bài viết hướng dẫn rất hay về cách diễn giải các mô hình logistic).

Phụ lục: Dữ liệu mô phỏng cho thực hành

Trong chuỗi bài này, chúng ta sẽ sử dụng bộ dữ liệu `gss_ivrm` được đề cập trong sách của Mitchell (2021). Tuy nhiên, để các bạn có thể thực hành ngay lập tức mà không cần tìm kiếm tệp dữ liệu gốc, dưới đây là đoạn mã Stata để tạo ra một bộ dữ liệu mô phỏng nhỏ. Bộ dữ liệu này có cấu trúc và tên biến tương tự, giúp bạn dễ dàng theo dõi và thực thi các lệnh trong các bài học.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học về mô hình phi tuyến
* DỮ LIỆU: 1000 quan sát mô phỏng
* CÁC BIẾN CHÍNH:
* - smoke: Hút thuốc (1=có, 0=không)
* - class: Tầng lớp xã hội (1=hạ lưu, 2=lao động, 3=trung lưu, 4=thượng lưu)
* - educ: Số năm đi học (biến liên tục)
* - age: Tuổi (biến liên tục)
* ==================================================

clear
set obs 1000
set seed 12345

* --- Tạo các biến độc lập ---
* Tạo biến tầng lớp xã hội (class)
gen class = runiformint(1, 4)
label define class_lbl 1 "Hạ lưu" 2 "Lao động" 3 "Trung lưu" 4 "Thượng lưu"
label values class class_lbl

* Tạo biến số năm đi học (educ)
gen educ = floor(runiform()*16) + 5  // Số năm đi học từ 5 đến 20

* Tạo biến tuổi (age)
gen age = floor(runiform()*58) + 18 // Tuổi từ 18 đến 75

* --- Tạo biến phụ thuộc (smoke) dựa trên các biến độc lập ---
* Giả định rằng xác suất hút thuốc giảm khi tầng lớp và học vấn tăng
gen prob_smoke = 0.6 - 0.1*(class-1) - 0.02*(educ-5) + 0.001*(age-18)
gen smoke = rbinomial(1, prob_smoke)

* --- Gán nhãn cho các biến ---
label variable smoke "Có hút thuốc hay không"
label variable class "Tầng lớp xã hội tự nhận"
label variable educ "Số năm đi học cao nhất"
label variable age "Tuổi của người được phỏng vấn"

* --- Lưu dữ liệu ---
compress
save "simulated_gss.dta", replace

* --- Xem qua dữ liệu đã tạo ---
describe
summarize
tabulate class smoke, chi2

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học về mô hình phi tuyến
* DỮ LIỆU: 1000 quan sát mô phỏng
* CÁC BIẾN CHÍNH:
* - smoke: Hút thuốc (1=có, 0=không)
* - class: Tầng lớp xã hội (1=hạ lưu, 2=lao động, 3=trung lưu, 4=thượng lưu)
* - educ: Số năm đi học (biến liên tục)
* - age: Tuổi (biến liên tục)
* ==================================================

clear
set obs 1000
set seed 12345

* --- Tạo các biến độc lập ---
* Tạo biến tầng lớp xã hội (class)
gen class = runiformint(1, 4)
label define class_lbl 1 "Hạ lưu" 2 "Lao động" 3 "Trung lưu" 4 "Thượng lưu"
label values class class_lbl

* Tạo biến số năm đi học (educ)
gen educ = floor(runiform()*16) + 5  // Số năm đi học từ 5 đến 20

* Tạo biến tuổi (age)
gen age = floor(runiform()*58) + 18 // Tuổi từ 18 đến 75

* --- Tạo biến phụ thuộc (smoke) dựa trên các biến độc lập ---
* Giả định rằng xác suất hút thuốc giảm khi tầng lớp và học vấn tăng
gen prob_smoke = 0.6 - 0.1*(class-1) - 0.02*(educ-5) + 0.001*(age-18)
gen smoke = rbinomial(1, prob_smoke)

* --- Gán nhãn cho các biến ---
label variable smoke "Có hút thuốc hay không"
label variable class "Tầng lớp xã hội tự nhận"
label variable educ "Số năm đi học cao nhất"
label variable age "Tuổi của người được phỏng vấn"

* --- Lưu dữ liệu ---
compress
save "simulated_gss.dta", replace

* --- Xem qua dữ liệu đã tạo ---
describe
summarize
tabulate class smoke, chi2