Mô hình biến phụ thuộc giới hạn

Trong kinh tế lượng cổ điển, mô hình hồi quy tuyến tính (CLRM) là công cụ nền tảng, nhưng nó đòi hỏi một giả định quan trọng: biến phụ thuộc phải có khả năng nhận giá trị trên toàn bộ trục số thực, từ âm vô cùng đến dương vô cùng. Tuy nhiên, trong thực tế, rất nhiều biến số kinh tế mà chúng ta quan tâm lại không tuân thủ giả định này. Chẳng hạn, một người chỉ có hai lựa chọn: tham gia hoặc không tham gia lực lượng lao động; một hộ gia đình quyết định mua hoặc không mua ô tô; số giờ làm việc không thể là một giá trị âm. Những biến số có phạm vi giá trị bị giới hạn như vậy được gọi là biến phụ thuộc hạn chế (limited dependent variables).

Việc áp dụng mô hình OLS truyền thống cho các biến phụ thuộc hạn chế sẽ dẫn đến những ước lượng chệch, không hiệu quả và đưa ra các dự báo vô nghĩa (ví dụ, xác suất lớn hơn 1 hoặc nhỏ hơn 0). Do đó, một loạt các mô hình kinh tế lượng chuyên biệt đã được phát triển để phân tích chính xác các loại dữ liệu này, mở ra cánh cửa để mô hình hóa các hành vi lựa chọn và ra quyết định trong kinh tế và khoa học xã hội. Chuỗi bài viết này sẽ cung cấp một cái nhìn tổng quan toàn diện, đi từ lý thuyết nền tảng đến ứng dụng thực hành với Stata, về các mô hình biến phụ thuộc hạn chế.

Các từ khóa chính bạn sẽ nắm vững sau chuỗi bài học này bao gồm: biến phụ thuộc hạn chế, mô hình logit/probit, và thiên lệch chọn mẫu. Mục tiêu của chúng tôi là trang bị cho bạn không chỉ kiến thức lý thuyết vững chắc mà còn cả kỹ năng thực hành cần thiết để tự tin áp dụng các mô hình này vào nghiên cứu của riêng mình, từ việc ước lượng các tham số đến diễn giải kết quả một cách sâu sắc.

Cấu trúc chuỗi bài học

Bài 1: Nền tảng Mô hình Lựa chọn Nhị phân và Mô hình Xác suất Tuyến tính (LPM) – Khám phá những hạn chế của OLS và bước đầu tiếp cận mô hình lựa chọn.
Bài 2: Mô hình Logit và Probit – Đi sâu vào hai mô hình phổ biến nhất cho biến phụ thuộc nhị phân và kỹ thuật ước lượng Maximum Likelihood.
Bài 3: Hồi quy với Dữ liệu Cắt ngắn (Truncated) và Kiểm duyệt (Censored) – Tìm hiểu cách xử lý dữ liệu khi các quan sát bị giới hạn ở một ngưỡng nhất định qua mô hình Tobit.
Bài 4: Xử lý Thiên lệch Chọn mẫu (Heckman) và Mô hình Logit Đa thức – Giải quyết các vấn đề nâng cao khi mẫu không ngẫu nhiên và khi biến phụ thuộc có nhiều hơn hai lựa chọn.
Bài 5: Hướng dẫn Thực hành Phân tích Lựa chọn Nhị phân với Stata – Một bài thực hành tổng hợp từ A-Z trên bộ dữ liệu thực tế.

Kiến thức tiên quyết

Kinh tế lượng căn bản: Hiểu rõ về mô hình hồi quy OLS, các giả định cổ điển và cách diễn giải hệ số.
Thống kê suy luận: Nắm vững các khái niệm về ước lượng, kiểm định giả thuyết, phân phối xác suất (đặc biệt là phân phối chuẩn).
Stata cơ bản: Quen thuộc với giao diện Stata, quản lý dữ liệu (data management), và thực thi các lệnh hồi quy cơ bản.

Mục tiêu học tập

Nắm vững cơ sở lý thuyết và các giả định đằng sau các mô hình biến phụ thuộc hạn chế phổ biến (LPM, Logit, Probit, Tobit, Heckman).
Thực hiện thành thạo việc ước lượng, kiểm định và diễn giải kết quả của các mô hình này bằng phần mềm Stata.
Phân biệt và lựa chọn được mô hình phù hợp cho các vấn đề nghiên cứu cụ thể liên quan đến dữ liệu bị giới hạn, cắt ngắn, hoặc có tính chọn mẫu.
Hiểu và tính toán được các hiệu ứng biên (marginal effects) để lượng hóa tác động của các biến giải thích lên xác suất xảy ra sự kiện.

Tài liệu tham khảo chính

Das, P. (2019). Econometrics in theory and practice: Analysis of cross section, time series and panel data with Stata 15.1. Springer Nature Singapore.
Heckman, J. (1979). Sample Selection Bias as a Specification Error. Econometrica, 47, 153–161.
McFadden, D. (1974). Conditional Logit Analysis of Qualitative Choice Behavior. In P. Zarembka (Ed.), Frontiers in Econometrics (pp. 105–142). New York: Academic Press.
Tobin, J. (1958). Estimation of Relationships for Limited Dependent Variables. Econometrica, 26, 24–36.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để thuận tiện cho việc thực hành, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản về quyết định tham gia lực lượng lao động của phụ nữ. Dữ liệu này được tạo ra để minh họa các khái niệm cốt lõi trong suốt chuỗi bài viết.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO MÔ HÌNH LỰA CHỌN NHỊ PHÂN
* Mục đích: Minh họa các mô hình Logit/Probit
* Tác giả: GS. Kinh tế lượng & Thống kê Ứng dụng
* ==================================================

clear
set obs 2000
set seed 12345

* Tạo các biến giải thích
gen educ = rpoisson(12)      // Số năm đi học
gen age = 25 + rnormal(0, 5) // Tuổi
gen num_kids = rpoisson(1.5) // Số con nhỏ

* Tạo biến tiềm ẩn (latent variable) cho quyết định tham gia lao động
* y* = -5 + 0.5*educ + 0.1*age - 1.2*num_kids + ε
gen error = rnormal(0, 2)
gen y_star = -5 + 0.5*educ + 0.1*age - 1.2*num_kids + error

* Tạo biến phụ thuộc nhị phân quan sát được (lfp: labor force participation)
* lfp = 1 nếu y* > 0, và lfp = 0 nếu ngược lại
gen lfp = (y_star > 0)

* Gán nhãn cho các biến
label var educ "Số năm đi học"
label var age "Tuổi của người phụ nữ"
label var num_kids "Số con nhỏ trong gia đình"
label var lfp "Tham gia lực lượng lao động (1=Có, 0=Không)"

* Lưu dữ liệu
compress
save "ldv_simulation_data.dta", replace

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO MÔ HÌNH LỰA CHỌN NHỊ PHÂN
* Mục đích: Minh họa các mô hình Logit/Probit
* Tác giả: GS. Kinh tế lượng & Thống kê Ứng dụng
* ==================================================

clear
set obs 2000
set seed 12345

* Tạo các biến giải thích
gen educ = rpoisson(12)      // Số năm đi học
gen age = 25 + rnormal(0, 5) // Tuổi
gen num_kids = rpoisson(1.5) // Số con nhỏ

* Tạo biến tiềm ẩn (latent variable) cho quyết định tham gia lao động
* y* = -5 + 0.5*educ + 0.1*age - 1.2*num_kids + ε
gen error = rnormal(0, 2)
gen y_star = -5 + 0.5*educ + 0.1*age - 1.2*num_kids + error

* Tạo biến phụ thuộc nhị phân quan sát được (lfp: labor force participation)
* lfp = 1 nếu y* > 0, và lfp = 0 nếu ngược lại
gen lfp = (y_star > 0)

* Gán nhãn cho các biến
label var educ "Số năm đi học"
label var age "Tuổi của người phụ nữ"
label var num_kids "Số con nhỏ trong gia đình"
label var lfp "Tham gia lực lượng lao động (1=Có, 0=Không)"

* Lưu dữ liệu
compress
save "ldv_simulation_data.dta", replace

Mô tả biến

lfp: Biến phụ thuộc nhị phân. Nhận giá trị 1 nếu người phụ nữ tham gia lực lượng lao động, 0 nếu ngược lại.
educ: Số năm đi học. Kỳ vọng có tác động dương đến khả năng tham gia lao động.
age: Tuổi của người phụ nữ.
num_kids: Số lượng con nhỏ. Kỳ vọng có tác động âm đến khả năng tham gia lao động do gánh nặng chăm sóc gia đình.

Tải dữ liệu mô phỏng (ldv_simulation_data.dta)

📚 Bài tiếp theo: Nền tảng Mô hình Lựa chọn Nhị phân và Mô hình Xác suất Tuyến tính (LPM)

💡 Lưu ý: Hãy đảm bảo bạn đã nắm vững các kiến thức tiên quyết và mục tiêu học tập trước khi bắt đầu bài học đầu tiên để có trải nghiệm tốt nhất.