Chọn mẫu: mô hình hóa thu nhập khi nghề nghiệp được lựa chọn

Chào mừng các bạn sinh viên đến với chuỗi bài học chuyên sâu về một trong những vấn đề kinh tế lượng phổ biến và quan trọng nhất trong phân tích dữ liệu vi mô: sai lệch chọn mẫu (sample selection bias). Trong thực tế, hiếm khi chúng ta có được một mẫu dữ liệu hoàn toàn ngẫu nhiên. Ví dụ, khi nghiên cứu về các yếu tố ảnh hưởng đến tiền lương, chúng ta chỉ có thể thu thập dữ liệu từ những người có việc làm. Vậy những người không có việc làm thì sao? Liệu việc bỏ qua họ có khiến kết quả phân tích của chúng ta bị sai lệch không? Câu trả lời là rất có thể!

Chuỗi bài học này sẽ dẫn dắt các bạn đi từ việc nhận diện vấn đề, tìm hiểu nền tảng lý thuyết, cho đến việc áp dụng một công cụ kinh điển để giải quyết nó: mô hình lựa chọn của Heckman. Chúng ta sẽ cùng nhau khám phá cách mà các yếu tố không quan sát được (như năng lực, động lực) có thể tạo ra mối tương quan “ngầm” giữa quyết định tham gia vào mẫu (ví dụ: quyết định đi làm) và kết quả mà chúng ta quan tâm (ví dụ: mức lương nhận được). Hiểu rõ vấn đề này không chỉ giúp các bạn thực hiện các nghiên cứu chính xác hơn mà còn rèn luyện tư duy phản biện khi đọc các tài liệu khoa học.

Xuyên suốt các bài học, chúng ta sẽ tập trung vào ba khái niệm cốt lõi:

Sai lệch chọn mẫu (Sample Selection Bias): Hiểu rõ bản chất của sai lệch phát sinh khi mẫu dữ liệu không phải là đại diện ngẫu nhiên của tổng thể, dẫn đến các ước lượng OLS bị chệch.
Mô hình Heckman (Heckman Model): Học về phương pháp hai bước nổi tiếng để hiệu chỉnh sai lệch chọn mẫu, bao gồm một phương trình lựa chọn (selection equation) và một phương trình kết quả (outcome equation).
Tỷ số Mills Nghịch đảo (Inverse Mills Ratio – IMR): Tìm hiểu về biến số đặc biệt được tạo ra từ bước đầu tiên của mô hình Heckman, có vai trò như một “biến kiểm soát” cho các yếu tố không quan sát được gây ra sai lệch.

Mục tiêu của chúng ta không chỉ dừng lại ở lý thuyết. Các bạn sẽ được hướng dẫn từng bước để có thể tự tay thực hiện toàn bộ quy trình này bằng phần mềm Stata, từ việc ước lượng mô hình đến diễn giải kết quả một cách sâu sắc.

Cấu trúc chuỗi bài học

Bài 1: Hiểu rõ vấn đề sai lệch chọn mẫu và nền tảng lý thuyết
Chúng ta sẽ bắt đầu bằng việc định nghĩa vấn đề, xây dựng các phương trình toán học cốt lõi và hiểu tại sao OLS thông thường lại thất bại.
Bài 2: Trực giác kinh tế, ví dụ ứng dụng và các mô hình liên quan
Bài học này sẽ giúp bạn xây dựng trực giác, phân tích một ví dụ thực tế về thị trường lao động và phân biệt sai lệch chọn mẫu với các vấn đề khác.
Bài 3: Hướng dẫn thực hành mô hình Heckman với Stata
Đây là bài học thực hành quan trọng nhất, nơi chúng ta sẽ cùng nhau triển khai toàn bộ quy trình phân tích trên Stata, từ chuẩn bị dữ liệu đến diễn giải kết quả.

KIẾN THỨC TIÊN QUYẾT

Kinh tế lượng cơ bản: Nắm vững mô hình hồi quy OLS, ý nghĩa của các giả định và hiểu về sai lệch do bỏ sót biến.
Mô hình xác suất: Có kiến thức nền tảng về mô hình Probit (hoặc Logit), hiểu cách diễn giải hệ số và xác suất dự báo.
Thống kê căn bản: Hiểu về các khái niệm phân phối chuẩn, kỳ vọng có điều kiện, phương sai và hiệp phương sai.
Stata cơ bản: Quen thuộc với các lệnh cơ bản như regress, probit, summarize, và quản lý dữ liệu.

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Giải thích được tại sao và khi nào sai lệch chọn mẫu xảy ra, cũng như logic đằng sau phương pháp hiệu chỉnh Heckman.
Thực hành thành thạo: Sử dụng lệnh heckman trong Stata một cách tự tin để ước lượng mô hình lựa chọn hai bước.
Phân tích kết quả: Diễn giải chính xác ý nghĩa của các hệ số trong cả phương trình lựa chọn và phương trình kết quả, đặc biệt là hệ số của Tỷ số Mills Nghịch đảo.
Tư duy phản biện: Nhận biết được tầm quan trọng của các ràng buộc loại trừ (exclusion restrictions) và các giả định của mô hình.

TÀI LIỆU THAM KHẢO

Chính: Francis, M. (2015). Empirical Development Economics. (Tài liệu gốc của chuỗi bài viết).
Bổ sung (Lý thuyết): Wooldridge, J. M. (2013). Introductory Econometrics: A Modern Approach. (Đặc biệt là chương về các chủ đề nâng cao trên dữ liệu chéo).
Thực hành (Stata): Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. (Cung cấp nhiều ví dụ thực hành chi tiết và nâng cao).

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp các bạn dễ dàng thực hành, chúng ta sẽ tạo một bộ dữ liệu mô phỏng đơn giản về quyết định đi làm thêm và tiền lương của sinh viên. Bộ dữ liệu này được thiết kế để chứa đựng vấn đề sai lệch chọn mẫu, giúp chúng ta kiểm chứng hiệu quả của mô hình Heckman.

Hãy mở Stata và chạy đoạn code dưới đây để tạo và lưu dữ liệu. Chúng ta sẽ sử dụng file student_wage_selection.dta này trong bài thực hành cuối cùng.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG VỀ LƯƠNG VÀ VIỆC LÀM CỦA SINH VIÊN
* Mục đích: Tạo ra dữ liệu có sẵn sai lệch chọn mẫu để thực hành
* ==================================================

clear
set obs 2000
set seed 12345

* ---- TẠO CÁC BIẾN GIẢI THÍCH ----
* gpa: Điểm trung bình, phân phối đều từ 2.0 đến 4.0
gen gpa = 2 + 2 * runiform()

* study_hours: Số giờ tự học mỗi tuần
gen study_hours = 10 + 20 * runiform()

* has_scholarship: Biến giả, 1 nếu có học bổng, 0 nếu không (40% có)
* Đây sẽ là biến ràng buộc loại trừ của chúng ta!
gen has_scholarship = (runiform() < 0.4)

* ---- TẠO CÁC THÀNH PHẦN SAI SỐ TƯƠNG QUAN ----
* Tạo hai sai số độc lập từ phân phối chuẩn
gen e1 = rnormal()
gen e2 = rnormal()

* Tạo sai số cho phương trình lựa chọn (v) và phương trình lương (u)
* Giả sử chúng có tương quan âm (rho = -0.6)
* Ý nghĩa: Các yếu tố không quan sát được giúp bạn có việc làm (v > 0)
* lại có xu hướng làm giảm lương của bạn (u < 0), ví dụ: chấp nhận lương thấp để có việc.
gen v = e1
gen u = -0.6 * e1 + sqrt(1 - (-0.6)^2) * e2

* ---- XÂY DỰNG PHƯƠNG TRÌNH LỰA CHỌN VÀ PHƯƠNG TRÌNH LƯƠNG ----
* 1. Phương trình lựa chọn (Quyết định đi làm)
* Việc có học bổng (has_scholarship) giúp sinh viên ít có khả năng đi làm hơn
gen work_latent = 1.5 * gpa - 0.05 * study_hours - 2 * has_scholarship - 2 + v
gen employed = (work_latent > 0)

* 2. Phương trình lương (chỉ quan sát được nếu employed = 1)
* Lương (log) phụ thuộc vào GPA và giờ học
gen log_wage = 1.5 + 0.5 * gpa + 0.01 * study_hours + u

* ---- TẠO BIẾN LƯƠNG QUAN SÁT ĐƯỢC ----
* Chỉ quan sát được lương nếu sinh viên có đi làm (employed == 1)
gen wage = exp(log_wage) if employed == 1

* ---- HOÀN THIỆN DỮ LIỆU ----
label var gpa "Điểm GPA của sinh viên"
label var study_hours "Số giờ tự học mỗi tuần"
label var has_scholarship "Có học bổng (1=có)"
label var employed "Có đi làm thêm (1=có)"
label var wage "Lương theo giờ (quan sát được)"

* Lưu dữ liệu để sử dụng sau này
save "student_wage_selection.dta", replace

* Xem qua dữ liệu vừa tạo
summarize gpa study_hours has_scholarship employed wage
tabulate employed

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG VỀ LƯƠNG VÀ VIỆC LÀM CỦA SINH VIÊN
* Mục đích: Tạo ra dữ liệu có sẵn sai lệch chọn mẫu để thực hành
* ==================================================

clear
set obs 2000
set seed 12345

* ---- TẠO CÁC BIẾN GIẢI THÍCH ----
* gpa: Điểm trung bình, phân phối đều từ 2.0 đến 4.0
gen gpa = 2 + 2 * runiform()

* study_hours: Số giờ tự học mỗi tuần
gen study_hours = 10 + 20 * runiform()

* has_scholarship: Biến giả, 1 nếu có học bổng, 0 nếu không (40% có)
* Đây sẽ là biến ràng buộc loại trừ của chúng ta!
gen has_scholarship = (runiform() < 0.4)

* ---- TẠO CÁC THÀNH PHẦN SAI SỐ TƯƠNG QUAN ----
* Tạo hai sai số độc lập từ phân phối chuẩn
gen e1 = rnormal()
gen e2 = rnormal()

* Tạo sai số cho phương trình lựa chọn (v) và phương trình lương (u)
* Giả sử chúng có tương quan âm (rho = -0.6)
* Ý nghĩa: Các yếu tố không quan sát được giúp bạn có việc làm (v > 0)
* lại có xu hướng làm giảm lương của bạn (u < 0), ví dụ: chấp nhận lương thấp để có việc.
gen v = e1
gen u = -0.6 * e1 + sqrt(1 - (-0.6)^2) * e2

* ---- XÂY DỰNG PHƯƠNG TRÌNH LỰA CHỌN VÀ PHƯƠNG TRÌNH LƯƠNG ----
* 1. Phương trình lựa chọn (Quyết định đi làm)
* Việc có học bổng (has_scholarship) giúp sinh viên ít có khả năng đi làm hơn
gen work_latent = 1.5 * gpa - 0.05 * study_hours - 2 * has_scholarship - 2 + v
gen employed = (work_latent > 0)

* 2. Phương trình lương (chỉ quan sát được nếu employed = 1)
* Lương (log) phụ thuộc vào GPA và giờ học
gen log_wage = 1.5 + 0.5 * gpa + 0.01 * study_hours + u

* ---- TẠO BIẾN LƯƠNG QUAN SÁT ĐƯỢC ----
* Chỉ quan sát được lương nếu sinh viên có đi làm (employed == 1)
gen wage = exp(log_wage) if employed == 1

* ---- HOÀN THIỆN DỮ LIỆU ----
label var gpa "Điểm GPA của sinh viên"
label var study_hours "Số giờ tự học mỗi tuần"
label var has_scholarship "Có học bổng (1=có)"
label var employed "Có đi làm thêm (1=có)"
label var wage "Lương theo giờ (quan sát được)"

* Lưu dữ liệu để sử dụng sau này
save "student_wage_selection.dta", replace

* Xem qua dữ liệu vừa tạo
summarize gpa study_hours has_scholarship employed wage
tabulate employed

📚 Bài tiếp theo: Giới thiệu về sai lệch chọn mẫu và nền tảng lý thuyết

💡 Lưu ý: Hãy đảm bảo bạn đã chạy đoạn code trên và lưu lại file dữ liệu. Việc tự tay tạo ra dữ liệu sẽ giúp bạn hiểu sâu hơn về cơ chế gây ra sai lệch chọn mẫu!