Dữ liệu bị xén và chọn mẫu

Chào mừng các bạn sinh viên đến với chuỗi bài học về hai chủ đề quan trọng và thường gặp trong phân tích kinh tế lượng thực tế: Hồi quy bị kiểm duyệt (Censored Regression) và Sai lệch chọn mẫu (Sample Selection Bias). Trong thế giới lý tưởng của sách giáo khoa, chúng ta thường giả định rằng dữ liệu luôn đầy đủ và được thu thập một cách ngẫu nhiên. Tuy nhiên, thực tế lại phức tạp hơn nhiều. Dữ liệu chúng ta làm việc cùng thường bị “thiếu hụt” một cách có hệ thống, và nếu không nhận biết và xử lý đúng cách, kết quả phân tích của chúng ta có thể bị sai lệch nghiêm trọng, dẫn đến những kết luận sai lầm.

Hãy tưởng tượng bạn đang nghiên cứu chi tiêu của các hộ gia đình cho một mặt hàng xa xỉ như ô tô. Sẽ có rất nhiều hộ gia đình có chi tiêu bằng 0, không phải vì họ không muốn mua, mà vì họ chưa đủ điều kiện. Đây chính là hiện tượng “kiểm duyệt”. Hoặc khi bạn phân tích mức lương dựa trên một cuộc khảo sát, bạn chỉ có dữ liệu từ những người đã quyết định đi làm, bỏ qua những người không tham gia lực lượng lao động. Quyết định đi làm này có thể không ngẫu nhiên, gây ra “sai lệch chọn mẫu”. Chuỗi bài học này sẽ trang bị cho các bạn những công cụ lý thuyết và kỹ năng thực hành trên Stata để nhận diện và giải quyết những vấn đề này một cách hiệu quả.

Trong chuỗi bài này, chúng ta sẽ cùng nhau tìm hiểu sâu về ba khái niệm cốt lõi:

Mô hình Tobit: Công cụ kinh điển để xử lý các biến phụ thuộc bị giới hạn tại một giá trị (thường là số 0).
Ước lượng CLAD: Một phương pháp thay thế mạnh mẽ hơn khi chúng ta không chắc chắn về giả định phân phối chuẩn của dữ liệu.
Mô hình Heckman: Kỹ thuật hai bước nổi tiếng để điều chỉnh sai lệch gây ra bởi quá trình chọn mẫu không ngẫu nhiên.

Mục tiêu của chúng ta không chỉ dừng lại ở việc hiểu công thức, mà là xây dựng một tư duy phản biện về dữ liệu, giúp các bạn tự tin đối mặt với những thách thức trong các dự án nghiên cứu thực tế sau này.

Cấu trúc chuỗi bài học

Nền tảng về hồi quy bị kiểm duyệt và mô hình Tobit
Chúng ta sẽ bắt đầu bằng việc tìm hiểu hiện tượng kiểm duyệt là gì, tại sao nó gây ra vấn đề và làm quen với mô hình Tobit kinh điển.
Ước lượng mô hình Tobit và độ chệch của OLS
Bài học này sẽ đi sâu vào cách ước lượng mô hình Tobit bằng phương pháp hợp lý tối đa và phân tích chi tiết mức độ sai lệch khi sử dụng OLS.
Các phương pháp ước lượng bán tham số và phi tham số
Chúng ta sẽ khám phá các phương pháp thay thế mạnh mẽ như CLAD và CQR, giúp xử lý vấn đề kiểm duyệt mà không cần các giả định chặt chẽ.
Hiểu về sai lệch chọn mẫu và mô hình Heckman
Bài học này giới thiệu một vấn đề phổ biến khác là sai lệch chọn mẫu và tìm hiểu mô hình hai bước của Heckman để khắc phục nó.
Các mô hình lựa chọn nâng cao và ứng dụng trên dữ liệu bảng
Chúng ta sẽ tìm hiểu các cách tiếp cận phi tham số linh hoạt hơn và cách áp dụng các mô hình này trong bối cảnh dữ liệu bảng phức tạp.
Hướng dẫn thực hành với Stata về hồi quy bị kiểm duyệt và chọn mẫu
Bài học cuối cùng sẽ tổng hợp tất cả kiến thức lý thuyết thông qua một bài thực hành hoàn chỉnh trên Stata, từ việc chuẩn bị dữ liệu đến ước lượng và diễn giải kết quả.

KIẾN THỨC TIÊN QUYẾT

Xác suất thống kê: Hiểu về hàm mật độ xác suất (PDF), hàm phân phối tích lũy (CDF), kỳ vọng có điều kiện, và phân phối chuẩn.
Kinh tế lượng cơ bản: Nắm vững mô hình hồi quy OLS, các giả định Gauss-Markov, và hiểu về chệch do biến bị bỏ qua.
Stata cơ bản: Quen thuộc với các lệnh cơ bản như use, summarize, regress, và cách đọc kết quả hồi quy.
Toán học: Có kiến thức về tối ưu hóa (lấy đạo hàm, tìm cực đại) sẽ là một lợi thế để hiểu về ước lượng hợp lý tối đa (MLE).

MỤC TIÊU HỌC TẬP

Nhận diện vấn đề: Phân biệt được sự khác nhau giữa dữ liệu bị kiểm duyệt, bị cắt xén và sai lệch chọn mẫu trong các bối cảnh thực tế.
Hiểu sâu lý thuyết: Nắm vững cơ sở lý thuyết của các mô hình Tobit, CLAD, và Heckman, bao gồm các giả định và hạn chế của chúng.
Thực hành thành thạo: Sử dụng Stata để ước lượng các mô hình tobit, clad, và heckman một cách tự tin.
Diễn giải kết quả: Có khả năng đọc, hiểu và diễn giải các kết quả từ các mô hình phức tạp này để đưa ra kết luận kinh tế có ý nghĩa.
Tư duy phản biện: Đánh giá được khi nào nên sử dụng mỗi phương pháp và nhận thức được những thách thức trong việc xác định mô hình.

TÀI LIỆU THAM KHẢO

Chính: Hansen, B. E. (2022). Econometrics. Princeton University Press.
Bổ sung dễ hiểu: Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning.
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Stata Press.
Kinh điển: Maddala, G. S. (1983). Limited-Dependent and Qualitative Variables in Econometrics. Cambridge University Press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài viết. Bộ dữ liệu này mô tả quyết định tìm việc và mức lương của 1000 sinh viên mới tốt nghiệp.

Các biến trong dữ liệu:

gpa: Điểm trung bình tích lũy của sinh viên (thang 4).
internships: Số kỳ thực tập đã hoàn thành.
is_stem: Biến giả, =1 nếu sinh viên học ngành STEM, =0 nếu ngược lại.
motivation: Một yếu tố “không quan sát được” về động lực của sinh viên.
wage_offer: Mức lương tiềm năng được mời (biến tiềm ẩn, không phải lúc nào cũng quan sát được).
employed: Biến chỉ báo, =1 nếu sinh viên chấp nhận đi làm, =0 nếu không.
wage: Mức lương quan sát được. Biến này sẽ bằng wage_offer nếu employed=1, và bằng 0 nếu employed=0. Đây là biến bị kiểm duyệt.
wage_selected: Mức lương quan sát được cho người đi làm. Biến này sẽ bằng wage_offer nếu employed=1, và là giá trị trống (missing) nếu employed=0. Đây là biến bị chọn mẫu.

Các bạn có thể tạo bộ dữ liệu này bằng cách chạy đoạn code Stata dưới đây. Hãy lưu nó lại với tên student_data.dta để sử dụng cho các bài học tiếp theo.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO SINH VIÊN
* Chủ đề: Lương và quyết định việc làm
* ==================================================

clear
set obs 1000
set seed 12345

* --- Bước 1: Tạo các biến độc lập ---
* gpa: Điểm trung bình, phân phối beta để giống thực tế hơn
gen gpa = 2 + 2 * rbeta(4, 2)

* internships: Số kỳ thực tập, phân phối poisson
gen internships = rpoisson(1.5)

* is_stem: Biến giả cho ngành STEM
gen is_stem = (runiform() > 0.6)

* motivation: Yếu tố không quan sát được, phân phối chuẩn
gen motivation = rnormal(0, 1)


* --- Bước 2: Tạo các phương trình tiềm ẩn ---
* Phương trình lương tiềm năng (wage_offer)
* Lương phụ thuộc vào gpa, thực tập, ngành học và động lực
gen wage_offer = 10 + 3*gpa + 1.5*internships + 4*is_stem + 2*motivation + rnormal(0, 3)

* Phương trình quyết định đi làm (employed)
* Quyết định đi làm phụ thuộc vào gpa, ngành học và động lực
gen employed_latent = -5 + 2*gpa + 2*is_stem + 1.5*motivation + rnormal(0, 2)
gen employed = (employed_latent > 0)


* --- Bước 3: Tạo các biến phụ thuộc quan sát được ---
* Biến lương bị kiểm duyệt (censored)
* Nếu không đi làm (employed=0), lương quan sát được là 0
gen wage = wage_offer * employed
replace wage = 0 if wage < 0 // Đảm bảo lương không âm

* Biến lương bị chọn mẫu (sample selected)
* Nếu không đi làm, chúng ta không quan sát được lương (missing)
gen wage_selected = wage_offer
replace wage_selected = . if employed == 0


* --- Bước 4: Dán nhãn và lưu dữ liệu ---
label var gpa "Điểm GPA (thang 4)"
label var internships "Số kỳ thực tập"
label var is_stem "Là sinh viên ngành STEM"
label var wage "Lương quan sát được (bị kiểm duyệt tại 0)"
label var employed "Có đi làm hay không"
label var wage_selected "Lương quan sát được (bị chọn mẫu)"

* Xem qua dữ liệu
summarize gpa internships is_stem wage employed wage_selected
tabulate employed

* Lưu dữ liệu để sử dụng sau này
save "student_data.dta", replace

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO SINH VIÊN
* Chủ đề: Lương và quyết định việc làm
* ==================================================

clear
set obs 1000
set seed 12345

* --- Bước 1: Tạo các biến độc lập ---
* gpa: Điểm trung bình, phân phối beta để giống thực tế hơn
gen gpa = 2 + 2 * rbeta(4, 2)

* internships: Số kỳ thực tập, phân phối poisson
gen internships = rpoisson(1.5)

* is_stem: Biến giả cho ngành STEM
gen is_stem = (runiform() > 0.6)

* motivation: Yếu tố không quan sát được, phân phối chuẩn
gen motivation = rnormal(0, 1)


* --- Bước 2: Tạo các phương trình tiềm ẩn ---
* Phương trình lương tiềm năng (wage_offer)
* Lương phụ thuộc vào gpa, thực tập, ngành học và động lực
gen wage_offer = 10 + 3*gpa + 1.5*internships + 4*is_stem + 2*motivation + rnormal(0, 3)

* Phương trình quyết định đi làm (employed)
* Quyết định đi làm phụ thuộc vào gpa, ngành học và động lực
gen employed_latent = -5 + 2*gpa + 2*is_stem + 1.5*motivation + rnormal(0, 2)
gen employed = (employed_latent > 0)


* --- Bước 3: Tạo các biến phụ thuộc quan sát được ---
* Biến lương bị kiểm duyệt (censored)
* Nếu không đi làm (employed=0), lương quan sát được là 0
gen wage = wage_offer * employed
replace wage = 0 if wage < 0 // Đảm bảo lương không âm

* Biến lương bị chọn mẫu (sample selected)
* Nếu không đi làm, chúng ta không quan sát được lương (missing)
gen wage_selected = wage_offer
replace wage_selected = . if employed == 0


* --- Bước 4: Dán nhãn và lưu dữ liệu ---
label var gpa "Điểm GPA (thang 4)"
label var internships "Số kỳ thực tập"
label var is_stem "Là sinh viên ngành STEM"
label var wage "Lương quan sát được (bị kiểm duyệt tại 0)"
label var employed "Có đi làm hay không"
label var wage_selected "Lương quan sát được (bị chọn mẫu)"

* Xem qua dữ liệu
summarize gpa internships is_stem wage employed wage_selected
tabulate employed

* Lưu dữ liệu để sử dụng sau này
save "student_data.dta", replace

📚 Bài tiếp theo: Nền tảng về hồi quy bị kiểm duyệt và mô hình Tobit

💡 Lưu ý: Hãy đảm bảo bạn đã chạy đoạn code trên và lưu lại tệp dữ liệu. Việc tự mình tạo ra dữ liệu sẽ giúp bạn hiểu sâu hơn về cấu trúc của các vấn đề chúng ta sắp giải quyết.