Giới thiệu về Dữ liệu bị kiểm duyệt, Chọn mẫu và Hao hụt mẫu

Chào các bạn sinh viên, chào mừng đến với một trong những chủ đề quan trọng và thực tế nhất trong kinh tế lượng ứng dụng. Trong thế giới nghiên cứu lý tưởng, chúng ta luôn có được những mẫu dữ liệu ngẫu nhiên và hoàn hảo. Tuy nhiên, thực tế thường phức tạp hơn rất nhiều. Dữ liệu chúng ta làm việc cùng thường bị “thiếu” hoặc “không hoàn hảo” theo những cách có hệ thống, và nếu chúng ta phớt lờ những vấn đề này, kết quả nghiên cứu có thể bị chệch hướng nghiêm trọng.

Chuỗi bài học này sẽ trang bị cho các bạn những công cụ cần thiết để nhận diện và xử lý ba vấn đề dữ liệu thiếu phổ biến nhất. Chúng ta sẽ cùng nhau tìm hiểu sự khác biệt tinh tế nhưng cốt lõi giữa chúng, từ đó lựa chọn được phương pháp phân tích phù hợp nhất. Nắm vững những kỹ thuật này không chỉ giúp các bạn thực hiện các bài nghiên cứu khoa học một cách chính xác hơn, mà còn nâng cao tư duy phản biện khi đọc và đánh giá các công trình nghiên cứu của người khác. Hãy coi đây là một hành trình khám phá để trở thành một nhà kinh tế lượng tài năng và cẩn trọng hơn.

Ba khái niệm cốt lõi chúng ta sẽ chinh phục trong chuỗi bài này là:

Dữ liệu bị kiểm duyệt (Censored Data): Xảy ra khi chúng ta biết một giá trị nằm trên hoặc dưới một ngưỡng nào đó, nhưng không biết giá trị chính xác. Ví dụ, trong một khảo sát thu nhập, thay vì biết mức lương chính xác, chúng ta chỉ biết một người có thu nhập “trên 200 triệu/năm”.
Chọn mẫu (Sample Selection): Xảy ra khi mẫu dữ liệu của chúng ta không phải là đại diện ngẫu nhiên cho toàn bộ quần thể mà chúng ta muốn nghiên cứu, do một quy tắc lựa chọn nào đó. Ví dụ, chỉ khảo sát những người có đi làm để nghiên cứu về mức lương.
Hao hụt mẫu (Attrition): Một dạng đặc biệt của chọn mẫu trong dữ liệu bảng, xảy ra khi các đối tượng nghiên cứu rời khỏi mẫu theo thời gian và không quay trở lại.

CẤU TRÚC CHUỖI BÀI HỌC

Nền tảng về dữ liệu bị kiểm duyệt
Hiểu rõ bản chất của dữ liệu bị kiểm duyệt, các dạng thức phổ biến và cách mô hình hóa chúng một cách chính xác.
Tổng quan về vấn đề chọn mẫu
Phân biệt các cơ chế chọn mẫu khác nhau và tìm hiểu khi nào vấn đề này có thể được bỏ qua mà không gây chệch ước lượng.
Các mô hình hiệu chỉnh lựa chọn kinh điển
Nắm vững hồi quy bị cắt cụt và mô hình lựa chọn Heckman, hai công cụ nền tảng để xử lý sai lệch chọn mẫu.
Phương pháp nâng cao và ứng dụng dữ liệu bảng
Khám phá phương pháp trọng số xác suất nghịch đảo (IPW) và cách xử lý các vấn đề lựa chọn và hao hụt trong dữ liệu bảng.
Thực hành Stata với dữ liệu chọn mẫu
Áp dụng toàn bộ kiến thức lý thuyết vào một case study thực tế, từ kiểm định đến hiệu chỉnh sai lệch lựa chọn bằng Stata.
Tổng hợp và so sánh các phương pháp
Hệ thống hóa kiến thức, so sánh ưu nhược điểm của từng phương pháp và định hướng các chủ đề nghiên cứu nâng cao hơn.

KIẾN THỨC TIÊN QUYẾT

Để tiếp thu tốt nhất chuỗi bài học này, các bạn cần có nền tảng vững chắc về:

Toán học cơ bản: Xác suất thống kê, đại số tuyến tính.
Thống kê căn bản: Ước lượng, kiểm định giả thuyết, phân phối chuẩn.
Kinh tế lượng nhập môn: Mô hình hồi quy tuyến tính (OLS), biến công cụ (IV), ước lượng hợp lý tối đa (MLE).
Stata cơ bản: Quản lý dữ liệu, chạy các lệnh hồi quy cơ bản (regress, ivregress).

MỤC TIÊU HỌC TẬP

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng:

Phân biệt và nhận diện chính xác các vấn đề về dữ liệu bị kiểm duyệt, chọn mẫu và hao hụt mẫu trong các bộ dữ liệu thực tế.
Nắm vững nền tảng lý thuyết của các mô hình kinh tế lượng phổ biến như Tobit, Heckman và phương pháp IPW.
Vận dụng thành thạo phần mềm Stata để ước lượng các mô hình, kiểm định sai lệch và hiệu chỉnh kết quả.
Diễn giải kết quả một cách cẩn trọng và rút ra những kết luận kinh tế có ý nghĩa từ các mô hình phức tạp.

TÀI LIỆU THAM KHẢO

Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data (2nd ed.). MIT press. (Đây là tài liệu gốc cho chuỗi bài viết này).
Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics: Methods and applications. Cambridge university press.
Greene, W. H. (2012). Econometric analysis (7th ed.). Pearson.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài học

Để giúp các bạn thực hành, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản. Bộ dữ liệu này được thiết kế để minh họa rõ nét các vấn đề chúng ta sẽ thảo luận. Dưới đây là code Stata để tạo ra dữ liệu.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho các vấn đề chọn mẫu
* TÁC GIẢ: Giáo sư Kinh tế lượng
* NGUỒN: Dựa trên lý thuyết trong Wooldridge (2010), Chương 19
* ==================================================

clear
set obs 2000
set seed 12345

* === Bước 1: Tạo các biến ngoại sinh ===
* educ: số năm đi học, giả định phân phối đều
gen educ = 10 + 6 * runiform()
* z: một biến công cụ, không ảnh hưởng trực tiếp đến lương
gen z = rnormal(0, 1)

* === Bước 2: Tạo các sai số có tương quan ===
* u và v có tương quan, corr(u,v) = 0.7
matrix C = (1, 0.7 \ 0.7, 1)
drawnorm u v, corr(C)

* === Bước 3: Tạo mô hình quần thể cho log(lương) ===
* log_wage phụ thuộc vào educ và sai số u
gen log_wage = 0.5 + 0.1*educ + u

* === Bước 4: Tạo quy tắc lựa chọn mẫu (tham gia thị trường lao động) ===
* participate = 1 nếu một biến tiềm ẩn > 0
* Biến tiềm ẩn này phụ thuộc vào educ, z và sai số v
* Vì corr(u,v) != 0, việc lựa chọn sẽ bị sai lệch
gen participate_latent = -1 + 0.1*educ + 0.5*z + v
gen participate = (participate_latent > 0)

* === Bước 5: Tạo biến lương quan sát được ===
* Chúng ta chỉ quan sát được log_wage nếu participate = 1
gen obs_log_wage = log_wage if participate == 1

* === Bước 6: Tạo biến bị kiểm duyệt (top-coded) ===
* Giả sử lương bị mã hóa hàng đầu tại giá trị 3
gen cens_log_wage = min(log_wage, 3)
label var cens_log_wage "Log(Lương) bị kiểm duyệt tại 3"

* === Bước 7: Dán nhãn và mô tả dữ liệu ===
label var educ "Số năm đi học"
label var z "Biến ngoại sinh (ví dụ: khoảng cách đến trung tâm)"
label var log_wage "Log(Lương) thực trong quần thể"
label var participate "Chỉ báo tham gia thị trường lao động (1=tham gia)"
label var obs_log_wage "Log(Lương) quan sát được (chỉ cho người tham gia)"

describe
summarize

* === Bước 8: Lưu dữ liệu để sử dụng ===
* Bạn có thể chạy lệnh này để lưu file .csv vào thư mục làm việc của mình
* csvsave "selection_data.csv", replace

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho các vấn đề chọn mẫu
* TÁC GIẢ: Giáo sư Kinh tế lượng
* NGUỒN: Dựa trên lý thuyết trong Wooldridge (2010), Chương 19
* ==================================================

clear
set obs 2000
set seed 12345

* === Bước 1: Tạo các biến ngoại sinh ===
* educ: số năm đi học, giả định phân phối đều
gen educ = 10 + 6 * runiform()
* z: một biến công cụ, không ảnh hưởng trực tiếp đến lương
gen z = rnormal(0, 1)

* === Bước 2: Tạo các sai số có tương quan ===
* u và v có tương quan, corr(u,v) = 0.7
matrix C = (1, 0.7 \ 0.7, 1)
drawnorm u v, corr(C)

* === Bước 3: Tạo mô hình quần thể cho log(lương) ===
* log_wage phụ thuộc vào educ và sai số u
gen log_wage = 0.5 + 0.1*educ + u

* === Bước 4: Tạo quy tắc lựa chọn mẫu (tham gia thị trường lao động) ===
* participate = 1 nếu một biến tiềm ẩn > 0
* Biến tiềm ẩn này phụ thuộc vào educ, z và sai số v
* Vì corr(u,v) != 0, việc lựa chọn sẽ bị sai lệch
gen participate_latent = -1 + 0.1*educ + 0.5*z + v
gen participate = (participate_latent > 0)

* === Bước 5: Tạo biến lương quan sát được ===
* Chúng ta chỉ quan sát được log_wage nếu participate = 1
gen obs_log_wage = log_wage if participate == 1

* === Bước 6: Tạo biến bị kiểm duyệt (top-coded) ===
* Giả sử lương bị mã hóa hàng đầu tại giá trị 3
gen cens_log_wage = min(log_wage, 3)
label var cens_log_wage "Log(Lương) bị kiểm duyệt tại 3"

* === Bước 7: Dán nhãn và mô tả dữ liệu ===
label var educ "Số năm đi học"
label var z "Biến ngoại sinh (ví dụ: khoảng cách đến trung tâm)"
label var log_wage "Log(Lương) thực trong quần thể"
label var participate "Chỉ báo tham gia thị trường lao động (1=tham gia)"
label var obs_log_wage "Log(Lương) quan sát được (chỉ cho người tham gia)"

describe
summarize

* === Bước 8: Lưu dữ liệu để sử dụng ===
* Bạn có thể chạy lệnh này để lưu file .csv vào thư mục làm việc của mình
* csvsave "selection_data.csv", replace

Mô tả các biến chính:

educ: Số năm đi học, biến giải thích chính của chúng ta.
z: Một biến ngoại sinh, ảnh hưởng đến quyết định tham gia lao động nhưng không ảnh hưởng trực tiếp đến lương. Đây là một “biến công cụ” quan trọng trong mô hình Heckman.
log_wage: Mức lương (logarit) thực sự trong toàn bộ quần thể (biến này chúng ta không quan sát được đầy đủ).
participate: Biến nhị phân cho biết một người có tham gia thị trường lao động hay không.
obs_log_wage: Mức lương quan sát được. Biến này sẽ bị thiếu (missing) nếu participate = 0, gây ra vấn đề chọn mẫu.
cens_log_wage: Một phiên bản của log_wage bị kiểm duyệt từ trên, dùng để minh họa cho các mô hình dữ liệu bị kiểm duyệt.

Hãy chắc chắn rằng bạn đã chạy đoạn code trên và làm quen với bộ dữ liệu trước khi chúng ta bắt đầu bài học đầu tiên. Chúc các bạn học tốt!

📚 Bài tiếp theo: Nền tảng về dữ liệu bị kiểm duyệt

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.

🎯 Self-check: Bạn có thể giải thích sự khác biệt cơ bản giữa dữ liệu bị kiểm duyệt và dữ liệu bị cắt cụt cho người khác không?