Các biến phụ thuộc bị giới hạn – cắt xén, kiểm duyệt và chọn mẫu

Chào các bạn sinh viên, trong kinh tế lượng, chúng ta thường bắt đầu với mô hình hồi quy tuyến tính cổ điển. Tuy nhiên, dữ liệu trong thế giới thực hiếm khi hoàn hảo như vậy. Rất nhiều khi, biến số mà chúng ta quan tâm – biến phụ thuộc – không được quan sát một cách đầy đủ. Nó có thể bị “cắt cụt” (chỉ quan sát được một phần của quần thể), bị “kiểm duyệt” (một số giá trị bị dồn về một điểm duy nhất), hoặc bị ảnh hưởng bởi “lựa chọn mẫu” (mẫu dữ liệu không phải là đại diện ngẫu nhiên). Việc áp dụng hồi quy OLS thông thường cho những loại dữ liệu này sẽ dẫn đến các kết quả ước lượng bị chệch và sai lệch, khiến các kết luận của chúng ta mất đi tính tin cậy.

Chuỗi bài học này được thiết kế đặc biệt để trang bị cho các bạn những công cụ cần thiết để xử lý các vấn đề phức tạp này một cách tự tin. Chúng ta sẽ cùng nhau đi từ những khái niệm nền tảng nhất đến các mô hình ứng dụng tinh vi, giúp bạn không chỉ hiểu “tại sao” các phương pháp truyền thống thất bại, mà còn biết “làm thế nào” để lựa chọn và thực hiện các mô hình phù hợp. Đây là một trong những mảng kiến thức quan trọng và có tính ứng dụng cao nhất trong kinh tế lượng vi mô hiện đại.

Để giúp các bạn dễ dàng theo dõi, chúng ta sẽ tìm hiểu ba khái niệm cốt lõi sau:

Sự cắt cụt (Truncation): Xảy ra khi chúng ta chỉ có thể thu thập dữ liệu từ một nhóm nhỏ trong tổng thể. Ví dụ, chỉ khảo sát những hộ gia đình có thu nhập trên 1 tỷ đồng/năm.
Sự kiểm duyệt (Censoring): Xảy ra khi dữ liệu bị giới hạn ở một giá trị nhất định. Ví dụ, khảo sát số giờ làm thêm của sinh viên, nhiều bạn không làm thêm sẽ được ghi nhận là “0 giờ”, dù mong muốn làm việc của họ có thể là âm (họ muốn được trả tiền để không phải làm việc!).
Lựa chọn mẫu (Sample Selection): Xảy ra khi việc một cá nhân có được quan sát trong mẫu hay không lại phụ thuộc vào chính những yếu tố chúng ta đang nghiên cứu, gây ra thiên lệch hệ thống.

Mục tiêu của chúng ta không chỉ dừng lại ở lý thuyết. Xuyên suốt chuỗi bài, các bạn sẽ được hướng dẫn thực hành chi tiết với Stata, học cách áp dụng các mô hình vào những ví dụ thực tế như phân tích hiệu quả sản xuất, dự báo nhu cầu, hay mô hình hóa quyết định tham gia thị trường lao động. Hãy cùng nhau bắt đầu hành trình khám phá những công cụ mạnh mẽ này nhé!

Cấu trúc chuỗi bài học

Hiểu về dữ liệu bị cắt cụt và mô hình hồi quy
Chúng ta sẽ bắt đầu với các khái niệm cơ bản nhất về phân phối bị cắt cụt và học cách xây dựng mô hình phù hợp.
Ứng dụng mô hình biên ngẫu nhiên để phân tích hiệu quả
Bài học này sẽ chỉ cho bạn cách dùng kiến thức về dữ liệu cắt cụt để đo lường hiệu quả sản xuất của các doanh nghiệp.
Dữ liệu bị kiểm duyệt và mô hình Tobit kinh điển
Chúng ta sẽ phân biệt sự khác nhau giữa cắt cụt và kiểm duyệt, đồng thời làm chủ mô hình Tobit, một công cụ nền tảng.
Các mô hình hai phần và vấn đề đặc tả trong Tobit
Bài học này giúp bạn xử lý các tình huống phức tạp hơn khi quyết định “tham gia” và “mức độ tham gia” là khác nhau.
Hiện tượng lựa chọn mẫu và phương pháp của Heckman
Chúng ta sẽ tìm hiểu một trong những vấn đề phổ biến nhất trong kinh tế lượng ứng dụng và cách khắc phục nó bằng mô hình Heckman.
Lựa chọn mẫu trong mô hình phi tuyến và dữ liệu bảng
Bài học này sẽ nâng cao kỹ năng của bạn bằng cách áp dụng các khái niệm lựa chọn mẫu cho các mô hình và dữ liệu phức tạp.
Giới thiệu về mô hình hóa thời gian kéo dài
Chúng ta sẽ khám phá một lĩnh vực ứng dụng thú vị, học cách mô hình hóa “thời gian cho đến khi một sự kiện xảy ra”.
Hướng dẫn thực hành tổng hợp các mô hình với Stata
Bài cuối cùng sẽ là một dự án thực hành toàn diện, giúp bạn kết nối tất cả các mô hình đã học vào một bộ dữ liệu thực tế.

Kiến thức tiên quyết cần chuẩn bị

Để có thể tiếp thu tốt nhất chuỗi bài học này, các bạn nên trang bị trước một số kiến thức nền tảng sau:

Kinh tế lượng cơ bản: Nắm vững mô hình hồi quy tuyến tính OLS, các giả định của nó, và ý nghĩa của các kiểm định thống kê (t-test, F-test).
Xác suất thống kê: Hiểu rõ về các khái niệm hàm mật độ xác suất (PDF), hàm phân phối tích lũy (CDF), kỳ vọng, phương sai, và đặc biệt là phân phối chuẩn.
Ước lượng hợp lý cực đại (MLE): Có hiểu biết cơ bản về nguyên lý của phương pháp MLE, vì đây là công cụ ước lượng chính cho hầu hết các mô hình trong chuỗi bài này.
Stata cơ bản: Quen thuộc với giao diện Stata, cách nhập và quản lý dữ liệu, và thực hiện các lệnh hồi quy cơ bản như regress.

Mục tiêu học tập của chuỗi bài viết

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng:

Nhận diện vấn đề: Phân biệt rõ ràng được sự khác nhau giữa dữ liệu bị cắt cụt, bị kiểm duyệt và có lựa chọn mẫu trong các bộ dữ liệu thực tế.
Lựa chọn mô hình phù hợp: Biết khi nào nên sử dụng mô hình hồi quy cắt cụt, mô hình Tobit, mô hình hai phần, hay mô hình lựa chọn mẫu của Heckman.
Thực hành thành thạo trên Stata: Tự tin ước lượng các mô hình trên bằng phần mềm Stata, bao gồm cả việc chuẩn bị dữ liệu và chạy lệnh.
Diễn giải kết quả: Đọc và phân tích kết quả đầu ra từ Stata một cách chính xác, đặc biệt là các hệ số và tác động biên (partial effects) để đưa ra các kết luận kinh tế có ý nghĩa.

Tài liệu tham khảo chính

Chính: Greene, W. H. (2019). Econometric Analysis (8th ed.). Pearson. – Đây là tài liệu gốc cho chuỗi bài viết, cung cấp nền tảng lý thuyết sâu sắc và toàn diện.
Bổ sung (Dễ hiểu hơn): Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach (7th ed.). Cengage Learning. – Cuốn sách này trình bày các khái niệm một cách trực quan, rất phù hợp cho sinh viên mới bắt đầu.
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Stata Press. – Một nguồn tài liệu tuyệt vời với vô số ví dụ và hướng dẫn chi tiết về cách thực hiện các mô hình kinh tế lượng vi mô trên Stata.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học và thực hành trở nên dễ dàng, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài viết. Bộ dữ liệu này mô tả tiền lương đi làm thêm của sinh viên, một chủ đề gần gũi với tất cả chúng ta.

Bối cảnh: Chúng ta khảo sát 500 sinh viên về mức lương theo giờ khi đi làm thêm, cùng với một số đặc điểm cá nhân. Một số sinh viên không đi làm thêm, do đó tiền lương của họ được ghi nhận là 0. Đây chính là một ví dụ điển hình của dữ liệu bị kiểm duyệt.

Các bạn có thể tự tạo bộ dữ liệu này trong Stata bằng đoạn code dưới đây. Hãy chạy toàn bộ code để tạo file student_wage_data.dta trong thư mục làm việc của bạn nhé.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG VỀ LƯƠNG LÀM THÊM CỦA SINH VIÊN
* Mục đích: Tạo một bộ dữ liệu đơn giản, dễ hiểu để thực hành
* các mô hình biến phụ thuộc giới hạn.
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 500
set seed 12345 // Để đảm bảo kết quả có thể lặp lại

* --- TẠO CÁC BIẾN GIẢI THÍCH ---

* Tạo biến điểm trung bình (GPA) từ 2.5 đến 4.0
* Giả định GPA tuân theo phân phối chuẩn cắt cụt
gen gpa = rnormal(3.2, 0.4)
replace gpa = 2.5 if gpa < 2.5
replace gpa = 4.0 if gpa > 4.0
label var gpa "Điểm trung bình tích lũy (GPA)"

* Tạo biến số năm kinh nghiệm làm thêm (0 đến 4 năm)
gen experience = runiformint(0, 4)
label var experience "Số năm kinh nghiệm làm thêm"

* Tạo biến giả cho sinh viên ngành kinh tế (1=Có, 0=Không)
gen is_econ = (runiform() > 0.6)
label var is_econ "Là sinh viên ngành kinh tế"
label define econ_label 0 "Ngành khác" 1 "Ngành Kinh tế"
label values is_econ econ_label

* --- TẠO BIẾN PHỤ THUỘC TIỀM ẨN (LATENT VARIABLE) ---

* Tạo sai số ngẫu nhiên tuân theo phân phối chuẩn
gen error = rnormal(0, 20)

* Tạo biến "lương tiềm ẩn" (wage_latent)
* Đây là mức lương mà một sinh viên "đáng lẽ" nhận được
* dựa trên đặc điểm của họ, có thể là số âm (không muốn đi làm)
gen wage_latent = 20 + 15*gpa + 10*experience + 12*is_econ + error
label var wage_latent "Mức lương tiềm ẩn (nghìn VND/giờ)"


* --- TẠO BIẾN PHỤ THUỘC BỊ KIỂM DUYỆT (CENSORED VARIABLE) ---

* Tạo biến lương quan sát được (wage)
* Nếu lương tiềm ẩn > 0, sinh viên sẽ đi làm và nhận mức lương đó
* Nếu lương tiềm ẩn <= 0, sinh viên không đi làm, lương quan sát được là 0
gen wage = wage_latent
replace wage = 0 if wage_latent <= 0
label var wage "Lương làm thêm thực tế (nghìn VND/giờ)"

* --- HOÀN THIỆN VÀ LƯU DỮ LIỆU ---

* Mô tả bộ dữ liệu
describe
summarize

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "student_wage_data.dta", replace
compress

* Hiển thị 10 quan sát đầu tiên để kiểm tra
list in 1/10

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG VỀ LƯƠNG LÀM THÊM CỦA SINH VIÊN
* Mục đích: Tạo một bộ dữ liệu đơn giản, dễ hiểu để thực hành
* các mô hình biến phụ thuộc giới hạn.
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 500
set seed 12345 // Để đảm bảo kết quả có thể lặp lại

* --- TẠO CÁC BIẾN GIẢI THÍCH ---

* Tạo biến điểm trung bình (GPA) từ 2.5 đến 4.0
* Giả định GPA tuân theo phân phối chuẩn cắt cụt
gen gpa = rnormal(3.2, 0.4)
replace gpa = 2.5 if gpa < 2.5
replace gpa = 4.0 if gpa > 4.0
label var gpa "Điểm trung bình tích lũy (GPA)"

* Tạo biến số năm kinh nghiệm làm thêm (0 đến 4 năm)
gen experience = runiformint(0, 4)
label var experience "Số năm kinh nghiệm làm thêm"

* Tạo biến giả cho sinh viên ngành kinh tế (1=Có, 0=Không)
gen is_econ = (runiform() > 0.6)
label var is_econ "Là sinh viên ngành kinh tế"
label define econ_label 0 "Ngành khác" 1 "Ngành Kinh tế"
label values is_econ econ_label

* --- TẠO BIẾN PHỤ THUỘC TIỀM ẨN (LATENT VARIABLE) ---

* Tạo sai số ngẫu nhiên tuân theo phân phối chuẩn
gen error = rnormal(0, 20)

* Tạo biến "lương tiềm ẩn" (wage_latent)
* Đây là mức lương mà một sinh viên "đáng lẽ" nhận được
* dựa trên đặc điểm của họ, có thể là số âm (không muốn đi làm)
gen wage_latent = 20 + 15*gpa + 10*experience + 12*is_econ + error
label var wage_latent "Mức lương tiềm ẩn (nghìn VND/giờ)"


* --- TẠO BIẾN PHỤ THUỘC BỊ KIỂM DUYỆT (CENSORED VARIABLE) ---

* Tạo biến lương quan sát được (wage)
* Nếu lương tiềm ẩn > 0, sinh viên sẽ đi làm và nhận mức lương đó
* Nếu lương tiềm ẩn <= 0, sinh viên không đi làm, lương quan sát được là 0
gen wage = wage_latent
replace wage = 0 if wage_latent <= 0
label var wage "Lương làm thêm thực tế (nghìn VND/giờ)"

* --- HOÀN THIỆN VÀ LƯU DỮ LIỆU ---

* Mô tả bộ dữ liệu
describe
summarize

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "student_wage_data.dta", replace
compress

* Hiển thị 10 quan sát đầu tiên để kiểm tra
list in 1/10