Giới thiệu hồi quy với biến phụ thuộc nhị phân
An Introduction to Regression with a Binary Dependent Variable
CẤU TRÚC CHUỖI BÀI HỌC
- Mô hình xác suất tuyến tính (LPM)Tìm hiểu cách mô hình hóa xác suất bằng hồi quy OLS, diễn giải hệ số và nhận diện các nhược điểm cố hữu của nó.
- Giới thiệu mô hình Probit và LogitKhám phá nền tảng lý thuyết của các mô hình phi tuyến, hiểu vai trò của hàm phân phối tích lũy trong việc giới hạn xác suất.
- Diễn giải và ước lượng trong Probit & LogitHọc cách diễn giải các hệ số phức tạp, tính toán xác suất dự báo và hiểu về phương pháp ước lượng hợp lý tối đa (MLE).
- Thực hành phân tích nguy cơ từ chối vayVận dụng cả ba mô hình vào bộ dữ liệu thực tế với Stata, từ khâu chuẩn bị dữ liệu đến so sánh và báo cáo kết quả.
- Các chủ đề nâng cao và so sánh mô hìnhThảo luận về các độ đo phù hợp, so sánh ưu nhược điểm của các mô hình và khám phá các hướng nghiên cứu mở rộng.
MỤC TIÊU HỌC TẬP
- Hiểu rõ sự khác biệt và mối liên hệ giữa ba mô hình LPM, Probit và Logit.
- Vận dụng thành thạo phần mềm Stata để ước lượng và kiểm định các mô hình cho biến phụ thuộc nhị phân.
- Diễn giải chính xác kết quả hồi quy, bao gồm ý nghĩa của hệ số và tác động biên lên xác suất.
- Phân tích và so sánh kết quả từ các mô hình khác nhau để đưa ra kết luận đáng tin cậy.
TÀI LIỆU THAM KHẢO
- Stock, J. H., & Watson, M. W. (2020). Introduction to Econometrics, Global Edition. Pearson. (Tài liệu chính)
- Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning. (Tài liệu tham khảo bổ sung)
PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài học
Để giúp các bạn dễ dàng thực hành theo các ví dụ, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản về việc xét duyệt đơn xin vay vốn. Bộ dữ liệu này bao gồm 1000 người nộp đơn với các thông tin sau:
- deny: Biến nhị phân. Bằng 1 nếu đơn bị từ chối, bằng 0 nếu được chấp thuận.
- pi_ratio: Tỷ lệ thanh toán trên thu nhập (payment-to-income ratio). Một biến liên tục.
- black: Biến nhị phân. Bằng 1 nếu người nộp đơn là người da đen, bằng 0 nếu là người da trắng.
Các bạn có thể tạo ra bộ dữ liệu này và lưu lại để sử dụng trong suốt chuỗi bài học bằng các lệnh Stata dưới đây.
Stata
* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* NGUỒN DỮ LIỆU: Dữ liệu giả lập dựa trên thống kê của HMDA
* KẾT QUẢ: File "mortgage_data_sim.dta" sẵn sàng cho phân tích
* ==================================================
* Bước 1: Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 1000
* Bước 2: Tạo biến giải thích
* Tạo biến tỷ lệ thanh toán/thu nhập (P/I ratio)
* Giả định biến này tuân theo phân phối chuẩn với trung bình 0.35 và độ lệch chuẩn 0.1
gen pi_ratio = rnormal(0.35, 0.1)
* Tạo biến chủng tộc (khoảng 15% là người da đen)
gen black = runiform() < 0.15
* Bước 3: Tạo biến phụ thuộc "deny" dựa trên một quy trình tạo dữ liệu (DGP)
* Giả định xác suất bị từ chối (p) phụ thuộc vào pi_ratio và black
* Đây là mô hình Probit "thật" mà chúng ta sẽ cố gắng ước lượng
gen p = normal(-2.2 + 3*pi_ratio + 0.7*black)
gen deny = runiform() < p
* Bước 4: Gán nhãn cho các biến để dễ hiểu hơn
label variable deny "Đơn vay bị từ chối (1=Yes, 0=No)"
label variable pi_ratio "Tỷ lệ thanh toán trên thu nhập"
label variable black "Chủng tộc (1=Black, 0=White)"
* Bước 5: Lưu dữ liệu để sử dụng cho các bài học sau
* Hãy chắc chắn bạn đã đặt đúng đường dẫn thư mục làm việc của mình
save "mortgage_data_sim.dta", replace
* Để xuất ra file CSV, bạn có thể dùng lệnh sau:
* export delimited using "mortgage_data_sim.csv", replace
📚 Bài tiếp theo: Mô hình Xác suất Tuyến tính (LPM)
💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.
🎯 Self-check: Bạn có thể giải thích tại sao việc phân tích quyết định “có/không” lại cần một phương pháp khác với phân tích “tiền lương” không?