Mô hình hóa lựa chọn: mô hình LPM, probit và logit

Chào các bạn sinh viên, chào mừng đến với chuỗi bài học mới về một trong những chủ đề hấp dẫn và thực tiễn nhất trong kinh tế lượng: mô hình hóa các quyết định lựa chọn. Trong cuộc sống hàng ngày và trong kinh tế, chúng ta liên tục đối mặt với những lựa chọn “có hoặc không”: đi học hay đi làm, mua một sản phẩm hay không, một người có việc làm hay thất nghiệp. Làm thế nào chúng ta có thể phân tích và dự báo những lựa chọn này một cách khoa học? Đó chính là câu hỏi mà chuỗi bài học này sẽ giúp các bạn trả lời.

Chúng ta sẽ bắt đầu hành trình này bằng cách tìm hiểu các công cụ được thiết kế đặc biệt để phân tích các biến kết quả chỉ có hai giá trị (ví dụ: 1 và 0). Các bạn sẽ được học cách xây dựng, ước lượng và diễn giải ba mô hình phổ biến nhất trong nhóm này. Đừng lo lắng nếu các tên gọi nghe có vẻ phức tạp, bởi vì chúng ta sẽ đi qua từng khái niệm một cách từ từ, chi tiết, với nhiều ví dụ minh họa để đảm bảo các bạn không chỉ hiểu công thức mà còn nắm được “linh hồn” của từng phương pháp. Mục tiêu cuối cùng là trang bị cho các bạn kỹ năng để có thể tự tin áp dụng những mô hình này vào các bài toán nghiên cứu trong thực tế.

Trong chuỗi bài học này, chúng ta sẽ khám phá ba công cụ chính:

Mô hình Xác suất Tuyến tính (LPM): Cách tiếp cận đơn giản và trực quan nhất, sử dụng hồi quy OLS quen thuộc để mô hình hóa xác suất.
Mô hình Probit: Một mô hình mạnh mẽ hơn, khắc phục các nhược điểm của LPM bằng cách sử dụng hàm phân phối chuẩn tích lũy.
Mô hình Logit: Một lựa chọn thay thế phổ biến cho Probit, sử dụng hàm phân phối logistic với một vài ưu điểm về tính toán và diễn giải.

Hãy cùng nhau bắt đầu hành trình khám phá cách các nhà kinh tế lượng “đọc vị” những sự lựa chọn!

Cấu trúc chuỗi bài học

Bài 1: Nền tảng về mô hình lựa chọn nhị phân và mô hình xác suất tuyến tính (LPM)
Chúng ta sẽ tìm hiểu tại sao cần các mô hình đặc biệt cho lựa chọn nhị phân và khám phá mô hình đơn giản nhất là LPM cùng những hạn chế của nó.
Bài 2: Mô hình Probit và Logit – Tiếp cận qua biến tiềm ẩn
Bài học này sẽ giới thiệu khái niệm “biến tiềm ẩn” đầy sức mạnh, nền tảng lý thuyết để xây dựng nên hai mô hình Probit và Logit một cách logic.
Bài 3: Nguyên lý ước lượng và diễn giải kết quả Probit & Logit
Chúng ta sẽ học về phương pháp Ước lượng Hợp lý Tối đa (Maximum Likelihood) và cách diễn giải chính xác các hệ số ước lượng từ mô hình Probit và Logit.
Bài 4: Hướng dẫn thực hành phân tích mô hình lựa chọn nhị phân với Stata
Đây là bài thực hành tổng hợp, nơi chúng ta sẽ áp dụng tất cả kiến thức đã học để phân tích một bộ dữ liệu thực tế về tình trạng việc làm từ đầu đến cuối.

KIẾN THỨC TIÊN QUYẾT

Xác suất thống kê: Hiểu về biến ngẫu nhiên, hàm mật độ xác suất (PDF), hàm phân phối tích lũy (CDF), phân phối chuẩn.
Kinh tế lượng cơ bản: Nắm vững mô hình hồi quy OLS, ý nghĩa của hệ số hồi quy, kiểm định giả thuyết (t-test, F-test).
Toán học: Hiểu về đạo hàm cơ bản và khái niệm tối ưu hóa hàm số.
Stata cơ bản: Biết cách nhập dữ liệu, sử dụng các lệnh summarize, regress, và đọc kết quả hồi quy cơ bản.

MỤC TIÊU HỌC TẬP

Hiểu rõ vấn đề: Nhận biết được khi nào cần sử dụng mô hình lựa chọn nhị phân và tại sao OLS thông thường không phải là công cụ tốt nhất.
Nắm vững lý thuyết: Phân biệt được ba mô hình LPM, Probit, Logit về giả định, cách xây dựng và ưu nhược điểm của từng mô hình.
Thành thạo ước lượng: Biết cách sử dụng Stata để ước lượng các mô hình Probit và Logit một cách chính xác.
Diễn giải chuyên sâu: Có khả năng diễn giải kết quả, đặc biệt là các tác động biên (marginal effects), để đưa ra kết luận kinh tế có ý nghĩa.

TÀI LIỆU THAM KHẢO

Chính: Francis, D. (2015). Empirical Development Economics. Chương 16.
Kinh điển: Wooldridge, J. M. (2013). Introductory Econometrics: A Modern Approach. Một tài liệu tuyệt vời cho sinh viên đại học.
Nâng cao: Wooldridge, J. M. (2010). Econometric Analysis of Cross Section and Panel Data. Dành cho các bạn muốn tìm hiểu sâu hơn về lý thuyết.
Thực hành: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Cuốn sách gối đầu giường cho việc thực hành kinh tế lượng vi mô với Stata.

PHỤ LỤC: Dữ liệu thực hành cho chuỗi bài viết

Trong suốt chuỗi bài này, đặc biệt là ở bài thực hành cuối cùng, chúng ta sẽ sử dụng bộ dữ liệu Labour_Force_SA_SALDRU_1993. Đây là dữ liệu điều tra lực lượng lao động tại Nam Phi, một bối cảnh nghiên cứu rất thú vị với tỷ lệ thất nghiệp cao.

Các biến chính chúng ta sẽ sử dụng bao gồm:

Employment: Biến giả, bằng 1 nếu cá nhân có việc làm, và 0 nếu ngược lại (đây sẽ là biến phụ thuộc của chúng ta).
Age: Tuổi của cá nhân (biến liên tục).
Edyrs: Số năm đi học (biến liên tục).
Married: Biến giả, bằng 1 nếu đã kết hôn, và 0 nếu chưa.
OtherIncome: Thu nhập từ các nguồn khác ngoài lương (biến liên tục).

Để bắt đầu, các bạn có thể tải và sử dụng dữ liệu này trong Stata bằng lệnh sau (giả sử tệp dữ liệu đã nằm trong thư mục làm việc của bạn):

Stata

* Tải bộ dữ liệu Lực lượng lao động Nam Phi 1993
use "Labour_Force_SA_SALDRU_1993.dta", clear

* Xem mô tả các biến để làm quen
describe Employment Age Edyrs Married OtherIncome

* Tải bộ dữ liệu Lực lượng lao động Nam Phi 1993
use "Labour_Force_SA_SALDRU_1993.dta", clear

* Xem mô tả các biến để làm quen
describe Employment Age Edyrs Married OtherIncome

Chúng ta sẽ cùng nhau khám phá bộ dữ liệu này để trả lời câu hỏi: Những yếu tố nào ảnh hưởng đến xác suất có việc làm của một cá nhân tại Nam Phi?

📚 Bài tiếp theo: Nền tảng về mô hình lựa chọn nhị phân và mô hình xác suất tuyến tính (LPM)

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.