Lựa chọn đa cấp

Giới thiệu chuỗi bài học về các mô hình lựa chọn đa danh mục

Chào các bạn sinh viên, chào mừng đến với một trong những chủ đề thú vị và có tính ứng dụng cao nhất trong kinh tế lượng: các mô hình lựa chọn đa danh mục. Trong cuộc sống hàng ngày, chúng ta liên tục phải đưa ra những lựa chọn giữa nhiều hơn hai phương án: chọn trường đại học nào, mua chiếc xe hiệu gì, sử dụng phương tiện nào để đi làm, hay đơn giản là chọn món ăn nào cho bữa trưa. Các mô hình mà chúng ta sắp tìm hiểu sẽ cung cấp một bộ công cụ mạnh mẽ để phân tích và dự báo những hành vi lựa chọn phức tạp này.

Chuỗi bài học này sẽ dẫn dắt các bạn đi từ những khái niệm nền tảng nhất đến các mô hình hiện đại đang được sử dụng rộng rãi trong nghiên cứu học thuật và phân tích kinh doanh. Chúng ta sẽ không chỉ dừng lại ở việc học công thức, mà còn tập trung vào việc xây dựng tư duy trực quan đằng sau mỗi mô hình. Ba khái niệm cốt lõi sẽ đồng hành cùng chúng ta trong suốt hành trình này là: Mô hình Tiện ích Tiềm ẩn (cách chúng ta lượng hóa sự “hài lòng” vô hình), Giả định IIA (một thuộc tính quan trọng nhưng cũng đầy tranh cãi của các mô hình lựa chọn), và sự khác biệt giữa hai họ mô hình lớn là Logit và Probit. Mục tiêu cuối cùng là sau khi hoàn thành chuỗi bài này, các bạn sẽ không chỉ hiểu lý thuyết mà còn có thể tự tin áp dụng các mô hình này vào phân tích dữ liệu thực tế bằng phần mềm Stata.

Trước khi bắt tay vào thực hành với dữ liệu thực tế, chúng ta cần nắm vững các khái niệm nền tảng. Đây là bước quan trọng nhất – nếu hiểu rõ lý thuyết, việc áp dụng sẽ trở nên dễ dàng và tự nhiên. Phần tiếp theo sẽ giúp các bạn xây dựng nền tảng kiến thức vững chắc từng bước một.

Cấu trúc chuỗi bài học

Bài 1: Giới thiệu về mô hình lựa chọn đa danh mục
Chúng ta sẽ bắt đầu với các khái niệm cơ bản nhất, tìm hiểu cách mô hình hóa lựa chọn và làm quen với mô hình Multinomial Logit nền tảng.
Bài 2: Mô hình Conditional Logit và vấn đề IIA
Bài học này giới thiệu một mô hình rất thực tế khi các lựa chọn có đặc điểm riêng, như giá cả, và khám phá một hạn chế quan trọng của nó.
Bài 3: Vượt qua giả định IIA với Nested Logit
Chúng ta sẽ học cách nhóm các lựa chọn tương tự nhau để xây dựng mô hình thực tế hơn, giải quyết được vấn đề đã nêu ở bài trước.
Bài 4: Mô hình hóa sự không đồng nhất với Mixed Logit
Mỗi người có một sở thích khác nhau. Mô hình này giúp chúng ta nắm bắt sự đa dạng đó bằng cách cho phép các hệ số thay đổi giữa các cá nhân.
Bài 5: Tiếp cận dựa trên phân phối chuẩn – Multinomial Probit
Chúng ta sẽ khám phá một họ mô hình thay thế mạnh mẽ là Probit, cho phép cấu trúc tương quan giữa các lựa chọn một cách linh hoạt hơn.
Bài 6: Các mô hình lựa chọn đặc biệt
Bài học này sẽ trang bị cho bạn kiến thức về hai trường hợp đặc thù: khi lựa chọn có thứ tự (như mức độ hài lòng) và khi kết quả là dữ liệu đếm.
Bài 7: Ứng dụng nâng cao trong kinh tế học – Mô hình cầu BLP
Một cái nhìn tổng quan về mô hình BLP, một công cụ hiện đại và mạnh mẽ được sử dụng trong lĩnh vực tổ chức công nghiệp để ước lượng hàm cầu.
Bài 8: Hướng dẫn thực hành tổng hợp với Stata
Đây là bài học quan trọng nhất, nơi chúng ta sẽ áp dụng các mô hình đã học vào một bộ dữ liệu thực tế, phân tích và so sánh kết quả từng bước một.

KIẾN THỨC TIÊN QUYẾT

Xác suất thống kê: Các khái niệm về phân phối xác suất, ước lượng hợp lý tối đa (MLE).
Kinh tế lượng cơ bản: Hiểu rõ mô hình hồi quy tuyến tính OLS, và đặc biệt là các mô hình lựa chọn nhị phân (Binary Logit và Probit).
Toán học: Các phép toán ma trận cơ bản và khái niệm về đạo hàm.
Stata cơ bản: Quen thuộc với giao diện Stata, cách nhập dữ liệu, và chạy các lệnh hồi quy cơ bản như regress, logit.

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Nắm vững cơ sở lý thuyết của các mô hình lựa chọn đa danh mục, từ Logit, Probit đến các biến thể nâng cao.
Nhận diện mô hình phù hợp: Có khả năng xác định được mô hình nào là phù hợp nhất cho một câu hỏi nghiên cứu và bộ dữ liệu cụ thể.
Thực hành thành thạo Stata: Sử dụng tự tin các lệnh như mlogit, cmclogit, nlogit, mprobit để ước lượng và kiểm định mô hình.
Diễn giải kết quả: Phân tích và diễn giải ý nghĩa kinh tế của các hệ số ước lượng và các hiệu ứng biên một cách chính xác.

TÀI LIỆU THAM KHẢO

Chính: Hansen, B. E. (2022). Econometrics. Princeton University Press.
Bổ sung: Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics: Methods and applications. Cambridge university press.
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics using Stata. Stata press.
Chuyên sâu: Train, K. E. (2009). Discrete choice methods with simulation. Cambridge university press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp các bạn dễ dàng theo dõi và thực hành, chúng ta sẽ bắt đầu với một bộ dữ liệu mô phỏng đơn giản về tình trạng hôn nhân. Bộ dữ liệu này sẽ được sử dụng trong các bài học đầu tiên để minh họa các khái niệm cơ bản. Các bạn có thể tạo lại bộ dữ liệu này bằng cách chạy đoạn code Stata dưới đây.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG VỀ TÌNH TRẠNG HÔN NHÂN
* Mục đích: Tạo một bộ dữ liệu đơn giản để học các mô hình lựa chọn đa danh mục
* Số quan sát: 2000 phụ nữ có trình độ đại học
* ==================================================

* Xóa dữ liệu cũ và cài đặt số quan sát
clear
set obs 2000
set seed 12345 // Để đảm bảo kết quả có thể lặp lại

* --- Bước 1: Tạo biến độc lập (Tuổi) ---
* Giả sử tuổi phân phối đều từ 22 đến 65
gen age = 22 + (65-22)*runiform()
label var age "Tuổi của người được khảo sát"

* --- Bước 2: Tạo các thành phần tiện ích tiềm ẩn (Latent Utility) ---
* Đây là bước "giả lập" quyết định của mỗi người
* Giả định có 4 lựa chọn: 1=Chưa kết hôn, 2=Đã kết hôn, 3=Ly hôn, 4=Ly thân
* Tiện ích của mỗi lựa chọn sẽ phụ thuộc vào tuổi

* Tiện ích của "Chưa kết hôn" giảm dần theo tuổi
gen u1 = 15 - 0.3*age + rnormal(0, 2)

* Tiện ích của "Đã kết hôn" có dạng parabol ngược (tăng rồi giảm)
gen u2 = -15 + 1.2*age - 0.015*age^2 + rnormal(0, 2)

* Tiện ích của "Ly hôn" tăng dần theo tuổi, đặc biệt sau 35
gen u3 = -10 + 0.1*age + 0.005*(age-35)^2*(age>35) + rnormal(0, 2)

* Tiện ích của "Ly thân" thấp và không thay đổi nhiều
gen u4 = -5 + rnormal(0, 1.5)

* --- Bước 3: Xác định lựa chọn cuối cùng ---
* Người đó sẽ chọn phương án có tiện ích (u) cao nhất
gen marital_status = 1 if u1 > u2 & u1 > u3 & u1 > u4
replace marital_status = 2 if u2 > u1 & u2 > u3 & u2 > u4
replace marital_status = 3 if u3 > u1 & u3 > u2 & u3 > u4
replace marital_status = 4 if u4 > u1 & u4 > u2 & u4 > u3

* --- Bước 4: Gán nhãn cho biến ---
label define marital_label 1 "Chưa kết hôn" 2 "Đã kết hôn" 3 "Ly hôn" 4 "Ly thân"
label values marital_status marital_label
label var marital_status "Tình trạng hôn nhân"

* --- Bước 5: Dọn dẹp và lưu dữ liệu ---
* Chỉ giữ lại các biến cần thiết cho phân tích
keep marital_status age
compress
save "marital_status_sim.dta", replace

* Xem qua dữ liệu đã tạo
describe
summarize
tabulate marital_status

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG VỀ TÌNH TRẠNG HÔN NHÂN
* Mục đích: Tạo một bộ dữ liệu đơn giản để học các mô hình lựa chọn đa danh mục
* Số quan sát: 2000 phụ nữ có trình độ đại học
* ==================================================

* Xóa dữ liệu cũ và cài đặt số quan sát
clear
set obs 2000
set seed 12345 // Để đảm bảo kết quả có thể lặp lại

* --- Bước 1: Tạo biến độc lập (Tuổi) ---
* Giả sử tuổi phân phối đều từ 22 đến 65
gen age = 22 + (65-22)*runiform()
label var age "Tuổi của người được khảo sát"

* --- Bước 2: Tạo các thành phần tiện ích tiềm ẩn (Latent Utility) ---
* Đây là bước "giả lập" quyết định của mỗi người
* Giả định có 4 lựa chọn: 1=Chưa kết hôn, 2=Đã kết hôn, 3=Ly hôn, 4=Ly thân
* Tiện ích của mỗi lựa chọn sẽ phụ thuộc vào tuổi

* Tiện ích của "Chưa kết hôn" giảm dần theo tuổi
gen u1 = 15 - 0.3*age + rnormal(0, 2)

* Tiện ích của "Đã kết hôn" có dạng parabol ngược (tăng rồi giảm)
gen u2 = -15 + 1.2*age - 0.015*age^2 + rnormal(0, 2)

* Tiện ích của "Ly hôn" tăng dần theo tuổi, đặc biệt sau 35
gen u3 = -10 + 0.1*age + 0.005*(age-35)^2*(age>35) + rnormal(0, 2)

* Tiện ích của "Ly thân" thấp và không thay đổi nhiều
gen u4 = -5 + rnormal(0, 1.5)

* --- Bước 3: Xác định lựa chọn cuối cùng ---
* Người đó sẽ chọn phương án có tiện ích (u) cao nhất
gen marital_status = 1 if u1 > u2 & u1 > u3 & u1 > u4
replace marital_status = 2 if u2 > u1 & u2 > u3 & u2 > u4
replace marital_status = 3 if u3 > u1 & u3 > u2 & u3 > u4
replace marital_status = 4 if u4 > u1 & u4 > u2 & u4 > u3

* --- Bước 4: Gán nhãn cho biến ---
label define marital_label 1 "Chưa kết hôn" 2 "Đã kết hôn" 3 "Ly hôn" 4 "Ly thân"
label values marital_status marital_label
label var marital_status "Tình trạng hôn nhân"

* --- Bước 5: Dọn dẹp và lưu dữ liệu ---
* Chỉ giữ lại các biến cần thiết cho phân tích
keep marital_status age
compress
save "marital_status_sim.dta", replace

* Xem qua dữ liệu đã tạo
describe
summarize
tabulate marital_status