Phân tích hồi quy với thông tin định tính: Từ lý thuyết đến Stata

Chào các bạn sinh viên, chào mừng đến với chuỗi bài học chuyên sâu về một trong những công cụ linh hoạt và mạnh mẽ nhất trong kinh tế lượng: phân tích thông tin định tính. Trong các chương trước, chúng ta đã làm việc rất nhiều với các biến số có ý nghĩa định lượng như tiền lương, số năm đi học, hay doanh thu công ty. Tuy nhiên, thế giới thực không chỉ có những con số. Các yếu tố như giới tính, tình trạng hôn nhân, ngành công nghiệp, hay việc một chính sách có được áp dụng hay không, đều là những thông tin định tính nhưng lại có tác động vô cùng quan trọng đến các kết quả kinh tế. Chuỗi bài học này sẽ trang bị cho các bạn kỹ năng để “số hóa” và phân tích những yếu tố đó một cách khoa học.

Chúng ta sẽ bắt đầu hành trình bằng việc tìm hiểu công cụ nền tảng là biến giả (dummy variables), học cách đưa chúng vào mô hình hồi quy để so sánh sự khác biệt giữa các nhóm. Sau đó, chúng ta sẽ khám phá các kỹ thuật nâng cao hơn như biến tương tác (interaction terms), cho phép mô hình của chúng ta trở nên linh hoạt và phản ánh thực tế phức tạp hơn. Cuối cùng, chúng ta sẽ đảo ngược vấn đề: điều gì xảy ra khi chính biến kết quả mà chúng ta muốn dự đoán lại là một biến định tính? Câu trả lời nằm ở Mô hình Xác suất Tuyến tính (Linear Probability Model – LPM).

Mục tiêu của chuỗi bài học này không chỉ dừng lại ở việc hiểu lý thuyết. Quan trọng hơn, các bạn sẽ học cách vận dụng những công cụ này một cách thành thạo trên phần mềm Stata thông qua các ví dụ thực tế. Kết thúc chuỗi bài, các bạn sẽ có đủ tự tin để phân tích các vấn đề kinh tế phức tạp hơn, trả lời những câu hỏi nghiên cứu thú vị và xây dựng những mô hình kinh tế lượng tinh vi, có giá trị thực tiễn cao.

CẤU TRÚC CHUỖI BÀI HỌC

Nền tảng về biến giả trong hồi quy
Nắm vững cách mã hóa thông tin định tính và diễn giải hệ số của một biến giả duy nhất trong mô hình hồi quy.
Kỹ thuật biến giả cho nhiều nhóm
Học cách sử dụng nhiều biến giả để phân tích sự khác biệt giữa nhiều hơn hai nhóm và xử lý các biến có thứ tự.
Sức mạnh của các biến tương tác
Khám phá cách các biến tương tác cho phép mô hình có độ dốc khác nhau, phản ánh các mối quan hệ phức tạp trong thực tế.
Mô hình xác suất tuyến tính (LPM)
Tìm hiểu cách phân tích khi biến phụ thuộc của bạn là một lựa chọn nhị phân (có/không, thành công/thất bại).
Thực hành phân tích với Stata
Áp dụng tất cả kiến thức đã học vào một bộ dữ liệu thực tế, từ khâu chuẩn bị dữ liệu đến phân tích và diễn giải kết quả.
Tổng hợp và hệ thống hóa kiến thức
Hệ thống hóa toàn bộ lý thuyết và phương pháp, cung cấp một cái nhìn tổng quan và các hướng nghiên cứu nâng cao.

KIẾN THỨC TIÊN QUYẾT

Kinh tế lượng cơ bản: Hiểu rõ về mô hình hồi quy tuyến tính bội, phương pháp OLS, R-squared, và kiểm định giả thuyết (kiểm định t, kiểm định F).
Thống kê căn bản: Nắm vững các khái niệm về kỳ vọng có điều kiện, phương sai, và phân phối của các ước lượng.
Đại số tuyến tính cơ bản: Hiểu về véc-tơ và ma trận là một lợi thế, nhưng không bắt buộc.
Stata cơ bản: Quen thuộc với các lệnh cơ bản như use, describe, summarize, và regress.

MỤC TIÊU HỌC TẬP

Nắm vững lý thuyết: Hiểu sâu sắc cách sử dụng biến giả và biến tương tác để mô hình hóa thông tin định tính.
Thành thạo Stata: Vận dụng thành thạo các lệnh Stata để ước lượng, kiểm định và diễn giải các mô hình có chứa biến giả.
Diễn giải kết quả: Có khả năng phân tích và trình bày kết quả hồi quy một cách chính xác, đặc biệt là các hệ số của biến giả và biến tương tác.
Tư duy phản biện: Nhận biết được các ưu và nhược điểm của Mô hình Xác suất Tuyến tính và các vấn đề tiềm ẩn như “bẫy biến giả”.

TÀI LIỆU THAM KHẢO

Wooldridge, J. M. (2019). Introductory econometrics: A modern approach (7th ed.). Cengage Learning. (Tài liệu chính của chuỗi bài học)
Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics: Methods and applications. Cambridge university press. (Tài liệu tham khảo nâng cao)
Angrist, J. D., & Pischke, J. S. (2009). Mostly harmless econometrics: An empiricist’s companion. Princeton university press. (Cung cấp góc nhìn thực hành và ứng dụng)

PHỤ LỤC: DỮ LIỆU MÔ PHỎNG CHO SERIES

Để giúp các bạn dễ dàng thực hành, tôi đã tạo một bộ dữ liệu mô phỏng đơn giản về kết quả học tập của sinh viên. Chúng ta sẽ sử dụng bộ dữ liệu này trong suốt chuỗi bài học để minh họa các khái niệm.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* TÁC GIẢ: Giáo sư Kinh tế lượng
* NGÀY TẠO: 24/05/2024
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 200

* Tạo biến nền tảng
set seed 123 // Để đảm bảo kết quả có thể tái lập
gen study_hours = rnormal(15, 4) // Giờ học mỗi tuần
gen hs_gpa = rnormal(8, 0.5)     // Điểm GPA trung học

* Tạo các biến giả (định tính)
gen has_tutor = (runiform() > 0.7) // 1 nếu có gia sư, 0 nếu không
gen is_female = (runiform() > 0.5) // 1 nếu là nữ, 0 nếu là nam

* Tạo biến phụ thuộc (kết quả học tập)
gen uni_gpa = 1.5 + 0.05*study_hours + 0.1*hs_gpa + 0.2*has_tutor - 0.15*is_female + 0.1*(has_tutor*is_female) + rnormal(0, 0.2)

* Gán nhãn cho các biến để dễ hiểu
label variable study_hours "Số giờ tự học mỗi tuần"
label variable hs_gpa "Điểm GPA trung học (thang 10)"
label variable has_tutor "Có gia sư (1=có, 0=không)"
label variable is_female "Giới tính (1=nữ, 0=nam)"
label variable uni_gpa "Điểm GPA đại học (thang 4)"

* Lưu dữ liệu để sử dụng
save "student_performance.dta", replace

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* TÁC GIẢ: Giáo sư Kinh tế lượng
* NGÀY TẠO: 24/05/2024
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 200

* Tạo biến nền tảng
set seed 123 // Để đảm bảo kết quả có thể tái lập
gen study_hours = rnormal(15, 4) // Giờ học mỗi tuần
gen hs_gpa = rnormal(8, 0.5)     // Điểm GPA trung học

* Tạo các biến giả (định tính)
gen has_tutor = (runiform() > 0.7) // 1 nếu có gia sư, 0 nếu không
gen is_female = (runiform() > 0.5) // 1 nếu là nữ, 0 nếu là nam

* Tạo biến phụ thuộc (kết quả học tập)
gen uni_gpa = 1.5 + 0.05*study_hours + 0.1*hs_gpa + 0.2*has_tutor - 0.15*is_female + 0.1*(has_tutor*is_female) + rnormal(0, 0.2)

* Gán nhãn cho các biến để dễ hiểu
label variable study_hours "Số giờ tự học mỗi tuần"
label variable hs_gpa "Điểm GPA trung học (thang 10)"
label variable has_tutor "Có gia sư (1=có, 0=không)"
label variable is_female "Giới tính (1=nữ, 0=nam)"
label variable uni_gpa "Điểm GPA đại học (thang 4)"

* Lưu dữ liệu để sử dụng
save "student_performance.dta", replace