Mở rộng mô hình hồi quy đơn

Chào mừng các bạn sinh viên đã quay trở lại với chuỗi bài học về kinh tế lượng ứng dụng! Ở chương trước, chúng ta đã làm quen với một công cụ rất mạnh mẽ là mô hình hồi quy tuyến tính đơn, giúp ước lượng tác động của một biến (như giáo dục) lên một kết quả mà chúng ta quan tâm (như thu nhập). Tuy nhiên, thực tế luôn phức tạp hơn thế. Liệu chỉ có giáo dục mới quyết định thu nhập? Hay còn các yếu tố khác như kinh nghiệm, kỹ năng bẩm sinh, hay thậm chí là may mắn?

Mô hình hồi quy đơn, dù hữu ích, lại có một hạn chế lớn: nó gom tất cả các yếu tố không được giải thích khác vào trong “phần dư”. Nếu những yếu tố “ẩn” này lại có liên quan đến biến giải thích của chúng ta, kết quả ước lượng có thể bị chệch hướng, hay nói một cách học thuật là bị “thiên lệch”. Đây chính là một trong những thách thức lớn nhất trong phân tích kinh tế lượng. Chuỗi bài học này sẽ trang bị cho các bạn một công cụ nâng cấp và mạnh mẽ hơn rất nhiều: mô hình hồi quy đa biến. Chúng ta sẽ học cách đưa nhiều biến giải thích vào mô hình cùng một lúc, cho phép “kiểm soát” các yếu tố khác để có được một ước lượng chính xác và đáng tin cậy hơn về tác động mà chúng ta thực sự quan tâm.

Trong chuỗi bài này, chúng ta sẽ cùng nhau khám phá ba khái niệm cốt lõi:

Biến giả (Dummy Variables): Một cách thông minh để đưa các đặc tính định tính (như giới tính, việc hoàn thành một cấp học) vào mô hình hồi quy.
Hồi quy đa biến (Multiple Regression): Kỹ thuật cho phép phân tích tác động của nhiều yếu tố lên biến phụ thuộc một cách đồng thời.
Thiên lệch do biến bị bỏ sót (Omitted Variable Bias): Một trong những “kẻ thù” lớn nhất của suy luận nhân quả và cách hồi quy đa biến giúp chúng ta đối phó với nó.

Hãy cùng nhau bắt đầu hành trình khám phá công cụ thiết yếu này, một bước tiến quan trọng giúp các bạn từ một người sử dụng kinh tế lượng trở thành một nhà phân tích dữ liệu thực thụ!

Bài 1: Mở rộng mô hình hồi quy với biến giả
Chúng ta sẽ bắt đầu bằng cách tìm hiểu một dạng biến đặc biệt là biến giả và xem nó giúp chúng ta so sánh các nhóm khác nhau như thế nào.
Bài 2: Nền tảng lý thuyết của hồi quy đa biến
Bài học này sẽ đi sâu vào các nguyên lý toán học, các giả định quan trọng và vấn đề cốt lõi là thiên lệch do biến bị bỏ sót.
Bài 3: Diễn giải và ứng dụng hồi quy đa biến
Chúng ta sẽ áp dụng lý thuyết vào các ví dụ thực tế trong kinh tế học vi mô và vĩ mô để hiểu cách diễn giải kết quả một cách chính xác.
Bài 4: Hướng dẫn thực hành phân tích hồi quy đa biến với Stata
Đây là bài thực hành tổng hợp, nơi chúng ta sẽ cùng nhau thực hiện một dự án phân tích nhỏ từ đầu đến cuối bằng Stata, củng cố tất cả kiến thức đã học.

KIẾN THỨC TIÊN QUYẾT

Kinh tế lượng nhập môn: Hiểu rõ mô hình hồi quy OLS đơn biến, ý nghĩa của hệ số chặn, hệ số góc, R-squared và các giả định OLS cơ bản.
Thống kê căn bản: Nắm vững các khái niệm về kỳ vọng có điều kiện, phương sai, hiệp phương sai và tương quan.
Toán học cơ bản: Có kiến thức về đại số tuyến tính cơ bản (ma trận, véc-tơ) là một lợi thế, nhưng không bắt buộc.
Stata cơ bản: Quen thuộc với các lệnh cơ bản như use, summarize, regress, và cách đọc kết quả Stata.

MỤC TIÊU HỌC TẬP

Hiểu sâu sắc: Nắm vững tại sao và khi nào cần sử dụng mô hình hồi quy đa biến thay vì hồi quy đơn.
Nhận diện vấn đề: Giải thích được khái niệm “thiên lệch do biến bị bỏ sót” và cách nó ảnh hưởng đến kết quả nghiên cứu.
Thực hành thành thạo: Có khả năng ước lượng và diễn giải các hệ số trong một mô hình hồi quy đa biến bằng phần mềm Stata.
Tư duy phản biện: Đánh giá được độ tin cậy của một kết quả hồi quy dựa trên các biến được đưa vào hoặc bỏ sót khỏi mô hình.

TÀI LIỆU THAM KHẢO

Chính: Wooldridge, J. M. (2013). Introductory Econometrics: A Modern Approach. Đây là sách giáo khoa nền tảng và rất dễ hiểu cho sinh viên.
Bổ sung: Hall, R. E., & Jones, C. I. (1999). ‘Why do some countries produce so much more output per worker than others?’. Một bài báo kinh điển ứng dụng các ý tưởng về vốn nhân lực.
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Cuốn sách tuyệt vời cho các ví dụ thực hành nâng cao.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài này. Bộ dữ liệu này chứa thông tin giả định về thu nhập, học vấn, kinh nghiệm và một vài đặc điểm khác của 500 sinh viên mới ra trường. Việc sử dụng cùng một bộ dữ liệu sẽ giúp chúng ta thấy rõ sự khác biệt khi xây dựng các mô hình từ đơn giản đến phức tạp.

Các bạn hãy mở Stata, chạy đoạn code dưới đây để tự tạo và lưu lại file dữ liệu này nhé. Chúng ta sẽ dùng nó trong các bài học tới!

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu đơn giản để thực hành
* Tên file: student_earnings.dta
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 500

* --- Bước 1: Tạo các biến giải thích ---

* Tạo biến số năm đi học (education), phân phối đều từ 12 đến 18
set seed 123 // Đảm bảo kết quả có thể lặp lại
gen education = 12 + floor((18-12+1)*runiform())
label var education "Số năm đi học"

* Tạo biến kinh nghiệm (experience), giả sử có tương quan âm với học vấn
gen experience = 5 - 0.2*education + rnormal(0, 1)
replace experience = 0 if experience < 0 // Kinh nghiệm không thể âm
label var experience "Số năm kinh nghiệm"

* Tạo biến giả cho ngành STEM (1=STEM, 0=Khác)
gen stem_major = (runiform() < 0.4)
label var stem_major "Học ngành STEM (1=Có)"

* Tạo một biến "khả năng bẩm sinh" (ability) không quan sát được
* Giả sử khả năng có tương quan dương với học vấn
gen ability = 0.5*education + rnormal(0, 2)
label var ability "Năng lực bẩm sinh (không quan sát được)"


* --- Bước 2: Tạo biến phụ thuộc (thu nhập) ---

* Tạo thu nhập (wage) dựa trên một mô hình "thực"
* Thu nhập phụ thuộc vào học vấn, kinh nghiệm, ngành học và khả năng
gen wage = 5 + 1.5*education + 0.8*experience + 3*stem_major + 1.2*ability + rnormal(0, 5)
label var wage "Thu nhập hàng tháng (triệu VND)"


* --- Bước 3: Hoàn thiện và lưu dữ liệu ---

* Xóa biến không quan sát được để mô phỏng thực tế
drop ability

* Xem lại dữ liệu
describe
summarize wage education experience stem_major
list in 1/10

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "student_earnings.dta", replace

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu đơn giản để thực hành
* Tên file: student_earnings.dta
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 500

* --- Bước 1: Tạo các biến giải thích ---

* Tạo biến số năm đi học (education), phân phối đều từ 12 đến 18
set seed 123 // Đảm bảo kết quả có thể lặp lại
gen education = 12 + floor((18-12+1)*runiform())
label var education "Số năm đi học"

* Tạo biến kinh nghiệm (experience), giả sử có tương quan âm với học vấn
gen experience = 5 - 0.2*education + rnormal(0, 1)
replace experience = 0 if experience < 0 // Kinh nghiệm không thể âm
label var experience "Số năm kinh nghiệm"

* Tạo biến giả cho ngành STEM (1=STEM, 0=Khác)
gen stem_major = (runiform() < 0.4)
label var stem_major "Học ngành STEM (1=Có)"

* Tạo một biến "khả năng bẩm sinh" (ability) không quan sát được
* Giả sử khả năng có tương quan dương với học vấn
gen ability = 0.5*education + rnormal(0, 2)
label var ability "Năng lực bẩm sinh (không quan sát được)"


* --- Bước 2: Tạo biến phụ thuộc (thu nhập) ---

* Tạo thu nhập (wage) dựa trên một mô hình "thực"
* Thu nhập phụ thuộc vào học vấn, kinh nghiệm, ngành học và khả năng
gen wage = 5 + 1.5*education + 0.8*experience + 3*stem_major + 1.2*ability + rnormal(0, 5)
label var wage "Thu nhập hàng tháng (triệu VND)"


* --- Bước 3: Hoàn thiện và lưu dữ liệu ---

* Xóa biến không quan sát được để mô phỏng thực tế
drop ability

* Xem lại dữ liệu
describe
summarize wage education experience stem_major
list in 1/10

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "student_earnings.dta", replace