Giới thiệu hồi quy bội cho người mới bắt đầu

An Introduction to Multiple Regression for Beginners

Tổng quan về hồi quy bội

Chào mừng các bạn sinh viên đã quay trở lại với chuỗi bài học về kinh tế lượng! Ở các học phần trước, chúng ta đã làm quen với hồi quy tuyến tính đơn, một công cụ mạnh mẽ để phân tích mối quan hệ giữa hai biến số. Tuy nhiên, thế giới kinh tế trong thực tế lại phức tạp hơn nhiều. Các hiện tượng kinh tế như tăng trưởng GDP, lạm phát, hay giá nhà đất không chỉ bị ảnh hưởng bởi một yếu tố duy nhất, mà là kết quả của sự tương tác giữa nhiều yếu tố khác nhau. Đây chính là lúc hồi quy bội (multiple regression) phát huy vai trò của mình. Hồi quy bội là một sự mở rộng tự nhiên và mạnh mẽ của hồi quy đơn, cho phép chúng ta kiểm soát và phân tích tác động đồng thời của nhiều biến độc lập lên một biến phụ thuộc. Việc nắm vững kỹ thuật này không chỉ là một yêu cầu cơ bản trong nghiên cứu kinh tế lượng mà còn mở ra cánh cửa để bạn có thể xây dựng những mô hình giải thích thực tế kinh tế một cách phong phú và chính xác hơn. Trong chuỗi bài học này, chúng ta sẽ cùng nhau khám phá từ những khái niệm cơ bản nhất đến các ứng dụng thực tiễn của hồi quy bội, giúp bạn tự tin sử dụng công cụ này trong các bài tập và dự án nghiên cứu của mình.

Để xây dựng một nền tảng vững chắc, chúng ta sẽ tập trung vào ba trụ cột chính trong chuỗi bài học này. Đầu tiên là Mô hình hồi quy tuyến tính cổ điển (Classical Linear Regression Model – CLRM), bao gồm việc hiểu rõ các giả định nền tảng để ước lượng OLS có những đặc tính tốt. Thứ hai là chính phương pháp Bình phương nhỏ nhất thông thường (Ordinary Least Squares – OLS) trong môi trường đa biến, nơi chúng ta sẽ tìm hiểu cách tính toán và ý nghĩa của các hệ số hồi quy. Cuối cùng là diễn giải kết quả, một kỹ năng quan trọng để biến những con số thống kê thành các nhận định kinh tế có ý nghĩa. Mục tiêu của chúng tôi là giúp bạn không chỉ “chạy” được mô hình, mà còn thực sự “hiểu” được mô hình đang nói lên điều gì về thế giới xung quanh.

CẤU TRÚC CHUỖI BÀI HỌC

Nền tảng hồi quy bội và các giả định cổ điển
Tìm hiểu cách xây dựng mô hình với nhiều biến và khám phá 5 giả định quan trọng làm nền tảng cho ước lượng OLS.
Nguyên lý ước lượng OLS và maximum likelihood
Khám phá “công thức” đằng sau OLS trong môi trường đa biến và so sánh nó với phương pháp ước lượng Maximum Likelihood.
Định lý Gauss-Markov và phân phối của ước lượng
Nắm vững các định lý cốt lõi chứng minh tại sao OLS là ước lượng tốt nhất và hiểu về phân phối thống kê của nó.
Đánh giá mô hình và các vấn đề chẩn đoán
Học cách sử dụng R-squared, diễn giải hệ số một cách chính xác và nhận diện các lỗi đặc tả mô hình phổ biến.
Thực hành hồi quy bội với Stata từ A đến Z
Áp dụng toàn bộ lý thuyết đã học vào một case study thực tế, từ khâu chuẩn bị dữ liệu đến phân tích kết quả trên Stata.
Tổng hợp hồi quy bội: kết nối lý thuyết
Hệ thống hóa toàn bộ kiến thức, cung cấp một cái nhìn tổng thể và các hướng nghiên cứu kinh tế lượng nâng cao.

KIẾN THỨC TIÊN QUYẾT

Toán học cơ bản: Nắm vững các phép toán đại số tuyến tính cơ bản (ma trận, véc-tơ, chuyển vị, ma trận nghịch đảo).
Thống kê căn bản: Hiểu rõ các khái niệm về kỳ vọng, phương sai, hiệp phương sai, phân phối xác suất (Normal, Chi-squared, F).
Kinh tế lượng nhập môn: Đã hoàn thành học phần về mô hình hồi quy tuyến tính đơn và các giả định liên quan.
Stata cơ bản: Quen thuộc với giao diện Stata, biết cách nhập dữ liệu, tạo biến và chạy các lệnh thống kê mô tả cơ bản.

MỤC TIÊU HỌC TẬP

Nắm vững lý thuyết về mô hình hồi quy bội và các giả định cổ điển.
Hiểu và áp dụng được phương pháp OLS trong không gian đa biến bằng đại số ma trận.
Vận dụng thành thạo phần mềm Stata để ước lượng, kiểm định và diễn giải mô hình hồi quy bội.
Phân tích và diễn giải kết quả hồi quy một cách chính xác trong bối cảnh nghiên cứu kinh tế.
Nhận biết được các vấn đề tiềm ẩn như bỏ sót biến hay thêm biến không liên quan.

TÀI LIỆU THAM KHẢO

Pesaran, M. H. (2015). Time Series and Panel Data Econometrics. Oxford University Press.
Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning.
Hamilton, J. D. (1994). Time Series Analysis. Princeton University Press.

PHỤ LỤC: Dữ liệu mô phỏng cho series

Để giúp các bạn dễ dàng theo dõi và thực hành, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài học này. Bộ dữ liệu này chứa thông tin về lương, số năm đi học và kinh nghiệm làm việc của 1000 cá nhân. Đây là một ví dụ kinh điển trong kinh tế học lao động.

Các bạn có thể tự tạo lại bộ dữ liệu này bằng các câu lệnh Stata dưới đây:

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng về lương và học vấn
* SỐ QUAN SÁT: 1000
* ==================================================

* Bước 1: Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 1000

* Bước 2: Tạo biến số năm đi học (education)
* Giả định biến này có phân phối đều từ 9 đến 18 năm
set seed 123 // Đảm bảo kết quả có thể tái lập
gen education = 9 + int((18-9+1)*runiform())

* Bước 3: Tạo biến kinh nghiệm làm việc (experience)
* Kinh nghiệm có tương quan với học vấn
gen experience = 5 + 0.5*education + rnormal(0, 5)
replace experience = 1 if experience < 1 // Đảm bảo kinh nghiệm không âm

* Bước 4: Tạo sai số ngẫu nhiên (error term)
gen error = rnormal(0, 2)

* Bước 5: Tạo biến lương theo giờ (wage) - đơn vị: USD
* Giả định mô hình thực: wage = 1.5 + 1.2*education + 0.8*experience + error
gen wage = 1.5 + 1.2*education + 0.8*experience + error
replace wage = 5 if wage < 5 // Đảm bảo lương không quá thấp

* Bước 6: Gán nhãn cho các biến để dễ nhận biết
label variable wage "Lương theo giờ (USD)"
label variable education "Số năm đi học"
label variable experience "Số năm kinh nghiệm"

* Bước 7: Lưu dữ liệu để sử dụng cho các bài sau
* Thay "D:\data" bằng đường dẫn thư mục của bạn
save "D:\data\wage_data.dta", replace

* (Tùy chọn) Xuất ra file CSV để sử dụng trên các phần mềm khác
export delimited using "D:\data\wage_data.csv", replace

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng về lương và học vấn
* SỐ QUAN SÁT: 1000
* ==================================================

* Bước 1: Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 1000

* Bước 2: Tạo biến số năm đi học (education)
* Giả định biến này có phân phối đều từ 9 đến 18 năm
set seed 123 // Đảm bảo kết quả có thể tái lập
gen education = 9 + int((18-9+1)*runiform())

* Bước 3: Tạo biến kinh nghiệm làm việc (experience)
* Kinh nghiệm có tương quan với học vấn
gen experience = 5 + 0.5*education + rnormal(0, 5)
replace experience = 1 if experience < 1 // Đảm bảo kinh nghiệm không âm

* Bước 4: Tạo sai số ngẫu nhiên (error term)
gen error = rnormal(0, 2)

* Bước 5: Tạo biến lương theo giờ (wage) - đơn vị: USD
* Giả định mô hình thực: wage = 1.5 + 1.2*education + 0.8*experience + error
gen wage = 1.5 + 1.2*education + 0.8*experience + error
replace wage = 5 if wage < 5 // Đảm bảo lương không quá thấp

* Bước 6: Gán nhãn cho các biến để dễ nhận biết
label variable wage "Lương theo giờ (USD)"
label variable education "Số năm đi học"
label variable experience "Số năm kinh nghiệm"

* Bước 7: Lưu dữ liệu để sử dụng cho các bài sau
* Thay "D:\data" bằng đường dẫn thư mục của bạn
save "D:\data\wage_data.dta", replace

* (Tùy chọn) Xuất ra file CSV để sử dụng trên các phần mềm khác
export delimited using "D:\data\wage_data.csv", replace

Mô tả dữ liệu:

wage: Biến phụ thuộc, là mức lương theo giờ tính bằng USD.
education: Biến độc lập, là tổng số năm đi học chính quy.
experience: Biến độc lập, là số năm kinh nghiệm làm việc.

Hãy chắc chắn rằng bạn đã chạy các lệnh trên và lưu lại file wage_data.dta. Chúng ta sẽ bắt đầu sử dụng nó trong các bài học thực hành sắp tới. Chúc các bạn học tốt!

📚 Bài tiếp theo: Nền tảng Hồi quy bội và các Giả định Cổ điển

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.

🎯 Self-check: Bạn có thể giải thích sự khác biệt giữa hồi quy đơn và hồi quy bội cho một người bạn không?