Giới thiệu dự báo với nhiều biến và dữ liệu lớn

An Introduction to Prediction with Many Regressors and Big data

Chào các bạn sinh viên, chào mừng đến với một trong những chủ đề hiện đại và hấp dẫn nhất của kinh tế lượng: dự báo trong thế giới “dữ liệu lớn”. Hãy tưởng tượng hai câu chuyện: một vị giám đốc sở giáo dục muốn biết việc giảm sĩ số lớp học có thực sự cải thiện điểm thi hay không; một người cha sắp chuyển nhà lại muốn dự báo xem trường nào có khả năng đạt thành tích cao nhất. Câu hỏi của vị giám đốc đòi hỏi chúng ta phải ước lượng tác động nhân quả, một chủ đề quen thuộc trong các chương trước. Tuy nhiên, câu hỏi của người cha lại thuộc về một lĩnh vực khác: dự báo. Mục tiêu không phải là giải thích “tại sao” mà là dự đoán “cái gì” sẽ xảy ra một cách chính xác nhất với những thông tin sẵn có.

Trong kỷ nguyên số, chúng ta có quyền truy cập vào một lượng thông tin khổng lồ, từ hàng trăm, thậm chí hàng nghìn biến dự báo (predictors). Tuy nhiên, “nhiều hơn” không phải lúc nào cũng “tốt hơn”. Khi số lượng biến dự báo quá lớn so với số quan sát, phương pháp hồi quy bình phương nhỏ nhất (OLS) quen thuộc bắt đầu bộc lộ những hạn chế nghiêm trọng, dẫn đến hiện tượng “khớp quá mức” (overfitting) và cho kết quả dự báo ngoại mẫu rất tệ. Chuỗi bài học này sẽ trang bị cho các bạn những công cụ mạnh mẽ để vượt qua thách thức đó. Chúng ta sẽ khám phá các kỹ thuật hiện đại được thiết kế riêng cho bài toán dự báo với nhiều biến, giúp xây dựng các mô hình chính xác và đáng tin cậy. Đây là những kỹ năng không thể thiếu cho bất kỳ nhà kinh tế lượng, nhà khoa học dữ liệu hay nhà phân tích nào trong thế kỷ 21.

BA TỪ KHÓA CỐT LÕI

Ước lượng co ngót (Shrinkage Estimators): Các phương pháp thông minh “co” các hệ số hồi quy về phía 0, chấp nhận một chút chệch (bias) để giảm đáng kể phương sai (variance), từ đó cải thiện độ chính xác của dự báo.
Dự báo ngoại mẫu (Out-of-Sample Prediction): Tiêu chuẩn vàng để đánh giá một mô hình dự báo. Chúng ta quan tâm đến việc mô hình hoạt động tốt như thế nào trên dữ liệu mới mà nó chưa từng “nhìn thấy”.
Kiểm định chéo (Cross-Validation): Một kỹ thuật mạnh mẽ để ước tính hiệu suất dự báo ngoại mẫu của mô hình bằng cách chia dữ liệu mẫu thành các tập con để “huấn luyện” và “kiểm tra” lẫn nhau.

CẤU TRÚC CHUỖI BÀI HỌC

Vấn đề dự báo và hạn chế của OLS
Hiểu rõ tại sao OLS thất bại khi có quá nhiều biến và làm quen với thước đo hiệu suất MSPE.
Hồi quy Ridge – Kỹ thuật co ngót hệ số
Nắm vững phương pháp Ridge để kiểm soát sự phức tạp của mô hình và cải thiện độ chính xác dự báo.
Hồi quy Lasso – Lựa chọn biến tự động
Khám phá cách Lasso vừa co ngót hệ số vừa có thể loại bỏ các biến không cần thiết khỏi mô hình.
Hồi quy thành phần chính (PCR)
Học cách giảm số chiều của dữ liệu bằng PCA để xây dựng mô hình dự báo hiệu quả và tinh gọn.
Thực hành so sánh các mô hình trong Stata
Vận dụng Stata để triển khai cả ba phương pháp, so sánh hiệu suất và chọn ra mô hình tốt nhất.
Phân tích sâu và diễn giải kết quả
Học cách diễn giải kết quả từ các mô hình phức tạp và trực quan hóa hiệu suất dự báo.
Bài tổng hợp – Lựa chọn mô hình phù hợp
Hệ thống hóa kiến thức và xây dựng tư duy lựa chọn phương pháp dự báo tối ưu cho từng bài toán.

KIẾN THỨC TIÊN QUYẾT

Kinh tế lượng cơ bản: Hiểu rõ về mô hình hồi quy OLS đa biến, các giả định Gauss-Markov, và ý nghĩa của R-squared.
Thống kê căn bản: Nắm vững các khái niệm về giá trị kỳ vọng, phương sai, độ lệch chuẩn, hiệp phương sai và tương quan.
Toán học cơ bản: Hiểu biết về các phép toán ma trận cơ bản và tối ưu hóa (tìm cực trị của hàm số) là một lợi thế.
Stata cơ bản: Quen thuộc với các lệnh cơ bản như use, regress, summarize, và generate.

MỤC TIÊU HỌC TẬP

Hiểu rõ bản chất của bài toán dự báo với nhiều biến và những thách thức mà nó đặt ra so với ước lượng nhân quả.
Nắm vững lý thuyết và cơ chế hoạt động của ba phương pháp dự báo hiện đại: Hồi quy Ridge, Lasso, và Hồi quy thành phần chính.
Vận dụng thành thạo Stata để xây dựng, tinh chỉnh và đánh giá các mô hình dự báo sử dụng các kỹ thuật trên.
Phát triển kỹ năng diễn giải và so sánh hiệu suất của các mô hình khác nhau để đưa ra lựa chọn tối ưu cho bài toán thực tế.

TÀI LIỆU THAM KHẢO

Stock, J. H., & Watson, M. W. (2020). Introduction to Econometrics, Updated Fourth Edition. Pearson. (Chương 14 là tài liệu gốc cho chuỗi bài này).
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer. (Một tài liệu tuyệt vời, dễ tiếp cận về các phương pháp học máy).
Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning. (Cung cấp nền tảng vững chắc về kinh tế lượng ứng dụng).

PHỤ LỤC: DỮ LIỆU MÔ PHỎNG CHO SERIES

Để giúp các bạn dễ dàng thực hành, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng về điểm thi của các trường học. Bộ dữ liệu này được thiết kế để phản ánh các đặc điểm thường thấy trong thực tế. Bạn có thể tạo lại bộ dữ liệu này bằng code Stata dưới đây.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* SỐ QUAN SÁT: 500 trường học
* BIẾN PHỤ THUỘC: test_score (điểm thi trung bình)
* ==================================================

clear
set obs 500
set seed 12345

* --- Tạo các biến dự báo cơ bản ---
* str: Tỷ lệ học sinh/giáo viên
gen str = rnormal(20, 2)

* expn: Chi tiêu cho mỗi học sinh (nghìn USD)
gen expn = rnormal(15, 3)

* income: Thu nhập trung bình của phụ huynh (nghìn USD)
gen income = rnormal(60, 15)

* english: Tỷ lệ học sinh nói tiếng Anh là ngôn ngữ thứ hai
gen english = runiform(0, 0.8)

* --- Tạo thêm nhiều biến dự báo nhiễu ---
* Mục đích: Mô phỏng tình huống có nhiều biến không liên quan
forval i = 1/50 {
    gen noise_`i' = rnormal(0, 1)
}

* --- Tạo biến phụ thuộc (test_score) ---
* Điểm thi phụ thuộc vào 4 biến cơ bản và một sai số ngẫu nhiên
gen test_score = 600 - 2*str + 1.5*expn + 1.2*income - 30*english + rnormal(0, 20)

* --- Mô tả dữ liệu ---
describe
summarize test_score str expn income english noise_*

* --- Lưu dữ liệu để sử dụng ---
* save "school_prediction_data.dta", replace
* compress

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* SỐ QUAN SÁT: 500 trường học
* BIẾN PHỤ THUỘC: test_score (điểm thi trung bình)
* ==================================================

clear
set obs 500
set seed 12345

* --- Tạo các biến dự báo cơ bản ---
* str: Tỷ lệ học sinh/giáo viên
gen str = rnormal(20, 2)

* expn: Chi tiêu cho mỗi học sinh (nghìn USD)
gen expn = rnormal(15, 3)

* income: Thu nhập trung bình của phụ huynh (nghìn USD)
gen income = rnormal(60, 15)

* english: Tỷ lệ học sinh nói tiếng Anh là ngôn ngữ thứ hai
gen english = runiform(0, 0.8)

* --- Tạo thêm nhiều biến dự báo nhiễu ---
* Mục đích: Mô phỏng tình huống có nhiều biến không liên quan
forval i = 1/50 {
    gen noise_`i' = rnormal(0, 1)
}

* --- Tạo biến phụ thuộc (test_score) ---
* Điểm thi phụ thuộc vào 4 biến cơ bản và một sai số ngẫu nhiên
gen test_score = 600 - 2*str + 1.5*expn + 1.2*income - 30*english + rnormal(0, 20)

* --- Mô tả dữ liệu ---
describe
summarize test_score str expn income english noise_*

* --- Lưu dữ liệu để sử dụng ---
* save "school_prediction_data.dta", replace
* compress

Mô tả các biến chính:

test_score: Điểm thi trung bình của trường, đây là biến chúng ta cần dự báo.
str: Tỷ lệ học sinh trên giáo viên.
expn: Chi tiêu trung bình cho mỗi học sinh.
income: Thu nhập trung bình của các gia đình trong khu vực trường.
english: Tỷ lệ học sinh có tiếng Anh là ngôn ngữ thứ hai.
noise_1 đến noise_50: 50 biến nhiễu được tạo ngẫu nhiên, không có mối quan hệ thực sự với test_score. Chúng được thêm vào để mô phỏng thách thức của việc có nhiều biến dự báo.

📚 Bài tiếp theo: Vấn đề dự báo với nhiều biến và hạn chế của OLS

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.

🎯 Self-check: Bạn có thể giải thích sự khác biệt giữa dự báo và ước lượng nhân quả cho người khác không?