Hồi quy bình phương nhỏ nhất

Chào mừng các bạn sinh viên đã đến với chuỗi bài học về các tính chất của ước lượng Bình phương nhỏ nhất (OLS). Trong các chương trước, chúng ta đã học cách tính toán các hệ số hồi quy. Bây giờ, chúng ta sẽ đi sâu hơn vào một câu hỏi quan trọng hơn trong kinh tế lượng: Liệu những con số chúng ta ước lượng được có đáng tin cậy không? Chương này chính là nền tảng để trả lời câu hỏi đó.

Chúng ta sẽ khám phá “tính cách” của ước lượng OLS trong các mẫu hữu hạn – tức là với số lượng quan sát mà chúng ta thường có trong thực tế. Chúng ta sẽ tìm hiểu xem liệu trung bình các ước lượng của chúng ta có đúng với giá trị thực của tổng thể không, và mức độ biến động của các ước lượng đó là bao nhiêu. Việc hiểu rõ những tính chất này là cực kỳ quan trọng, vì nó quyết định cách chúng ta diễn giải kết quả và đưa ra các kết luận chính sách có ý nghĩa.

Trong chuỗi bài học này, chúng ta sẽ tập trung vào ba khái niệm cốt lõi: Tính không chệch (Unbiasedness), giúp chúng ta biết liệu ước lượng có “nhắm đúng mục tiêu” hay không; Phương sai của ước lượng (Variance of the estimator), cho biết mức độ “phân tán” của các kết quả ước lượng; và quan trọng nhất là Sai số chuẩn (Standard Errors), công cụ thực hành hàng ngày để đo lường độ không chắc chắn trong nghiên cứu. Nắm vững những khái niệm này sẽ giúp các bạn tự tin hơn khi đọc các bài báo nghiên cứu và tự mình thực hiện các phân tích kinh tế lượng.

Cấu trúc chuỗi bài học

Bài 1: Nền tảng của ước lượng OLS trong mẫu hữu hạn
Chúng ta sẽ bắt đầu với các giả định quan trọng, đặc biệt là lấy mẫu ngẫu nhiên, và xem xét mô hình đơn giản nhất để xây dựng trực giác.
Bài 2: Các tính chất kỳ vọng và phương sai của ước lượng OLS
Bài học này sẽ chứng minh một cách chi tiết rằng OLS là ước lượng không chệch và tìm ra công thức tính phương sai của nó.
Bài 3: Hiệu quả của OLS và định lý Gauss-Markov
Chúng ta sẽ khám phá tại sao OLS được coi là “tốt nhất” trong một nhóm các ước lượng nhất định thông qua định lý Gauss-Markov nổi tiếng.
Bài 4: Ước lượng phương sai sai số và sai số chuẩn
Đây là một bài học cực kỳ thực tế, hướng dẫn cách ước lượng ma trận hiệp phương sai trong cả trường hợp phương sai đồng nhất và thay đổi.
Bài 5: Các vấn đề thực hành: Đa cộng tuyến và biến giả thưa
Chúng ta sẽ tìm hiểu cách nhận biết và xử lý hai vấn đề thường gặp trong thực tế có thể ảnh hưởng đến độ chính xác của ước lượng.
Bài 6: Giới thiệu về hồi quy với dữ liệu cụm (Clustered Data)
Bài học này mở rộng các khái niệm đã học sang trường hợp dữ liệu có sự phụ thuộc theo cụm, một tình huống phổ biến trong kinh tế học.
Bài 7: Hướng dẫn thực hành OLS và các vấn đề liên quan với Stata
Chúng ta sẽ tổng hợp tất cả lý thuyết đã học và áp dụng vào một bài phân tích hoàn chỉnh trên Stata, từ việc tính các loại sai số chuẩn đến xử lý dữ liệu cụm.

KIẾN THỨC TIÊN QUYẾT

Kinh tế lượng cơ bản: Hiểu rõ cách thiết lập và tính toán ước lượng OLS (Chương 3).
Xác suất và Thống kê: Nắm vững các khái niệm về kỳ vọng, phương sai, hiệp phương sai, và kỳ vọng có điều kiện.
Đại số tuyến tính: Quen thuộc với các phép toán ma trận cơ bản (nhân, chuyển vị, nghịch đảo).
Stata cơ bản: Biết cách nhập dữ liệu, chạy lệnh regress, và đọc kết quả hồi quy cơ bản.

MỤC TIÊU HỌC TẬP

Hiểu sâu sắc: Giải thích được tại sao OLS là một ước lượng tốt thông qua các tính chất như không chệch và hiệu quả (định lý Gauss-Markov).
Phân biệt rạch ròi: Nhận biết sự khác biệt giữa phương sai đồng nhất (homoskedasticity) và phương sai thay đổi (heteroskedasticity).
Thực hành thành thạo: Tính toán và lựa chọn đúng loại sai số chuẩn (cổ điển, robust, clustered) trong Stata cho các tình huống dữ liệu khác nhau.
Tư duy phản biện: Chẩn đoán và nhận thức được các vấn đề tiềm ẩn như đa cộng tuyến và sự phụ thuộc theo cụm trong phân tích hồi quy.

TÀI LIỆU THAM KHẢO

Chính: Hansen, B. E. (2022). Econometrics. Princeton University Press. (Chương 4).
Bổ sung dễ hiểu: Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning.
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Stata Press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài này. Bộ dữ liệu này mô phỏng điểm thi cuối kỳ của 500 sinh viên dựa trên số giờ tự học và điểm trung bình tích lũy (GPA).

Các biến trong dữ liệu:

student_id: Mã số sinh viên (định danh).
gpa: Điểm trung bình tích lũy của sinh viên (thang 4.0).
study_hours: Số giờ tự học trung bình mỗi tuần.
final_score: Điểm thi cuối kỳ (thang 100).
school_id: Mã trường học (để sử dụng trong bài học về dữ liệu cụm).

Các bạn hãy chạy đoạn code Stata dưới đây để tạo và lưu lại file dữ liệu student_scores.dta. Chúng ta sẽ sử dụng file này trong các bài học tiếp theo.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC VỀ OLS
* Mục đích: Tạo một bộ dữ liệu đơn giản, dễ hiểu để thực hành
* Tác giả: Giáo sư Kinh tế lượng
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 500
set seed 12345 // Đảm bảo kết quả có thể lặp lại

* --- Tạo các biến độc lập ---

* Tạo mã sinh viên
gen student_id = _n

* Tạo điểm GPA, phân phối Beta để giống thực tế (tập trung ở khoảng 2.5-3.5)
gen gpa = 1.5 + 2.5 * rbeta(4, 2)

* Tạo số giờ tự học, giả sử có tương quan với GPA
gen study_hours = 5 + 2 * gpa + rnormal(0, 5)
replace study_hours = 0 if study_hours < 0 // Đảm bảo không có giờ học âm

* Tạo mã trường (10 trường, mỗi trường khoảng 50 sinh viên)
gen school_id = ceil(_n / 50)

* --- Tạo sai số và biến phụ thuộc ---

* Tạo thành phần sai số ngẫu nhiên (e)
* Giả sử có phương sai thay đổi: phương sai lớn hơn với sinh viên có GPA thấp
gen error_variance = 100 / (gpa^2)
gen e = rnormal(0, sqrt(error_variance))

* Tạo điểm thi cuối kỳ (biến phụ thuộc Y)
* Giả định mô hình thực: final_score = 10 + 5*gpa + 2*study_hours + e
gen final_score = 10 + 5 * gpa + 2 * study_hours + e

* --- Hoàn thiện và lưu dữ liệu ---

* Dán nhãn cho các biến để dễ nhận biết
label var gpa "Điểm GPA tích lũy (thang 4.0)"
label var study_hours "Số giờ tự học trung bình/tuần"
label var final_score "Điểm thi cuối kỳ (thang 100)"
label var school_id "Mã định danh trường học"

* Mô tả ngắn gọn bộ dữ liệu
describe
summarize

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "student_scores.dta", replace

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC VỀ OLS
* Mục đích: Tạo một bộ dữ liệu đơn giản, dễ hiểu để thực hành
* Tác giả: Giáo sư Kinh tế lượng
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 500
set seed 12345 // Đảm bảo kết quả có thể lặp lại

* --- Tạo các biến độc lập ---

* Tạo mã sinh viên
gen student_id = _n

* Tạo điểm GPA, phân phối Beta để giống thực tế (tập trung ở khoảng 2.5-3.5)
gen gpa = 1.5 + 2.5 * rbeta(4, 2)

* Tạo số giờ tự học, giả sử có tương quan với GPA
gen study_hours = 5 + 2 * gpa + rnormal(0, 5)
replace study_hours = 0 if study_hours < 0 // Đảm bảo không có giờ học âm

* Tạo mã trường (10 trường, mỗi trường khoảng 50 sinh viên)
gen school_id = ceil(_n / 50)

* --- Tạo sai số và biến phụ thuộc ---

* Tạo thành phần sai số ngẫu nhiên (e)
* Giả sử có phương sai thay đổi: phương sai lớn hơn với sinh viên có GPA thấp
gen error_variance = 100 / (gpa^2)
gen e = rnormal(0, sqrt(error_variance))

* Tạo điểm thi cuối kỳ (biến phụ thuộc Y)
* Giả định mô hình thực: final_score = 10 + 5*gpa + 2*study_hours + e
gen final_score = 10 + 5 * gpa + 2 * study_hours + e

* --- Hoàn thiện và lưu dữ liệu ---

* Dán nhãn cho các biến để dễ nhận biết
label var gpa "Điểm GPA tích lũy (thang 4.0)"
label var study_hours "Số giờ tự học trung bình/tuần"
label var final_score "Điểm thi cuối kỳ (thang 100)"
label var school_id "Mã định danh trường học"

* Mô tả ngắn gọn bộ dữ liệu
describe
summarize

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "student_scores.dta", replace

📚 Bài tiếp theo: Nền tảng của ước lượng OLS trong mẫu hữu hạn

💡 Lưu ý: Hãy đảm bảo bạn đã chạy code Stata trên và lưu lại file dữ liệu. Việc chuẩn bị sẵn sàng sẽ giúp bạn tập trung hoàn toàn vào nội dung của bài học tiếp theo.