Phân tích hồi quy bội: Các tính chất tiệm cận của OLS

Chào các bạn sinh viên, chào mừng đến với một trong những chương quan trọng nhất trên hành trình chinh phục kinh tế lượng của chúng ta. Trong các bài học trước, chúng ta đã làm quen với các ước lượng OLS và các tính chất của chúng trong “mẫu hữu hạn” – tức là với một bộ dữ liệu có kích thước cụ thể. Nhưng điều gì sẽ xảy ra khi chúng ta có rất, rất nhiều dữ liệu? Liệu các kết luận của chúng ta có trở nên đáng tin cậy hơn không? Và liệu chúng ta có thể nới lỏng một số giả định nghiêm ngặt, chẳng hạn như giả định về phân phối chuẩn của sai số không?

Chuỗi bài học này sẽ trả lời những câu hỏi đó bằng cách đưa chúng ta vào thế giới của **các tính chất tiệm cận** (asymptotic properties), hay còn gọi là các tính chất trong mẫu lớn. Đây là nền tảng lý thuyết cho phép các nhà kinh tế lượng tự tin áp dụng các phương pháp như kiểm định t và F cho hầu hết các bài toán thực tế, nơi mà giả định phân phối chuẩn hiếm khi được thỏa mãn một cách hoàn hảo. Chúng ta sẽ cùng nhau khám phá ba khái niệm trụ cột: Tính nhất quán (consistency) – liệu ước lượng có hội tụ về giá trị thật khi mẫu đủ lớn; Tính chuẩn tiệm cận (asymptotic normality) – tại sao các ước lượng lại tuân theo phân phối chuẩn trong mẫu lớn; và Hiệu quả tiệm cận (asymptotic efficiency) – so sánh hiệu quả giữa các ước lượng khác nhau.

Nắm vững những kiến thức này không chỉ giúp bạn hiểu sâu hơn về “phép màu” đằng sau các phần mềm thống kê, mà còn trang bị cho bạn tư duy phản biện cần thiết để đánh giá độ tin cậy của các kết quả nghiên cứu. Hãy cùng nhau bắt đầu hành trình khám phá sức mạnh của dữ liệu lớn trong kinh tế lượng nhé!

CẤU TRÚC CHUỖI BÀI HỌC

Tính nhất quán của ước lượng OLS
Khám phá yêu cầu tối thiểu của một ước lượng tốt và hiểu tại sao OLS lại đáng tin cậy khi cỡ mẫu tăng lên.
Tính chuẩn tiệm cận và suy luận mẫu lớn
Tìm hiểu về sức mạnh của Định lý Giới hạn Trung tâm và tại sao chúng ta có thể sử dụng kiểm định t, F một cách tự tin.
Kiểm định LM và hiệu quả tiệm cận
Học một công cụ kiểm định mới mạnh mẽ (kiểm định LM) và hiểu tại sao OLS là lựa chọn hiệu quả nhất trong nhiều trường hợp.
Hướng dẫn thực hành Stata từ A đến Z
Vận dụng toàn bộ lý thuyết đã học để phân tích một bộ dữ liệu thực tế, từ kiểm tra giả định đến diễn giải kết quả.
Tổng hợp và nâng cao về các tính chất tiệm cận
Hệ thống hóa toàn bộ kiến thức, so sánh các khái niệm và có được cái nhìn tổng quan về vai trò của chúng trong nghiên cứu.

KIẾN THỨC TIÊN QUYẾT

Kinh tế lượng cơ bản: Nắm vững các giả định Gauss-Markov, khái niệm ước lượng không chệch và phương sai của ước lượng (Chương 3, Wooldridge).
Suy diễn thống kê: Hiểu rõ cách thực hiện và diễn giải kết quả của kiểm định t, kiểm định F và khoảng tin cậy (Chương 4, Wooldridge).
Xác suất thống kê: Có kiến thức nền tảng về luật số lớn (Law of Large Numbers) và định lý giới hạn trung tâm (Central Limit Theorem).
Stata cơ bản: Biết cách nhập dữ liệu, thực hiện hồi quy regress và tạo các thống kê mô tả cơ bản.

MỤC TIÊU HỌC TẬP

Phân biệt được giữa tính chất mẫu hữu hạn (không chệch) và tính chất mẫu lớn (nhất quán).
Giải thích được tại sao các kiểm định t và F vẫn có thể áp dụng trong mẫu lớn ngay cả khi sai số không tuân theo phân phối chuẩn.
Thực hiện và diễn giải được kết quả của kiểm định Nhân tử Lagrange (LM) để kiểm tra các giả thuyết loại trừ.
Vận dụng Stata để phân tích các tính chất tiệm cận thông qua các ví dụ thực hành.

TÀI LIỆU THAM KHẢO

Wooldridge, J. M. (2019). Introductory econometrics: A modern approach (7th ed.). Cengage learning. (Tài liệu chính)
Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics: Methods and applications. Cambridge university press. (Tài liệu tham khảo nâng cao)

PHỤ LỤC: Dữ liệu mô phỏng cho series

Để giúp các bạn dễ dàng theo dõi và thực hành, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng về tiền lương. Bộ dữ liệu này được thiết kế để vi phạm giả định phân phối chuẩn, giúp chúng ta thấy rõ sức mạnh của các tính chất tiệm cận.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học về tính chất tiệm cận
* KÍCH THƯỚC MẪU: 2000 quan sát (đủ lớn để minh họa)
* ĐẶC ĐIỂM: Sai số (u) được tạo từ phân phối chi-bình phương, không phải phân phối chuẩn
* ==================================================

* Xóa dữ liệu cũ và cài đặt số quan sát
clear
set obs 2000

* Tạo các biến độc lập
set seed 12345 // Đảm bảo kết quả có thể tái lập
gen educ = 10 + rpoisson(4) // Số năm đi học (phân phối Poisson)
gen exper = 5 + rgamma(2, 5) // Kinh nghiệm làm việc (phân phối Gamma)

* Tạo sai số từ phân phối chi-bình phương (bị lệch phải, không chuẩn)
gen u = rchi2(1) - 1 // Trừ 1 để kỳ vọng bằng 0

* Tạo biến phụ thuộc (log_wage) dựa trên mô hình tổng thể
* Mô hình thật: log_wage = 0.5 + 0.08*educ + 0.02*exper + u
gen log_wage = 0.5 + 0.08*educ + 0.02*exper + u

* Gán nhãn cho các biến để dễ hiểu
label variable log_wage "Log của tiền lương theo giờ"
label variable educ "Số năm đi học"
label variable exper "Số năm kinh nghiệm"
label variable u "Sai số (phân phối Chi-bình phương)"

* Lưu dữ liệu để sử dụng
compress
save "asymptotics_data.dta", replace

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học về tính chất tiệm cận
* KÍCH THƯỚC MẪU: 2000 quan sát (đủ lớn để minh họa)
* ĐẶC ĐIỂM: Sai số (u) được tạo từ phân phối chi-bình phương, không phải phân phối chuẩn
* ==================================================

* Xóa dữ liệu cũ và cài đặt số quan sát
clear
set obs 2000

* Tạo các biến độc lập
set seed 12345 // Đảm bảo kết quả có thể tái lập
gen educ = 10 + rpoisson(4) // Số năm đi học (phân phối Poisson)
gen exper = 5 + rgamma(2, 5) // Kinh nghiệm làm việc (phân phối Gamma)

* Tạo sai số từ phân phối chi-bình phương (bị lệch phải, không chuẩn)
gen u = rchi2(1) - 1 // Trừ 1 để kỳ vọng bằng 0

* Tạo biến phụ thuộc (log_wage) dựa trên mô hình tổng thể
* Mô hình thật: log_wage = 0.5 + 0.08*educ + 0.02*exper + u
gen log_wage = 0.5 + 0.08*educ + 0.02*exper + u

* Gán nhãn cho các biến để dễ hiểu
label variable log_wage "Log của tiền lương theo giờ"
label variable educ "Số năm đi học"
label variable exper "Số năm kinh nghiệm"
label variable u "Sai số (phân phối Chi-bình phương)"

* Lưu dữ liệu để sử dụng
compress
save "asymptotics_data.dta", replace

Mô tả các biến trong dữ liệu

log_wage: Logarit của tiền lương theo giờ (biến phụ thuộc).
educ: Số năm đi học (biến độc lập).
exper: Số năm kinh nghiệm làm việc (biến độc lập).
u: Thành phần sai số ngẫu nhiên, được tạo ra để không tuân theo phân phối chuẩn.

📚 Bài tiếp theo: Tính nhất quán của ước lượng OLS

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.

🎯 Self-check: Bạn có thể giải thích sự khác biệt cơ bản giữa “tính chất mẫu nhỏ” và “tính chất mẫu lớn” cho người khác không?