Lý thuyết tiệm cận cho bình phương nhỏ nhất

Chào mừng các bạn sinh viên đến với chuỗi bài học về một trong những chủ đề nền tảng và quan trọng nhất của kinh tế lượng hiện đại: Lý thuyết tiệm cận. Trong các học phần nhập môn, chúng ta thường làm việc với những giả định khá chặt chẽ, ví dụ như sai số của mô hình phải có phân phối chuẩn. Tuy nhiên, trong thực tế, giả định này hiếm khi nào được thỏa mãn một cách hoàn hảo. Vậy làm thế nào chúng ta có thể tin tưởng vào kết quả hồi quy của mình khi làm việc với dữ liệu thực tế phức tạp? Câu trả lời nằm ở lý thuyết tiệm cận.

Lý thuyết tiệm cận cung cấp một bộ công cụ toán học vững chắc để đánh giá các tính chất của ước lượng OLS khi kích thước mẫu của chúng ta đủ lớn (tiến ra vô cùng). Nó cho phép chúng ta nới lỏng giả định về phân phối chuẩn của sai số và vẫn có thể thực hiện các suy luận thống kê đáng tin cậy như xây dựng khoảng tin cậy hay kiểm định giả thuyết. Hiểu rõ lý thuyết này không chỉ giúp các bạn vượt qua các kỳ thi, mà quan trọng hơn, nó trang bị cho các bạn tư duy phản biện cần thiết để thực hiện các nghiên cứu thực nghiệm một cách nghiêm túc và chính xác. Trong chuỗi bài này, chúng ta sẽ cùng nhau khám phá ba khái niệm cốt lõi:

Tính nhất quán (Consistency): Ý tưởng cơ bản rằng khi chúng ta thu thập ngày càng nhiều dữ liệu, ước lượng của chúng ta sẽ hội tụ về giá trị thực của tham số tổng thể.
Tính chuẩn tắc tiệm cận (Asymptotic Normality): Khám phá vì sao phân phối của ước lượng OLS lại có thể được xấp xỉ bằng phân phối chuẩn khi mẫu đủ lớn, ngay cả khi sai số không tuân theo phân phối chuẩn.
Suy luận thống kê (Statistical Inference): Cách chúng ta sử dụng các tính chất tiệm cận để xây dựng sai số chuẩn, khoảng tin cậy và các kiểm định giả thuyết một cách vững chắc.

Đừng lo lắng nếu những khái niệm này nghe có vẻ trừu tượng. Chúng ta sẽ đi qua từng bước một, với những giải thích cặn kẽ và các ví dụ minh họa trực quan để biến những lý thuyết phức tạp này trở nên dễ hiểu và gần gũi.

Cấu trúc chuỗi bài học

Bài 1: Tính nhất quán của ước lượng OLS
Chúng ta sẽ bắt đầu với câu hỏi cơ bản nhất: Tại sao ước lượng OLS lại đáng tin cậy khi cỡ mẫu đủ lớn?
Bài 2: Tính chuẩn tắc tiệm cận của OLS
Bài học này sẽ giải thích một “phép màu” của thống kê: tại sao phân phối của ước lượng OLS lại xấp xỉ phân phối chuẩn.
Bài 3: Ước lượng ma trận hiệp phương sai
Học cách tính toán sai số chuẩn, một thước đo độ bất định của ước lượng, trong cả trường hợp lý tưởng và thực tế.
Bài 4: Suy luận thống kê cho các hàm của tham số
Khám phá phương pháp Delta, một công cụ mạnh mẽ để ước lượng và suy luận về các đại lượng kinh tế phức tạp hơn một hệ số.
Bài 5: Khoảng tin cậy và ý nghĩa thực tiễn
Học cách xây dựng và diễn giải khoảng tin cậy, giúp bạn hiểu rõ hơn về phạm vi các giá trị hợp lý của tham số.
Bài 6: Kiểm định giả thuyết với thống kê Wald
Nắm vững cách sử dụng thống kê t-ratio và Wald để kiểm tra các giả thuyết kinh tế một cách khoa học và có hệ thống.
Bài 7: Hướng dẫn thực hành với Stata
Tổng hợp tất cả kiến thức đã học để thực hiện một phân tích kinh tế lượng hoàn chỉnh từ A đến Z với dữ liệu thực tế.

KIẾN THỨC TIÊN QUYẾT

Xác suất thống kê: Hiểu về luật số lớn (WLLN), định lý giới hạn trung tâm (CLT), hội tụ theo xác suất và hội tụ theo phân phối.
Kinh tế lượng cơ bản: Nắm vững mô hình hồi quy OLS, các giả định Gauss-Markov, và ý nghĩa của các hệ số hồi quy.
Đại số tuyến tính: Thành thạo các phép toán ma trận cơ bản (nhân, chuyển vị, nghịch đảo).
Stata cơ bản: Biết cách nhập dữ liệu, thực hiện các lệnh mô tả và chạy hồi quy OLS cơ bản (regress).

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Nắm vững các khái niệm về tính nhất quán, tính chuẩn tắc tiệm cận và các loại ma trận hiệp phương sai.
Vận dụng thành thạo: Biết cách áp dụng phương pháp Delta để suy luận cho các hàm của tham số.
Thực hành hiệu quả: Sử dụng Stata để tính toán các sai số chuẩn (bao gồm cả loại robust) và thực hiện kiểm định giả thuyết.
Tư duy phản biện: Có khả năng đọc và hiểu các kết quả nghiên cứu thực nghiệm có sử dụng lý thuyết tiệm cận.

TÀI LIỆU THAM KHÁO

Chính: Hansen, B. E. (2022). Econometrics. Princeton University Press. (Chương 7).
Bổ sung: Wooldridge, J. M. (2019). Introductory econometrics: A modern approach. Cengage learning. (Phụ lục C và D).
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics using Stata. Stata press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp các bạn dễ dàng theo dõi và thực hành, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài viết này. Bộ dữ liệu này mô phỏng mối quan hệ giữa tiền lương, trình độ học vấn và kinh nghiệm làm việc. Hãy chạy đoạn code Stata dưới đây để tạo ra tệp dữ liệu wage_asymptotic.dta và lưu nó vào thư mục làm việc của bạn.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu đơn giản để minh họa lý thuyết tiệm cận
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 2000
set seed 12345 // Đảm bảo kết quả có thể tái lập

* --- TẠO CÁC BIẾN ĐỘC LẬP ---

* Tạo biến học vấn (education) từ 10 đến 18 năm
* Phân phối đều, sau đó làm tròn
gen education = 10 + round(8 * runiform())

* Tạo biến kinh nghiệm (experience) từ 1 đến 30 năm
* Giả định kinh nghiệm có tương quan với học vấn
gen experience = 5 + 0.5 * education + rnormal(0, 5)
replace experience = round(experience)
replace experience = 1 if experience < 1

* Tạo biến bình phương kinh nghiệm để mô hình hóa hiệu ứng phi tuyến
gen exp_sq = experience^2

* --- TẠO SAI SỐ VÀ BIẾN PHỤ THUỘC ---

* Giả định các tham số thực của tổng thể
local beta0 = 1.5  // Hệ số chặn
local beta1 = 0.1  // Lợi tức từ giáo dục
local beta2 = 0.05 // Lợi tức từ kinh nghiệm
local beta3 = -0.001 // Hiệu ứng giảm dần của kinh nghiệm

* Tạo sai số có phương sai thay đổi (heteroskedasticity)
* Phương sai của sai số tăng theo trình độ học vấn
gen error = rnormal(0, 0.1 * education)

* Tạo biến log(wage) dựa trên mô hình hồi quy
gen log_wage = `beta0' + `beta1'*education + `beta2'*experience + `beta3'*exp_sq + error

* Gán nhãn cho các biến để dễ hiểu
label var log_wage "Log của tiền lương hàng giờ"
label var education "Số năm đi học"
label var experience "Số năm kinh nghiệm làm việc"
label var exp_sq "Bình phương số năm kinh nghiệm"

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "wage_asymptotic.dta", replace

* Xem qua một vài dòng dữ liệu
list log_wage education experience in 1/10

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu đơn giản để minh họa lý thuyết tiệm cận
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 2000
set seed 12345 // Đảm bảo kết quả có thể tái lập

* --- TẠO CÁC BIẾN ĐỘC LẬP ---

* Tạo biến học vấn (education) từ 10 đến 18 năm
* Phân phối đều, sau đó làm tròn
gen education = 10 + round(8 * runiform())

* Tạo biến kinh nghiệm (experience) từ 1 đến 30 năm
* Giả định kinh nghiệm có tương quan với học vấn
gen experience = 5 + 0.5 * education + rnormal(0, 5)
replace experience = round(experience)
replace experience = 1 if experience < 1

* Tạo biến bình phương kinh nghiệm để mô hình hóa hiệu ứng phi tuyến
gen exp_sq = experience^2

* --- TẠO SAI SỐ VÀ BIẾN PHỤ THUỘC ---

* Giả định các tham số thực của tổng thể
local beta0 = 1.5  // Hệ số chặn
local beta1 = 0.1  // Lợi tức từ giáo dục
local beta2 = 0.05 // Lợi tức từ kinh nghiệm
local beta3 = -0.001 // Hiệu ứng giảm dần của kinh nghiệm

* Tạo sai số có phương sai thay đổi (heteroskedasticity)
* Phương sai của sai số tăng theo trình độ học vấn
gen error = rnormal(0, 0.1 * education)

* Tạo biến log(wage) dựa trên mô hình hồi quy
gen log_wage = `beta0' + `beta1'*education + `beta2'*experience + `beta3'*exp_sq + error

* Gán nhãn cho các biến để dễ hiểu
label var log_wage "Log của tiền lương hàng giờ"
label var education "Số năm đi học"
label var experience "Số năm kinh nghiệm làm việc"
label var exp_sq "Bình phương số năm kinh nghiệm"

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "wage_asymptotic.dta", replace

* Xem qua một vài dòng dữ liệu
list log_wage education experience in 1/10

Hãy chắc chắn rằng bạn đã chạy đoạn code trên và có tệp wage_asymptotic.dta. Chúng ta sẽ sử dụng tệp dữ liệu này trong các bài học thực hành sắp tới để làm cho các khái niệm lý thuyết trở nên sống động và cụ thể hơn.

📚 Bài tiếp theo: Tính nhất quán của ước lượng OLS

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.