Kỳ vọng có điều kiện và phép chiếu

Chào mừng các bạn sinh viên đến với chuỗi bài học đầu tiên và quan trọng nhất trong môn Kinh tế lượng. Trong chuỗi bài này, chúng ta sẽ cùng nhau khám phá “trái tim” của phân tích hồi quy: khái niệm về Kỳ vọng có điều kiện và Phép chiếu tuyến tính. Đây là những công cụ nền tảng cho phép chúng ta trả lời những câu hỏi kinh tế hấp dẫn, chẳng hạn như: “Trung bình, mỗi năm học thêm sẽ giúp tăng lương bao nhiêu?”, hay “Mức lương khởi điểm của sinh viên nam và nữ khác nhau như thế nào sau khi đã kiểm soát cho ngành học và kinh nghiệm?”.

Thoạt nghe, các khái niệm này có vẻ trừu tượng, nhưng đừng lo lắng. Mục tiêu của tôi là biến những lý thuyết phức tạp này trở nên trực quan và dễ tiếp cận. Chúng ta sẽ đi từng bước một, từ việc hiểu một phân phối xác suất đơn giản đến việc xây dựng các mô hình hồi quy phức tạp và diễn giải chúng. Trọng tâm của chuỗi bài học này không chỉ là các công thức toán học, mà là xây dựng một tư duy kinh tế lượng vững chắc: cách đặt câu hỏi, cách mô hình hóa vấn đề, và cách hiểu ý nghĩa đằng sau những con số. Hãy coi đây là một hành trình xây dựng bộ công cụ phân tích dữ liệu của riêng bạn, bắt đầu từ những viên gạch nền tảng nhất.

Để giúp các bạn hình dung rõ hơn về hành trình của chúng ta, đây là ba từ khóa chính sẽ xuất hiện xuyên suốt các bài học:

Kỳ vọng có điều kiện (CEF): Đây là giá trị trung bình “thực sự” của một biến (ví dụ: lương) khi biết thông tin về các biến khác (ví dụ: trình độ học vấn, giới tính).
Phép chiếu tuyến tính (Linear Projection): Đây là phép xấp xỉ tuyến tính tốt nhất cho mối quan hệ giữa các biến, một công cụ cực kỳ hữu ích khi chúng ta không biết dạng hàm chính xác của CEF.
Suy luận nhân quả (Causal Inference): Đây là mục tiêu cuối cùng, nơi chúng ta cố gắng sử dụng hồi quy để phân biệt giữa “tương quan” và “nhân quả”, một thách thức lớn trong kinh tế học.

Bài 1: Giới thiệu về kỳ vọng có điều kiện
Chúng ta sẽ bắt đầu với các khái niệm cơ bản nhất như phân phối, kỳ vọng và làm quen với ý tưởng “có điều kiện” qua các ví dụ trực quan.
Bài 2: Hàm kỳ vọng có điều kiện (CEF)
Bài học này sẽ định nghĩa CEF một cách chính thức, khám phá các tính chất quan trọng và giới thiệu về sai số hồi quy, một khái niệm cốt lõi.
Bài 3: Dự báo và phương sai có điều kiện
Chúng ta sẽ tìm hiểu tại sao CEF được gọi là “bộ dự báo tốt nhất” và khám phá khái niệm phương sai có điều kiện, bao gồm homoskedasticity và heteroskedasticity.
Bài 4: Mô hình CEF tuyến tính
Đây là trọng tâm của kinh tế lượng ứng dụng, nơi chúng ta học cách xây dựng mô hình tuyến tính, kể cả khi mối quan hệ thực sự là phi tuyến.
Bài 5: Phép chiếu tuyến tính tốt nhất
Một khái niệm cực kỳ quan trọng để phân biệt với CEF. Chúng ta sẽ tìm hiểu về định nghĩa, tính chất và vấn đề “sai số do biến bị bỏ sót”.
Bài 6: Các khái niệm nâng cao về phép chiếu
Bài học này sẽ khám phá các chủ đề thú vị như “hồi quy về mức trung bình” và những hạn chế của việc chỉ sử dụng phép chiếu tuyến tính.
Bài 7: Hồi quy và suy luận nhân quả
Chúng ta sẽ bước đầu tìm hiểu cách sử dụng hồi quy để trả lời các câu hỏi “nhân-quả”, một trong những mục tiêu cao nhất của kinh tế lượng.
Bài 8: Hướng dẫn thực hành với Stata
Bài cuối cùng sẽ tổng hợp tất cả lý thuyết đã học và áp dụng chúng vào một bộ dữ liệu mô phỏng để phân tích từ A đến Z, giúp củng cố kỹ năng thực hành.

KIẾN THỨC TIÊN QUYẾT

Toán học cơ bản: Đại số tuyến tính (ma trận, véc-tơ), Giải tích (đạo hàm cơ bản).
Thống kê căn bản: Kỳ vọng, phương sai, hiệp phương sai, phân phối xác suất, kiểm định giả thuyết.
Kinh tế lượng nhập môn: Hiểu biết cơ bản về mô hình hồi quy OLS đơn giản.
Stata cơ bản: Nhập dữ liệu, các lệnh mô tả cơ bản như describe, summarize.

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Phân biệt rõ ràng giữa Hàm kỳ vọng có điều kiện (CEF) và Phép chiếu tuyến tính.
Nắm vững tính chất: Hiểu và áp dụng được các định lý quan trọng như Định luật kỳ vọng lặp.
Diễn giải chính xác: Có khả năng diễn giải ý nghĩa của các hệ số hồi quy trong các bối cảnh khác nhau.
Nhận biết vấn đề: Hiểu rõ các vấn đề tiềm ẩn như sai số do biến bị bỏ sót và sự khác biệt giữa tương quan và nhân quả.
Tư duy phản biện: Đánh giá được những hạn chế của mô hình tuyến tính và khi nào nó là một phép xấp xỉ hợp lý.

TÀI LIỆU THAM KHẢO

Chính: Hansen, B. E. (2022). Econometrics. Princeton University Press.
Bổ sung: Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning.
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Stata Press.

Phụ lục: Dữ liệu mô phỏng cho chuỗi bài viết

Để làm cho các khái niệm lý thuyết trở nên sống động, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng trong suốt chuỗi bài học, đặc biệt là trong bài thực hành cuối cùng. Bộ dữ liệu này mô phỏng thông tin về lương khởi điểm của 1000 sinh viên mới tốt nghiệp, dựa trên các yếu tố như điểm trung bình (GPA), số kỳ thực tập, và liệu họ có tốt nghiệp ngành STEM (Khoa học, Công nghệ, Kỹ thuật, Toán) hay không.

Các bạn hãy mở Stata, chạy đoạn code dưới đây để tạo và lưu bộ dữ liệu này vào máy tính của mình. Chúng ta sẽ sử dụng tệp grad_salary.dta này trong các ví dụ và bài thực hành sắp tới.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG VỀ LƯƠNG SINH VIÊN
* Mục đích: Tạo một bộ dữ liệu đơn giản, dễ hiểu để thực hành
* Số quan sát: 1000 sinh viên
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 1000
set seed 12345 // Đảm bảo kết quả mô phỏng giống nhau mỗi lần chạy

* --- TẠO CÁC BIẾN GIẢI THÍCH ---

* Tạo biến GPA, phân phối đều từ 2.5 đến 4.0
gen gpa = 2.5 + (4 - 2.5) * runiform()

* Tạo biến số kỳ thực tập (0 đến 4), giả sử có tương quan với GPA
gen internships = floor(runiform() * 2 + gpa - 2)
replace internships = 0 if internships < 0
replace internships = 4 if internships > 4

* Tạo biến ngành STEM (1=STEM, 0=Non-STEM)
gen is_stem = (runiform() < 0.4) // Giả sử 40% sinh viên học ngành STEM

* --- TẠO BIẾN PHỤ THUỘC (LƯƠNG) ---

* Tạo sai số ngẫu nhiên (thành phần không giải thích được)
gen error = rnormal(0, 2)

* Tạo biến lương (salary) theo một mô hình tuyến tính
* Lương khởi điểm cơ bản là 5 triệu VND
* Mỗi điểm GPA tăng lương 3 triệu
* Mỗi kỳ thực tập tăng lương 1.5 triệu
* Tốt nghiệp ngành STEM tăng lương 4 triệu
gen salary = 5 + 3 * gpa + 1.5 * internships + 4 * is_stem + error

* Làm tròn các giá trị cho thực tế hơn
replace gpa = round(gpa, 0.01)
replace salary = round(salary, 0.1)

* --- GÁN NHÃN VÀ LƯU DỮ LIỆU ---

* Gán nhãn cho các biến để dễ hiểu
label variable salary "Lương khởi điểm (triệu VND/tháng)"
label variable gpa "Điểm GPA hệ 4"
label variable internships "Số kỳ thực tập đã hoàn thành"
label variable is_stem "Tốt nghiệp ngành STEM (1=Có)"

* Gán nhãn giá trị cho biến is_stem
label define stem_label 0 "Non-STEM" 1 "STEM"
label values is_stem stem_label

* Xem qua dữ liệu vừa tạo
describe
summarize
list in 1/10

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "grad_salary.dta", replace

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG VỀ LƯƠNG SINH VIÊN
* Mục đích: Tạo một bộ dữ liệu đơn giản, dễ hiểu để thực hành
* Số quan sát: 1000 sinh viên
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 1000
set seed 12345 // Đảm bảo kết quả mô phỏng giống nhau mỗi lần chạy

* --- TẠO CÁC BIẾN GIẢI THÍCH ---

* Tạo biến GPA, phân phối đều từ 2.5 đến 4.0
gen gpa = 2.5 + (4 - 2.5) * runiform()

* Tạo biến số kỳ thực tập (0 đến 4), giả sử có tương quan với GPA
gen internships = floor(runiform() * 2 + gpa - 2)
replace internships = 0 if internships < 0
replace internships = 4 if internships > 4

* Tạo biến ngành STEM (1=STEM, 0=Non-STEM)
gen is_stem = (runiform() < 0.4) // Giả sử 40% sinh viên học ngành STEM

* --- TẠO BIẾN PHỤ THUỘC (LƯƠNG) ---

* Tạo sai số ngẫu nhiên (thành phần không giải thích được)
gen error = rnormal(0, 2)

* Tạo biến lương (salary) theo một mô hình tuyến tính
* Lương khởi điểm cơ bản là 5 triệu VND
* Mỗi điểm GPA tăng lương 3 triệu
* Mỗi kỳ thực tập tăng lương 1.5 triệu
* Tốt nghiệp ngành STEM tăng lương 4 triệu
gen salary = 5 + 3 * gpa + 1.5 * internships + 4 * is_stem + error

* Làm tròn các giá trị cho thực tế hơn
replace gpa = round(gpa, 0.01)
replace salary = round(salary, 0.1)

* --- GÁN NHÃN VÀ LƯU DỮ LIỆU ---

* Gán nhãn cho các biến để dễ hiểu
label variable salary "Lương khởi điểm (triệu VND/tháng)"
label variable gpa "Điểm GPA hệ 4"
label variable internships "Số kỳ thực tập đã hoàn thành"
label variable is_stem "Tốt nghiệp ngành STEM (1=Có)"

* Gán nhãn giá trị cho biến is_stem
label define stem_label 0 "Non-STEM" 1 "STEM"
label values is_stem stem_label

* Xem qua dữ liệu vừa tạo
describe
summarize
list in 1/10

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "grad_salary.dta", replace

📚 Bài tiếp theo: Giới thiệu về kỳ vọng có điều kiện

💡 Lưu ý: Hãy đảm bảo bạn đã chạy đoạn code trên và lưu thành công tệp grad_salary.dta. Việc chuẩn bị sẵn sàng dữ liệu sẽ giúp bạn theo dõi các bài học thực hành một cách dễ dàng hơn.