Ước lượng và suy luận Bayes

Giới thiệu chuỗi bài học

Chào mừng các bạn sinh viên đến với chuỗi bài học về Kinh tế lượng Bayes! Đây là một trong những lĩnh vực hấp dẫn và ngày càng quan trọng trong kinh tế lượng hiện đại. Khác với phương pháp tần suất (frequentist) mà chúng ta thường học, phương pháp Bayes tiếp cận vấn đề ước lượng như một quá trình cập nhật kiến thức: chúng ta bắt đầu với một “niềm tin” ban đầu, sau đó sử dụng dữ liệu để củng cố hoặc thay đổi niềm tin đó. Cách tiếp cận này không chỉ gần gũi với tư duy khoa học tự nhiên mà còn cung cấp những công cụ cực kỳ mạnh mẽ để giải quyết các bài toán kinh tế lượng phức tạp.

Trong chuỗi bài viết này, chúng ta sẽ cùng nhau khám phá thế giới của Kinh tế lượng Bayes một cách có hệ thống, từ những viên gạch lý thuyết đầu tiên cho đến các ứng dụng thực tế. Đừng lo lắng nếu bạn thấy các khái niệm ban đầu có vẻ trừu tượng. Mỗi bài học đều được thiết kế để dẫn dắt bạn đi từng bước, giải thích cặn kẽ mọi công thức và thuật ngữ. Mục tiêu cuối cùng là giúp bạn không chỉ hiểu, mà còn có thể tự tin áp dụng các kỹ thuật này vào nghiên cứu của riêng mình.

Để bắt đầu, hãy làm quen với ba khái niệm trụ cột sẽ đồng hành cùng chúng ta:

Mật độ tiên nghiệm (Prior Density): Đây là niềm tin ban đầu của chúng ta về tham số trước khi phân tích dữ liệu. Nó có thể dựa trên các nghiên cứu trước đó hoặc đơn giản là một giả định “không biết gì”.
Hàm hợp lý (Likelihood Function): Khái niệm này khá quen thuộc, nó cho biết dữ liệu của chúng ta có khả năng xảy ra như thế nào với một bộ tham số nhất định.
Mật độ hậu nghiệm (Posterior Density): Đây là kết quả cuối cùng, là sự kết hợp giữa niềm tin ban đầu và thông tin từ dữ liệu. Đây chính là kiến thức được cập nhật của chúng ta về tham số.

Cấu trúc chuỗi bài học

Để giúp các bạn dễ dàng theo dõi, chuỗi bài học được chia thành các phần nhỏ, đi từ lý thuyết cơ bản đến các ứng dụng nâng cao và thực hành chi tiết.

Bài 1: Nền tảng về kinh tế lượng Bayes
Chúng ta sẽ tìm hiểu triết lý đằng sau phương pháp Bayes, khám phá định lý Bayes và hiểu rõ sự khác biệt với phương pháp tần suất truyền thống.
Bài 2: Phân tích Bayes cho mô hình hồi quy tuyến tính
Bài học này sẽ hướng dẫn cách áp dụng lý thuyết Bayes vào mô hình OLS quen thuộc, giúp bạn kết nối kiến thức mới và cũ một cách tự nhiên.
Bài 3: Suy luận Bayes và kiểm định giả thuyết
Chúng ta sẽ học cách thực hiện ước lượng điểm, xây dựng khoảng tin cậy và so sánh các giả thuyết theo một cách tiếp cận rất trực quan của Bayes.
Bài 4: Giới thiệu Gibbs Sampler và ứng dụng mô hình Probit
Bài học giới thiệu công cụ mô phỏng MCMC hiện đại, một kỹ thuật đã làm thay đổi bộ mặt của kinh tế lượng Bayes và ứng dụng nó vào mô hình Probit.
Bài 5: Ứng dụng Bayes cho dữ liệu bảng và mô hình tham số ngẫu nhiên
Chúng ta sẽ mở rộng phương pháp Bayes để giải quyết các mô hình phức tạp hơn như mô hình hiệu ứng cá nhân và mô hình tham số ngẫu nhiên phân cấp.
Hướng dẫn thực hành tổng hợp với Stata
Bài cuối cùng sẽ là một dự án nhỏ, nơi chúng ta áp dụng tất cả kiến thức đã học để phân tích một bộ dữ liệu kinh tế từ đầu đến cuối bằng Stata.

Kiến thức tiên quyết

Để có thể tiếp thu tốt nhất chuỗi bài học này, các bạn nên trang bị trước một số kiến thức nền tảng sau:

Toán học cơ bản: Giải tích (đạo hàm, tích phân cơ bản) và Đại số tuyến tính (ma trận, véc-tơ).
Xác suất thống kê: Các khái niệm về phân phối xác suất (phân phối chuẩn, t), kỳ vọng, phương sai, và ước lượng hợp lý tối đa (MLE).
Kinh tế lượng nhập môn: Nắm vững mô hình hồi quy tuyến tính cổ điển (OLS), các giả định, và cách diễn giải hệ số.
Stata cơ bản: Biết cách nhập dữ liệu, thực hiện các lệnh mô tả (summarize, describe) và chạy hồi quy cơ bản (regress).

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng:

Hiểu sâu lý thuyết: Nắm vững triết lý và các khái niệm cốt lõi của phương pháp luận Bayes.
Vận dụng thành thạo: Áp dụng phương pháp Bayes để ước lượng các mô hình hồi quy tuyến tính và các mô hình lựa chọn nhị phân.
Thực hành hiệu quả: Sử dụng Stata (hoặc các phần mềm tương tự) để thực hiện các phân tích Bayes thông qua mô phỏng MCMC.
Tư duy phản biện: Hiểu được ưu và nhược điểm của phương pháp Bayes so với phương pháp tần suất, từ đó lựa chọn công cụ phù hợp cho bài toán nghiên cứu.

Tài liệu tham khảo

Nội dung chuỗi bài viết chủ yếu dựa trên các tài liệu kinh điển và hiện đại về kinh tế lượng. Các bạn có thể tìm đọc thêm để đào sâu kiến thức:

Chính: Greene, W. H. (2019). Econometric Analysis. (Chương 16). Đây là tài liệu gốc cho chuỗi bài viết này.
Nhập môn: Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cung cấp nền tảng vững chắc về kinh tế lượng cổ điển.
Chuyên sâu về Bayes: Koop, G. (2003). Bayesian Econometrics. Một cuốn sách tuyệt vời dành riêng cho chủ đề này, rất phù hợp cho sinh viên.
Thực hành: Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics: Methods and Applications. Cung cấp nhiều ví dụ ứng dụng thực tế.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học và thực hành trở nên dễ dàng, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài viết. Bộ dữ liệu này mô tả mối quan hệ giữa điểm trung bình (GPA), số giờ tự học mỗi tuần và việc nhận được học bổng của sinh viên.

Các biến trong dữ liệu:

gpa: Điểm trung bình tích lũy của sinh viên (thang 4).
study_hours: Số giờ tự học trung bình mỗi tuần.
scholarship: Biến nhị phân, bằng 1 nếu sinh viên nhận học bổng, và 0 nếu ngược lại.
iq: Chỉ số IQ, một biến không đổi theo thời gian.

Bạn có thể tạo bộ dữ liệu này trong Stata bằng đoạn code dưới đây. Hãy lưu nó lại với tên “student_data.dta” để sử dụng cho các bài học sau nhé!

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC KINH TẾ LƯỢNG BAYES
* Mục đích: Tạo một bộ dữ liệu đơn giản, dễ hiểu cho mục đích học tập
* Số quan sát: 500 sinh viên
* ==================================================

* Xóa dữ liệu cũ và cài đặt số quan sát
clear
set obs 500
set seed 12345 // Đảm bảo kết quả có thể lặp lại

* --- Tạo các biến độc lập ---

* Tạo biến IQ (giả định phân phối chuẩn)
gen iq = rnormal(100, 15)

* Tạo biến số giờ tự học, giả định nó phụ thuộc vào IQ
gen study_hours = 5 + 0.2*(iq - 100) + rnormal(0, 5)
replace study_hours = 0 if study_hours < 0 // Đảm bảo số giờ học không âm

* --- Tạo biến phụ thuộc ---

* Tạo biến tiềm ẩn cho việc nhận học bổng (scholarship_latent)
* Giả định nó phụ thuộc vào IQ và số giờ học
gen scholarship_latent = -10 + 0.1*iq + 0.15*study_hours + rnormal(0, 2)

* Tạo biến quan sát được (scholarship)
gen scholarship = (scholarship_latent > 0)

* Tạo biến GPA, phụ thuộc vào giờ học và IQ
gen gpa = 2.0 + 0.05*study_hours + 0.01*(iq - 100) + rnormal(0, 0.2)
replace gpa = 4.0 if gpa > 4.0 // Giới hạn GPA trong thang 4
replace gpa = 0.0 if gpa < 0.0

* --- Hoàn thiện dữ liệu ---

* Gán nhãn cho các biến để dễ nhận biết
label variable gpa "Điểm trung bình tích lũy"
label variable study_hours "Số giờ tự học mỗi tuần"
label variable scholarship "Nhận học bổng (1=Có, 0=Không)"
label variable iq "Chỉ số IQ"

* Xem qua cấu trúc dữ liệu
describe
summarize

* Lưu dữ liệu để sử dụng sau này
save "student_data.dta", replace

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC KINH TẾ LƯỢNG BAYES
* Mục đích: Tạo một bộ dữ liệu đơn giản, dễ hiểu cho mục đích học tập
* Số quan sát: 500 sinh viên
* ==================================================

* Xóa dữ liệu cũ và cài đặt số quan sát
clear
set obs 500
set seed 12345 // Đảm bảo kết quả có thể lặp lại

* --- Tạo các biến độc lập ---

* Tạo biến IQ (giả định phân phối chuẩn)
gen iq = rnormal(100, 15)

* Tạo biến số giờ tự học, giả định nó phụ thuộc vào IQ
gen study_hours = 5 + 0.2*(iq - 100) + rnormal(0, 5)
replace study_hours = 0 if study_hours < 0 // Đảm bảo số giờ học không âm

* --- Tạo biến phụ thuộc ---

* Tạo biến tiềm ẩn cho việc nhận học bổng (scholarship_latent)
* Giả định nó phụ thuộc vào IQ và số giờ học
gen scholarship_latent = -10 + 0.1*iq + 0.15*study_hours + rnormal(0, 2)

* Tạo biến quan sát được (scholarship)
gen scholarship = (scholarship_latent > 0)

* Tạo biến GPA, phụ thuộc vào giờ học và IQ
gen gpa = 2.0 + 0.05*study_hours + 0.01*(iq - 100) + rnormal(0, 0.2)
replace gpa = 4.0 if gpa > 4.0 // Giới hạn GPA trong thang 4
replace gpa = 0.0 if gpa < 0.0

* --- Hoàn thiện dữ liệu ---

* Gán nhãn cho các biến để dễ nhận biết
label variable gpa "Điểm trung bình tích lũy"
label variable study_hours "Số giờ tự học mỗi tuần"
label variable scholarship "Nhận học bổng (1=Có, 0=Không)"
label variable iq "Chỉ số IQ"

* Xem qua cấu trúc dữ liệu
describe
summarize

* Lưu dữ liệu để sử dụng sau này
save "student_data.dta", replace