Giới thiệu về Lọc Hạt trong kinh tế lượng

An Introduction to Particle Filtering in Econometrics

Tổng quan về chuỗi bài học

Chào các bạn sinh viên, chào mừng đến với chuỗi bài học chuyên sâu về một trong những kỹ thuật hiện đại và mạnh mẽ nhất trong kinh tế lượng chuỗi thời gian: Lọc Hạt (Particle Filtering). Trong tài chính và kinh tế vĩ mô, chúng ta thường xuyên phải đối mặt với những yếu tố không thể quan sát trực tiếp, chẳng hạn như mức độ biến động thực của thị trường chứng khoán, tình trạng của nền kinh tế, hay niềm tin của người tiêu dùng. Những yếu tố này được gọi là các biến ẩn (latent variables), và việc ước tính chúng là một thách thức lớn.

Các phương pháp truyền thống như bộ lọc Kalman hoạt động rất hiệu quả với các mô hình tuyến tính và giả định phân phối chuẩn. Tuy nhiên, thực tế kinh tế lại thường phức tạp hơn nhiều, với các mối quan hệ phi tuyến và các cú sốc không tuân theo phân phối chuẩn. Đây chính là lúc Lọc Hạt tỏa sáng. Về bản chất, Lọc Hạt là một phương pháp dựa trên mô phỏng, cho phép chúng ta ước tính các biến ẩn trong những mô hình phức tạp nhất. Nó hoạt động bằng cách tạo ra hàng ngàn “hạt” (các kịch bản có thể xảy ra), sau đó cập nhật và đánh giá chúng dựa trên dữ liệu thực tế để tìm ra bức tranh chính xác nhất về trạng thái ẩn của hệ thống.

Chuỗi bài học này được thiết kế để dẫn dắt các bạn từ những khái niệm cơ bản nhất đến việc có thể tự tay triển khai thuật toán Lọc Hạt bằng phần mềm Stata. Chúng ta sẽ cùng nhau khám phá ba khái niệm cốt lõi:

Mô hình không gian trạng thái: Khung lý thuyết để mô tả một hệ thống vận động qua thời gian, bao gồm các thành phần quan sát được và không quan sát được.
Lọc (Filtering): Quá trình “trích xuất” thông tin về biến ẩn từ dữ liệu nhiễu, cập nhật hiểu biết của chúng ta mỗi khi có một quan sát mới.
Phương pháp Monte Carlo: Kỹ thuật sử dụng mô phỏng ngẫu nhiên để giải quyết các bài toán phức tạp mà không thể giải bằng giải tích thông thường.

Mục tiêu cuối cùng là trang bị cho các bạn không chỉ kiến thức lý thuyết vững chắc mà còn cả kỹ năng thực hành cần thiết để áp dụng Lọc Hạt vào các bài toán nghiên cứu thực tế. Hãy cùng nhau bắt đầu hành trình thú vị này!

CẤU TRÚC CHUỖI BÀI HỌC

Nền tảng mô hình không gian trạng thái
Tìm hiểu về biến ẩn, phương trình quan sát và diễn biến trạng thái qua ví dụ về biến động thị trường.
Nguyên lý Lọc Hạt và thuật toán Exact
Khám phá cơ chế hoạt động của các “hạt”, trọng số, tái lấy mẫu và thuật toán Lọc Hạt chính xác.
Các thuật toán Lọc Hạt nâng cao
Nghiên cứu hai thuật toán phổ biến là SIR và APF, cùng các ưu và nhược điểm khi áp dụng thực tế.
Thực hành phân tích biến động với Stata
Hướng dẫn từng bước ứng dụng Lọc Hạt để ước lượng mô hình biến động ngẫu nhiên bằng phần mềm Stata.

KIẾN THỨC TIÊN QUYẾT

Xác suất thống kê: Nắm vững các khái niệm về phân phối xác suất (đặc biệt là phân phối chuẩn), kỳ vọng có điều kiện, và định lý Bayes.
Kinh tế lượng cơ bản: Hiểu rõ về mô hình hồi quy, các giả định OLS, và các khái niệm cơ bản của chuỗi thời gian (tính dừng, mô hình AR).
Stata cơ bản: Quen thuộc với giao diện Stata, cách nhập dữ liệu, thực hiện các lệnh cơ bản và sử dụng do-file.

MỤC TIÊU HỌC TẬP

Hiểu rõ bản chất, ý nghĩa và sự cần thiết của phương pháp Lọc Hạt trong kinh tế lượng hiện đại.
Nắm vững nguyên lý hoạt động của các thuật toán Lọc Hạt phổ biến như Exact, SIR và APF.
Vận dụng thành thạo Stata để triển khai thuật toán Lọc Hạt cho mô hình biến động ngẫu nhiên.
Phân tích và diễn giải kết quả từ mô hình Lọc Hạt để đưa ra các kết luận kinh tế có ý nghĩa.

TÀI LIỆU THAM KHẢO

Nguồn chính: Johannes, M., & Polson, N. (2009). Particle Filtering. In Handbook of Financial Time Series. Springer.
Kinh tế lượng chuỗi thời gian: Hamilton, J.D. (1994). Time Series Analysis. Princeton University Press.
Kinh tế lượng nhập môn: Wooldridge, J.M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning.

PHỤ LỤC: Dữ liệu mô phỏng cho series

Để phục vụ cho việc học và thực hành, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng theo mô hình biến động ngẫu nhiên (Stochastic Volatility). Dưới đây là code Stata để tạo ra bộ dữ liệu này. Các bạn có thể chạy code này để tự tạo file dữ liệu cho riêng mình.

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho mô hình biến động ngẫu nhiên
* MÔ TẢ:
* 1. log_v: log của phương sai có điều kiện (biến ẩn), tuân theo quy trình AR(1)
* 2. y: Tỷ suất sinh lợi quan sát được (biến quan sát)
* ==================================================

clear all
set obs 500
set seed 12345

* --- Bước 1: Mô phỏng biến ẩn (log-volatility) theo quy trình AR(1) ---
* log_v_t = 0.95 * log_v_{t-1} + sai_so_v_t
gen double log_v = 0
gen double error_v = rnormal(0, 0.1) // Tạo sai số cho phương trình trạng thái

* Vòng lặp để tạo chuỗi AR(1)
forvalues i = 2/500 {
    replace log_v = 0.95 * log_v[_n-1] + error_v[_n] in `i'
}

* --- Bước 2: Tạo biến quan sát (tỷ suất sinh lợi) ---
* y_t = exp(log_v_t / 2) * sai_so_y_t
gen double error_y = rnormal(0, 1) // Tạo sai số cho phương trình quan sát
gen double y = exp(log_v / 2) * error_y

* --- Bước 3: Tạo biến thời gian và lưu dữ liệu ---
gen time = _n
tsset time

* Mô tả dữ liệu
describe time y log_v
summarize time y log_v

* Lưu dữ liệu để sử dụng trong các bài học sau
save "particle_filter_data.dta", replace
export delimited using "particle_filter_data.csv", replace

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho mô hình biến động ngẫu nhiên
* MÔ TẢ:
* 1. log_v: log của phương sai có điều kiện (biến ẩn), tuân theo quy trình AR(1)
* 2. y: Tỷ suất sinh lợi quan sát được (biến quan sát)
* ==================================================

clear all
set obs 500
set seed 12345

* --- Bước 1: Mô phỏng biến ẩn (log-volatility) theo quy trình AR(1) ---
* log_v_t = 0.95 * log_v_{t-1} + sai_so_v_t
gen double log_v = 0
gen double error_v = rnormal(0, 0.1) // Tạo sai số cho phương trình trạng thái

* Vòng lặp để tạo chuỗi AR(1)
forvalues i = 2/500 {
    replace log_v = 0.95 * log_v[_n-1] + error_v[_n] in `i'
}

* --- Bước 2: Tạo biến quan sát (tỷ suất sinh lợi) ---
* y_t = exp(log_v_t / 2) * sai_so_y_t
gen double error_y = rnormal(0, 1) // Tạo sai số cho phương trình quan sát
gen double y = exp(log_v / 2) * error_y

* --- Bước 3: Tạo biến thời gian và lưu dữ liệu ---
gen time = _n
tsset time

* Mô tả dữ liệu
describe time y log_v
summarize time y log_v

* Lưu dữ liệu để sử dụng trong các bài học sau
save "particle_filter_data.dta", replace
export delimited using "particle_filter_data.csv", replace

Mô tả các biến trong dữ liệu:

time: Biến chỉ số thời gian từ 1 đến 500.
log_v: Biến trạng thái ẩn (log của phương sai). Đây là biến chúng ta muốn “lọc” và ước tính.
y: Tỷ suất sinh lợi quan sát được. Đây là dữ liệu chúng ta có trong thực tế.

📚 Bài tiếp theo: Nền tảng mô hình không gian trạng thái

💡 Lưu ý: Hãy đảm bảo bạn đã đọc qua các kiến thức tiên quyết và mục tiêu học tập để chuẩn bị tốt nhất cho bài học đầu tiên.

🎯 Self-check: Bạn có thể giải thích tại sao chúng ta cần một phương pháp như Lọc Hạt thay vì chỉ dùng hồi quy OLS thông thường không?