Chuỗi thời gian

Chào mừng các bạn sinh viên đến với chuỗi bài học về Phân tích Chuỗi thời gian, một trong những lĩnh vực hấp dẫn và có ứng dụng rộng rãi nhất trong kinh tế lượng. Không giống như dữ liệu chéo mà chúng ta thường gặp, dữ liệu chuỗi thời gian có một đặc điểm vô cùng quan trọng: thứ tự thời gian. Các quan sát của ngày hôm qua có thể chứa đựng thông tin quý giá để dự báo cho ngày hôm nay, và chính sự phụ thuộc theo thời gian này là trọng tâm mà chúng ta sẽ cùng nhau khám phá.

Trong kinh tế học, từ việc dự báo tăng trưởng GDP, lạm phát, tỷ lệ thất nghiệp cho đến việc phân tích giá cổ phiếu hay tỷ giá hối đoái, tất cả đều dựa trên các mô hình chuỗi thời gian. Hiểu được cách các biến số kinh tế vận động và tương tác với nhau qua từng thời kỳ là một kỹ năng không thể thiếu đối với bất kỳ nhà kinh tế hay nhà phân tích dữ liệu nào. Chuỗi bài học này, dựa trên nền tảng kiến thức từ chương 14 của cuốn “Econometrics” (Hansen, 2022), sẽ trang bị cho các bạn những công cụ lý thuyết vững chắc và kỹ năng thực hành Stata cần thiết để tự tin phân tích loại dữ liệu đặc biệt này.

Chúng ta sẽ bắt đầu từ những khái niệm cơ bản nhất và xây dựng kiến thức một cách từ từ, có hệ thống. Ba từ khóa chính sẽ là kim chỉ nam cho hành trình của chúng ta: Tính dừng (Stationarity), nền tảng để các mô hình thống kê có thể áp dụng được; Mô hình tự hồi quy (Autoregressive Models), công cụ cốt lõi để mô tả sự phụ thuộc của một biến vào quá khứ của chính nó; và Quan hệ nhân quả Granger (Granger Causality), một khái niệm thú vị để kiểm tra xem liệu một chuỗi thời gian này có hữu ích trong việc dự báo một chuỗi thời gian khác hay không. Hãy cùng nhau bắt đầu hành trình khám phá thế giới đầy màu sắc của dữ liệu chuỗi thời gian!

Cấu trúc chuỗi bài học

Giới thiệu chuỗi thời gian và tính dừng
Chúng ta sẽ tìm hiểu các khái niệm đầu tiên và quan trọng nhất, phân biệt dữ liệu chuỗi thời gian và khám phá tính ổn định của chúng.
Các tính chất thống kê quan trọng
Bài học này sẽ đi sâu vào các tính chất lý thuyết như Ergodic, Trộn và các Định lý giới hạn, nền tảng cho việc suy luận thống kê.
Nền tảng của mô hình tuyến tính: Phép chiếu và phân rã Wold
Chúng ta sẽ khám phá tại sao các mô hình tuyến tính lại hữu ích trong phân tích chuỗi thời gian thông qua hai khái niệm lý thuyết quan trọng này.
Các mô hình chuỗi thời gian cơ bản: MA, AR và nghiệm đơn vị
Đây là lúc chúng ta làm quen với các “viên gạch” xây dựng nên hầu hết các mô hình phức tạp hơn: mô hình trung bình trượt và tự hồi quy.
Mô hình nâng cao: AR bậc cao, ARMA và hàm phản ứng xung
Bài học sẽ mở rộng các mô hình cơ bản, kết hợp chúng lại và giới thiệu một công cụ mạnh mẽ để phân tích tác động của các cú sốc.
Các vấn đề thực tiễn: Nhận diện, lựa chọn và ước lượng mô hình
Chúng ta sẽ giải quyết các câu hỏi quan trọng khi làm việc với dữ liệu thực tế: làm sao để chọn đúng mô hình và ước lượng nó.
Hồi quy với dữ liệu chuỗi thời gian và quan hệ nhân quả Granger
Bài học áp dụng các kỹ thuật hồi quy OLS quen thuộc vào bối cảnh chuỗi thời gian và khám phá khái niệm về khả năng dự báo lẫn nhau.
Hướng dẫn thực hành phân tích chuỗi thời gian với Stata
Bài học cuối cùng sẽ tổng hợp toàn bộ kiến thức lý thuyết và áp dụng vào một phân tích hoàn chỉnh từ A-Z với dữ liệu thực tế và Stata.

KIẾN THỨC TIÊN QUYẾT

Xác suất thống kê: Kỳ vọng, phương sai, hiệp phương sai, phân phối chuẩn, các định lý giới hạn cơ bản.
Kinh tế lượng nhập môn: Mô hình hồi quy OLS, ý nghĩa của hệ số, kiểm định giả thuyết (t-test, F-test).
Toán học: Đại số tuyến tính cơ bản (ma trận, vector), giải tích (chuỗi số, giới hạn).
Stata cơ bản: Nhập và quản lý dữ liệu, các lệnh summarize, regress.

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Nắm vững các khái niệm cốt lõi của chuỗi thời gian như tính dừng, tự tương quan, và các mô hình ARMA.
Thực hành thành thạo: Sử dụng Stata để ước lượng, kiểm định và lựa chọn các mô hình chuỗi thời gian một cách tự tin.
Phân tích thực tế: Có khả năng áp dụng kiến thức để phân tích dữ liệu kinh tế vĩ mô, diễn giải kết quả và rút ra kết luận có ý nghĩa.
Tư duy phản biện: Nhận biết được các giả định và hạn chế của từng mô hình, từ đó đưa ra các phân tích đáng tin cậy.

TÀI LIỆU THAM KHẢO

Chính: Hansen, B. E. (2022). Econometrics. Princeton University Press. (Tài liệu cốt lõi cho chuỗi bài học này).
Bổ sung: Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. (Cách tiếp cận trực quan, rất phù hợp cho sinh viên).
Nâng cao: Hamilton, J. D. (1994). Time Series Analysis. (Cuốn sách kinh điển và toàn diện về chuỗi thời gian).
Thực hành Stata: Baum, C. F. (2016). An Introduction to Stata Programming. (Hướng dẫn chi tiết về lập trình và sử dụng Stata).

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp các bạn dễ dàng thực hành theo các bài học, chúng ta sẽ tạo và sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài. Bộ dữ liệu này mô phỏng tỷ lệ tăng trưởng GDP hàng quý của một quốc gia giả định. Việc sử dụng dữ liệu mô phỏng giúp chúng ta tập trung vào các kỹ thuật mà không bị phân tâm bởi các vấn đề phức tạp của dữ liệu thực tế như giá trị thiếu hay các cú sốc cấu trúc.

Hãy mở Stata và chạy các lệnh sau để tạo tệp dữ liệu gdp_growth_sim.dta. Chúng ta sẽ sử dụng tệp này trong các bài học sau.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một chuỗi AR(2) dừng để thực hành
* Tác giả: Giáo sư Kinh tế lượng
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 200

* Tạo biến thời gian (quý), bắt đầu từ quý 1 năm 1970
gen time = tq(1970q1) + _n-1
format time %tq
tsset time

* Thiết lập seed để kết quả có thể tái lập
set seed 12345

* Tạo một nhiễu trắng (white noise) từ phân phối chuẩn
* Đây là thành phần ngẫu nhiên e_t trong các mô hình của chúng ta
gen e = rnormal(0, 0.8)

* Tạo chuỗi tăng trưởng GDP (y) theo mô hình AR(2):
* y_t = 0.5 + 0.6*y_{t-1} + 0.2*y_{t-2} + e_t
* Chúng ta cần tạo giá trị ban đầu cho y
gen y = .
replace y = 0.5 in 1
replace y = 0.5 in 2

* Dùng vòng lặp để tạo các giá trị từ quan sát thứ 3 trở đi
forvalues i = 3/200 {
    replace y = 0.5 + 0.6*y[`i'-1] + 0.2*y[`i'-2] + e[`i'] in `i'
}

* Giữ lại các biến cần thiết và mô tả chúng
keep time y e
label variable y "Tỷ lệ tăng trưởng GDP hàng quý (%)"
label variable e "Nhiễu trắng (Cú sốc ngẫu nhiên)"
describe

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save gdp_growth_sim.dta, replace

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một chuỗi AR(2) dừng để thực hành
* Tác giả: Giáo sư Kinh tế lượng
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 200

* Tạo biến thời gian (quý), bắt đầu từ quý 1 năm 1970
gen time = tq(1970q1) + _n-1
format time %tq
tsset time

* Thiết lập seed để kết quả có thể tái lập
set seed 12345

* Tạo một nhiễu trắng (white noise) từ phân phối chuẩn
* Đây là thành phần ngẫu nhiên e_t trong các mô hình của chúng ta
gen e = rnormal(0, 0.8)

* Tạo chuỗi tăng trưởng GDP (y) theo mô hình AR(2):
* y_t = 0.5 + 0.6*y_{t-1} + 0.2*y_{t-2} + e_t
* Chúng ta cần tạo giá trị ban đầu cho y
gen y = .
replace y = 0.5 in 1
replace y = 0.5 in 2

* Dùng vòng lặp để tạo các giá trị từ quan sát thứ 3 trở đi
forvalues i = 3/200 {
    replace y = 0.5 + 0.6*y[`i'-1] + 0.2*y[`i'-2] + e[`i'] in `i'
}

* Giữ lại các biến cần thiết và mô tả chúng
keep time y e
label variable y "Tỷ lệ tăng trưởng GDP hàng quý (%)"
label variable e "Nhiễu trắng (Cú sốc ngẫu nhiên)"
describe

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save gdp_growth_sim.dta, replace

Sau khi chạy đoạn code trên, bạn sẽ có một tệp dữ liệu tên là gdp_growth_sim.dta trong thư mục làm việc của Stata. Hãy chắc chắn rằng bạn đã lưu nó để sẵn sàng cho bài học đầu tiên của chúng ta!

📚 Bài tiếp theo: Giới thiệu Chuỗi thời gian và Tính dừng - Những khái niệm đầu tiên

💡 Lưu ý: Hãy đảm bảo bạn đã chạy code Stata ở trên và tạo thành công bộ dữ liệu. Việc chuẩn bị sẵn sàng sẽ giúp bạn tiếp thu bài học tiếp theo một cách hiệu quả nhất.