Dữ liệu chuỗi thời gian: Quá trình sinh dữ liệu

Trong lĩnh vực kinh tế lượng, dữ liệu chuỗi thời gian – một chuỗi các quan sát được sắp xếp theo trật tự thời gian – đóng một vai trò trung tâm, đặc biệt là trong kinh tế vĩ mô. Các biến số quan trọng như GDP, lạm phát, hay tỷ giá hối đoái đều được ghi nhận và phân tích qua từng ngày, quý, hoặc năm. Điểm khác biệt cốt lõi của phân tích chuỗi thời gian so với các loại phân tích khác chính là sự phụ thuộc giữa các quan sát ở những thời điểm khác nhau. Việc hiểu rõ mối quan hệ giữa giá trị hiện tại và quá khứ của một biến không chỉ giúp giải thích các hiện tượng kinh tế mà còn là nền tảng cho các mô hình dự báo phức tạp.

Tuy nhiên, trước khi áp dụng bất kỳ mô hình hồi quy nào, chúng ta cần phải hiểu sâu sắc về “cơ chế” đã tạo ra dữ liệu đó. Chuỗi bài học này sẽ tập trung vào khái niệm nền tảng nhất: Quá trình Tạo dữ liệu (Data Generating Process – DGP). Chúng ta sẽ khám phá tại sao dữ liệu chuỗi thời gian về bản chất là một quá trình ngẫu nhiên (stochastic) và cách hành vi ngẫu nhiên này quyết định phương pháp phân tích phù hợp. Các khái niệm cốt lõi như Tính dừng (Stationarity) và tính không dừng sẽ được làm rõ, giúp bạn nhận diện được khi nào một chuỗi dữ liệu ở trạng thái cân bằng thống kê và khi nào nó chứa đựng các xu hướng tiềm ẩn. Mục tiêu cuối cùng của chuỗi bài này là trang bị cho bạn một nền tảng lý thuyết vững chắc cùng với các kỹ năng thực hành Stata cần thiết để tự tin làm việc với dữ liệu chuỗi thời gian trong các dự án nghiên cứu của riêng mình.

Cấu trúc chuỗi bài học

Bài 1: Giới thiệu Quá trình Tạo dữ liệu (DGP) và Tính dừng trong Chuỗi thời gian
Bài 2: Phân tích và Thực hành với Dữ liệu Chuỗi thời gian trong Stata

Kiến thức tiên quyết

Toán học: Nắm vững các khái niệm cơ bản về Đại số tuyến tính và Giải tích.
Thống kê: Hiểu biết về xác suất, các phân phối thống kê và kiểm định giả thuyết.
Kinh tế lượng: Có kiến thức nền tảng về mô hình hồi quy OLS và các giả định cổ điển.
Stata: Quen thuộc với giao diện, các lệnh quản lý dữ liệu và cú pháp cơ bản của Stata.

Mục tiêu học tập

Nắm vững lý thuyết về quá trình tạo dữ liệu (DGP), tính dừng và không dừng.
Phân biệt được các loại quá trình ngẫu nhiên, đặc biệt là quá trình nhiễu trắng.
Vận dụng thành thạo Stata để khai báo, xử lý và trực quan hóa dữ liệu chuỗi thời gian.
Hiểu và xử lý được các vấn đề cơ bản như tính mùa vụ trong dữ liệu.

Tài liệu tham khảo chính

Das, P. (2019). Econometrics in theory and practice: Analysis of cross section, time series and panel data with Stata 15.1. Springer.
Doob, J.L. (1953). Stochastic Processes. New York: Wiley.
Ghysels, E., and D. Osborn. (2001). The Econometric Analysis of Seasonal Time Series. Cambridge: Cambridge University Press.
Nelson, C.R., and C.I. Plosser. (1982). Trends and Random Walks in Macroeconomic Time Series: Some Evidence and Implications. Journal of Monetary Economics, 10: 139–162.
Fuller, W.A. (1976). Introduction to Statistical Time Series. New York: Wiley.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để minh họa các khái niệm lý thuyết, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản bao gồm các thành phần cơ bản của một chuỗi thời gian: xu hướng, mùa vụ và yếu tố ngẫu nhiên. Bạn có thể tự tạo lại bộ dữ liệu này bằng các lệnh Stata dưới đây.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Minh họa chuỗi thời gian với xu hướng và mùa vụ
* Tần suất: Dữ liệu quý, 10 năm (40 quan sát)
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 40

* Tạo biến thời gian (quý), bắt đầu từ quý 1 năm 2010
gen time = tq(2010q1) + _n - 1
format time %tq
tsset time

* Tạo thành phần xu hướng tuyến tính (deterministic trend)
gen trend = 100 + 0.5 * time

* Tạo thành phần mùa vụ (seasonal component) cho 4 quý
gen quarter = quarter(dofq(time))
gen seasonal = 0
replace seasonal = 15 if quarter == 1
replace seasonal = -5 if quarter == 2
replace seasonal = 10 if quarter == 3
replace seasonal = -20 if quarter == 4

* Tạo thành phần nhiễu trắng (white noise)
set seed 123 // Để đảm bảo kết quả có thể tái lập
gen error = rnormal(0, 8)

* Tạo biến chuỗi thời gian tổng hợp y
gen y = trend + seasonal + error

* Lưu dữ liệu để sử dụng
compress
save "simulated_ts_data.dta", replace

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Minh họa chuỗi thời gian với xu hướng và mùa vụ
* Tần suất: Dữ liệu quý, 10 năm (40 quan sát)
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 40

* Tạo biến thời gian (quý), bắt đầu từ quý 1 năm 2010
gen time = tq(2010q1) + _n - 1
format time %tq
tsset time

* Tạo thành phần xu hướng tuyến tính (deterministic trend)
gen trend = 100 + 0.5 * time

* Tạo thành phần mùa vụ (seasonal component) cho 4 quý
gen quarter = quarter(dofq(time))
gen seasonal = 0
replace seasonal = 15 if quarter == 1
replace seasonal = -5 if quarter == 2
replace seasonal = 10 if quarter == 3
replace seasonal = -20 if quarter == 4

* Tạo thành phần nhiễu trắng (white noise)
set seed 123 // Để đảm bảo kết quả có thể tái lập
gen error = rnormal(0, 8)

* Tạo biến chuỗi thời gian tổng hợp y
gen y = trend + seasonal + error

* Lưu dữ liệu để sử dụng
compress
save "simulated_ts_data.dta", replace

Mô tả các biến trong dữ liệu

time: Biến thời gian theo quý, đóng vai trò là chỉ số cho các quan sát.
y: Biến chuỗi thời gian chính, là tổng hợp của xu hướng, mùa vụ và nhiễu ngẫu nhiên.
trend: Thành phần xu hướng tất định, cho thấy giá trị của chuỗi tăng dần theo thời gian.
seasonal: Thành phần mùa vụ, thể hiện các biến động có tính chu kỳ lặp lại mỗi năm.
error: Thành phần ngẫu nhiên (nhiễu trắng), đại diện cho các cú sốc không thể dự đoán.

Bạn có thể tải về bộ dữ liệu đã tạo sẵn ở định dạng .csv để tiện thực hành.

Tải về dữ liệu mô phỏng (.csv)

📚 Bài tiếp theo: Giới thiệu Quá trình Tạo dữ liệu (DGP) và Tính dừng trong Chuỗi thời gian

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.