Dữ liệu không dừng

Chào mừng các bạn sinh viên đến với chuỗi bài học về một trong những chủ đề quan trọng và thú vị nhất trong kinh tế lượng hiện đại: phân tích dữ liệu không dừng. Hầu hết các dữ liệu kinh tế mà chúng ta thường gặp trong thực tế, như GDP, tiêu dùng, hay chỉ số giá, đều có một đặc điểm chung là chúng có xu hướng thay đổi theo thời gian thay vì dao động quanh một giá trị trung bình cố định. Những chuỗi dữ liệu như vậy được gọi là chuỗi “không dừng” (nonstationary), và việc áp dụng các mô hình hồi quy OLS thông thường cho chúng có thể dẫn đến những kết luận sai lầm nghiêm trọng, hay còn gọi là “hồi quy giả”.

Chuỗi bài học này được thiết kế đặc biệt để giúp các bạn từng bước làm chủ các công cụ cần thiết để phân tích loại dữ liệu phổ biến này một cách chính xác. Chúng ta sẽ bắt đầu từ những khái niệm nền tảng nhất, tìm hiểu tại sao tính không dừng lại là một vấn đề, và làm thế nào để xác định nó thông qua các kiểm định nghiệm đơn vị. Sau đó, chúng ta sẽ khám phá một ý tưởng vô cùng hấp dẫn trong kinh tế học: “đồng liên kết” – hiện tượng các chuỗi không dừng lại có một mối quan hệ cân bằng bền vững trong dài hạn. Việc hiểu và mô hình hóa được mối quan hệ này chính là chìa khóa để xây dựng các mô hình kinh tế vĩ mô đáng tin cậy. Đừng lo lắng về các công thức toán học, mỗi khái niệm sẽ được giải thích một cách trực quan và đi kèm với các ví dụ thực hành chi tiết bằng Stata.

Ba từ khóa chính của chuỗi bài học này là:

Nghiệm đơn vị (Unit Root): Đây là “dấu hiệu nhận biết” về mặt thống kê của một chuỗi không dừng. Chúng ta sẽ học cách thực hiện các kiểm định để tìm ra “nghiệm đơn vị” trong dữ liệu.
Hồi quy giả (Spurious Regression): Hiện tượng hai biến không liên quan gì đến nhau nhưng mô hình hồi quy lại cho thấy một mối quan hệ có ý nghĩa thống kê. Hiểu rõ điều này sẽ giúp bạn tránh được những sai lầm phân tích cơ bản.
Đồng liên kết (Cointegration): Mô tả mối quan hệ cân bằng dài hạn giữa các chuỗi không dừng. Đây là khái niệm cốt lõi cho phép chúng ta phân tích các biến kinh tế vĩ mô một cách có ý nghĩa.

Cấu trúc chuỗi bài học

Để giúp các bạn tiếp cận chủ đề một cách có hệ thống, chúng tôi đã chia nội dung thành 7 bài học với lộ trình từ lý thuyết đến thực hành:

Nền tảng về chuỗi không dừng và nghiệm đơn vị
Bài học sẽ giới thiệu các khái niệm cốt lõi như tính dừng, toán tử trễ, sai phân và quá trình tích hợp để xây dựng nền tảng kiến thức.
Hồi quy giả và các kiểm định nghiệm đơn vị cổ điển
Chúng ta sẽ tìm hiểu về một trong những cạm bẫy lớn nhất của chuỗi thời gian và học cách sử dụng các kiểm định Dickey-Fuller để phát hiện vấn đề.
Các kiểm định nghiệm đơn vị nâng cao
Bài học mở rộng kiến thức với các kiểm định phức tạp hơn như Augmented Dickey-Fuller, Phillips-Perron và KPSS để xử lý các trường hợp dữ liệu thực tế.
Giới thiệu về đồng liên kết và xu hướng chung
Khám phá ý tưởng thú vị về việc các chuỗi không dừng có thể “đi cùng nhau” trong dài hạn và tìm hiểu khái niệm đồng liên kết.
Mô hình hiệu chỉnh sai số và kiểm định đồng liên kết
Học cách mô hình hóa mối quan hệ dài hạn và ngắn hạn, cùng các phương pháp kiểm định đồng liên kết của Engle-Granger và Johansen.
Dữ liệu bảng không dừng và ứng dụng thực tế
Áp dụng các khái niệm đã học vào bối cảnh dữ liệu bảng và xem xét một nghiên cứu điển hình về nhu cầu tiền tệ trong thực tế.
Hướng dẫn thực hành toàn diện với Stata
Bài học cuối cùng sẽ hướng dẫn bạn thực hành một quy trình phân tích hoàn chỉnh từ A-Z, từ kiểm định nghiệm đơn vị đến mô hình đồng liên kết.

KIẾN THỨC TIÊN QUYẾT

Thống kê căn bản: Hiểu về kỳ vọng, phương sai, hiệp phương sai, và các kiểm định giả thuyết cơ bản (t-test, F-test).
Kinh tế lượng nhập môn: Nắm vững mô hình hồi quy OLS, ý nghĩa của các hệ số và các giả định của mô hình tuyến tính cổ điển.
Phân tích chuỗi thời gian cơ bản: Có kiến thức sơ bộ về các khái niệm như tự tương quan (autocorrelation) và quá trình tự hồi quy (AR).
Stata cơ bản: Quen thuộc với giao diện Stata, cách nhập dữ liệu, và thực hiện các lệnh cơ bản như summarize, regress.

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Nắm vững bản chất của dữ liệu không dừng, tại sao nó là một vấn đề, và khái niệm cân bằng dài hạn (đồng liên kết).
Thực hành thành thạo: Tự tin sử dụng Stata để thực hiện các kiểm định nghiệm đơn vị (Dickey-Fuller, Phillips-Perron, KPSS) và kiểm định đồng liên kết.
Phân tích thực tế: Có khả năng xây dựng, ước lượng và diễn giải một mô hình hiệu chỉnh sai số (Error Correction Model) đơn giản.
Tư duy phản biện: Nhận biết được nguy cơ của hồi quy giả và lựa chọn phương pháp phân tích phù hợp cho dữ liệu chuỗi thời gian.

TÀI LIỆU THAM KHẢO

Chính: Greene, W. H. (2019). Econometric Analysis (8th ed.). Pearson. (Chương 21).
Bổ sung (dễ hiểu hơn): Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach (7th ed.). Cengage Learning.
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata, Revised Edition. Stata Press.
Nâng cao: Hamilton, J. D. (1994). Time Series Analysis. Princeton University Press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp các bạn dễ dàng thực hành theo các bài học, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản về thu nhập và tiêu dùng. Bộ dữ liệu này được thiết kế đặc biệt để minh họa các khái niệm về nghiệm đơn vị và đồng liên kết. Hãy chạy đoạn code Stata dưới đây để tạo ra tệp dữ liệu nonstationary_data.dta và lưu nó vào thư mục làm việc của bạn.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo ra hai chuỗi không dừng (thu nhập và tiêu dùng)
* có mối quan hệ đồng liên kết với nhau.
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 200

* Tạo biến thời gian (quý)
gen time = _n
tsset time

* --- Bước 1: Tạo một chuỗi "bước ngẫu nhiên có xu hướng" làm thu nhập (income) ---
* Đây là một chuỗi I(1) điển hình trong kinh tế
gen error_income = rnormal(0, 5)  // Tạo nhiễu ngẫu nhiên cho thu nhập
gen income = 0 in 1               // Đặt giá trị ban đầu

* Vòng lặp để tạo chuỗi bước ngẫu nhiên
forvalues i = 2/200 {
    replace income = 10 + income[`i'-1] + error_income[`i'] in `i'
}
* Giải thích: Thu nhập ở kỳ này = 10 (xu hướng trôi dạt) + thu nhập kỳ trước + một cú sốc ngẫu nhiên.

* --- Bước 2: Tạo chuỗi tiêu dùng (consumption) có quan hệ dài hạn với thu nhập ---
* Tiêu dùng cũng sẽ là I(1) nhưng "đi cùng" với thu nhập
gen error_consum = rnormal(0, 2)  // Tạo nhiễu ngẫu nhiên cho tiêu dùng (I(0))
gen consumption = 50 + 0.8 * income + error_consum
* Giải thích: Tiêu dùng có một mối quan hệ cân bằng dài hạn với thu nhập
* consumption = 50 + 0.8*income. Phần sai lệch (error_consum) là có tính dừng.

* --- Bước 3: Đặt nhãn cho các biến và lưu dữ liệu ---
label var time "Thời gian (Quý)"
label var income "Thu nhập (Mô phỏng)"
label var consumption "Tiêu dùng (Mô phỏng)"

* Xem qua dữ liệu
summarize
tsline income consumption, title("Thu nhập và Tiêu dùng (Mô phỏng)")

* Lưu dữ liệu để sử dụng cho các bài thực hành sau
save "nonstationary_data.dta", replace

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo ra hai chuỗi không dừng (thu nhập và tiêu dùng)
* có mối quan hệ đồng liên kết với nhau.
* ==================================================

* Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 200

* Tạo biến thời gian (quý)
gen time = _n
tsset time

* --- Bước 1: Tạo một chuỗi "bước ngẫu nhiên có xu hướng" làm thu nhập (income) ---
* Đây là một chuỗi I(1) điển hình trong kinh tế
gen error_income = rnormal(0, 5)  // Tạo nhiễu ngẫu nhiên cho thu nhập
gen income = 0 in 1               // Đặt giá trị ban đầu

* Vòng lặp để tạo chuỗi bước ngẫu nhiên
forvalues i = 2/200 {
    replace income = 10 + income[`i'-1] + error_income[`i'] in `i'
}
* Giải thích: Thu nhập ở kỳ này = 10 (xu hướng trôi dạt) + thu nhập kỳ trước + một cú sốc ngẫu nhiên.

* --- Bước 2: Tạo chuỗi tiêu dùng (consumption) có quan hệ dài hạn với thu nhập ---
* Tiêu dùng cũng sẽ là I(1) nhưng "đi cùng" với thu nhập
gen error_consum = rnormal(0, 2)  // Tạo nhiễu ngẫu nhiên cho tiêu dùng (I(0))
gen consumption = 50 + 0.8 * income + error_consum
* Giải thích: Tiêu dùng có một mối quan hệ cân bằng dài hạn với thu nhập
* consumption = 50 + 0.8*income. Phần sai lệch (error_consum) là có tính dừng.

* --- Bước 3: Đặt nhãn cho các biến và lưu dữ liệu ---
label var time "Thời gian (Quý)"
label var income "Thu nhập (Mô phỏng)"
label var consumption "Tiêu dùng (Mô phỏng)"

* Xem qua dữ liệu
summarize
tsline income consumption, title("Thu nhập và Tiêu dùng (Mô phỏng)")

* Lưu dữ liệu để sử dụng cho các bài thực hành sau
save "nonstationary_data.dta", replace

📚 Bài tiếp theo: Nền tảng về chuỗi không dừng và nghiệm đơn vị

💡 Lưu ý: Hãy chắc chắn rằng bạn đã chạy đoạn code trên và lưu lại tệp dữ liệu nonstationary_data.dta. Chúng ta sẽ sử dụng nó rất nhiều trong các bài học tới!