Hồi quy dường như không liên quan với thành phần sai số

Trong phân tích kinh tế lượng, các nhà nghiên cứu thường xuyên đối mặt với bài toán ước lượng đồng thời một hệ thống gồm nhiều phương trình hồi quy. Các ví dụ điển hình bao gồm mô hình hóa hệ thống các phương trình cầu cho nhiều mặt hàng khác nhau, hoặc ước lượng một hàm chi phí dạng translog (translog cost function) cùng với các phương trình chia sẻ chi phí đầu vào tương ứng. Trong những bối cảnh như vậy, phương pháp Hồi quy dường như không liên quan (Seemingly Unrelated Regressions – SUR) do Zellner (1962) đề xuất đã trở thành một công cụ cực kỳ hữu ích. Ưu điểm vượt trội của SUR nằm ở khả năng cải thiện hiệu quả của các ước lượng bằng cách tận dụng thông tin từ sự tương quan của các sai số giữa các phương trình trong hệ thống.

Khi kết hợp với dữ liệu bảng (panel data), mô hình SUR mở ra những khả năng phân tích sâu sắc hơn, cho phép kiểm soát các yếu tố không quan sát được và thay đổi theo thời gian. Tuy nhiên, việc áp dụng trực tiếp mô hình SUR truyền thống lên dữ liệu bảng chưa khai thác hết cấu trúc phức tạp của sai số. Avery (1977) là một trong những người tiên phong giải quyết vấn đề này bằng cách tích hợp cấu trúc thành phần sai số (error component structure) vào mô hình SUR. Cách tiếp cận này không chỉ nắm bắt được sự tương quan chéo giữa các phương trình mà còn phân tách sai số tổng hợp thành các thành phần riêng cho từng cá thể, thành phần thời gian và sai số ngẫu nhiên thuần túy.

Chuỗi bài viết này sẽ cung cấp một cái nhìn toàn diện và có hệ thống về mô hình SUR với thành phần sai số, dựa trên nền tảng từ chương 6 của cuốn “Econometric Analysis of Panel Data” (Baltagi, 2021). Chúng ta sẽ khám phá nền tảng lý thuyết của cả mô hình thành phần sai số một chiều và hai chiều, tìm hiểu các ứng dụng thực tiễn thông qua các nghiên cứu kinh điển, và quan trọng nhất là trang bị kỹ năng thực hành ước lượng các mô hình này bằng phần mềm Stata. Mục tiêu cuối cùng là giúp người học không chỉ hiểu sâu về lý thuyết mà còn có thể tự tin áp dụng các kỹ thuật này vào nghiên cứu của riêng mình.

Cấu trúc chuỗi bài học

Bài 1: Nền tảng lý thuyết về mô hình SUR với thành phần sai số – Bài viết này sẽ đi sâu vào việc xây dựng công thức toán học và ma trận phương sai-hiệp phương sai cho mô hình SUR trong trường hợp thành phần sai số một chiều và hai chiều.
Bài 2: Ứng dụng, mở rộng và bài tập vận dụng – Chúng ta sẽ khám phá các nghiên cứu thực tế đã áp dụng mô hình SUR-EC và cung cấp lời giải chi tiết cho các bài tập lý thuyết quan trọng từ tài liệu gốc.
Bài 3: Hướng dẫn thực hành mô hình SUR-EC với Stata – Một bài hướng dẫn tổng hợp, sử dụng dữ liệu mô phỏng để minh họa toàn bộ quy trình phân tích từ chuẩn bị dữ liệu, ước lượng mô hình, đến diễn giải kết quả.

Kiến thức tiên quyết

Kinh tế lượng căn bản: Hiểu biết vững chắc về mô hình hồi quy OLS, các giả định Gauss-Markov, và các vấn đề như phương sai thay đổi, tự tương quan.
Kinh tế lượng dữ liệu bảng: Quen thuộc với các khái niệm về mô hình tác động cố định (Fixed Effects) và tác động ngẫu nhiên (Random Effects).
Đại số tuyến tính: Thành thạo các phép toán ma trận, bao gồm nhân ma trận, nghịch đảo, và các sản phẩm Kronecker.
Stata cơ bản: Có khả năng quản lý dữ liệu, thực hiện các lệnh hồi quy cơ bản và vòng lặp.

Mục tiêu học tập

Nắm vững cơ sở lý thuyết của mô hình SUR và cấu trúc thành phần sai số trong dữ liệu bảng.
Hiểu rõ cách xây dựng và biến đổi ma trận phương sai-hiệp phương sai của hệ thống phương trình.
Phân biệt được sự khác biệt và ứng dụng của mô hình thành phần sai số một chiều và hai chiều.
Vận dụng thành thạo Stata để ước lượng mô hình SUR-EC và diễn giải kết quả một cách chính xác.

Tài liệu tham khảo chính

Baltagi, B. H. (2021). Econometric Analysis of Panel Data. 6th Edition. Springer.
Avery, R. B. (1977). Error components and seemingly unrelated regressions. Econometrica, 45(1), 199-209.
Zellner, A. (1962). An efficient method of estimating seemingly unrelated regression and tests for aggregation bias. Journal of the American Statistical Association, 57(298), 348-368.

Phụ lục: Dữ liệu mô phỏng cho chuỗi bài viết

Để phục vụ cho bài thực hành cuối cùng, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng. Dữ liệu này mô tả quyết định đầu tư của hai công ty (A và B) trong cùng một ngành qua 20 năm. Mô hình giả định rằng quyết định đầu tư của mỗi công ty phụ thuộc vào giá trị thị trường và lượng vốn hiện có, và sai số trong quyết định của hai công ty có thể tương quan với nhau.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO MÔ HÌNH SUR-EC
* Mục đích: Mô phỏng dữ liệu bảng cho 2 công ty qua 20 năm
* Tác giả: GPT-4 (dựa trên mô hình của Baltagi, 2021)
* ==================================================

clear
set obs 40
set seed 12345

* --- Tạo biến định danh công ty và thời gian ---
gen firmid = cond(_n <= 20, 1, 2)
bysort firmid: gen year = _n + 1999

* --- Thiết lập dữ liệu bảng ---
xtset firmid year

* --- Tạo các biến độc lập ---
gen mvalue = runiform() * 1000 + 500
gen kstock = runiform() * 500 + 200

* --- Tạo các thành phần sai số tương quan giữa các công ty ---
* Ma trận hiệp phương sai cho các thành phần sai số
matrix Sigma_mu = (0.8, 0.4 \ 0.4, 0.6) // Hiệp phương sai của hiệu ứng riêng (mu_i)
matrix Sigma_v = (1.2, 0.5 \ 0.5, 1.5) // Hiệp phương sai của sai số ngẫu nhiên (v_it)

* Tạo các sai số từ phân phối chuẩn đa biến
drawnorm mu1 mu2, n(2) cov(Sigma_mu)
drawnorm v1 v2, n(40) cov(Sigma_v)

* Gán hiệu ứng riêng cho từng công ty
gen mu = cond(firmid == 1, mu1[1], mu2[1])

* --- Tạo biến phụ thuộc cho hai phương trình (hai công ty) ---
* Phương trình 1: Đầu tư của công ty 1
gen invest1 = 50 + 0.5*mvalue + 0.8*kstock + mu + v1 if firmid == 1

* Phương trình 2: Đầu tư của công ty 2
gen invest2 = 80 + 0.4*mvalue + 0.7*kstock + mu + v2 if firmid == 2

* --- Định dạng lại dữ liệu từ dạng dài sang dạng rộng để dễ sử dụng với lệnh sureg ---
* Tuy nhiên, để phân tích với các lệnh xt, chúng ta sẽ giữ ở dạng dài và tạo biến invest chung
gen invest = cond(firmid == 1, invest1, invest2)
drop invest1 invest2

* --- Lưu dữ liệu ---
compress
save "sur_panel_simulation.dta", replace
export delimited using "sur_panel_simulation.csv", replace

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO MÔ HÌNH SUR-EC
* Mục đích: Mô phỏng dữ liệu bảng cho 2 công ty qua 20 năm
* Tác giả: GPT-4 (dựa trên mô hình của Baltagi, 2021)
* ==================================================

clear
set obs 40
set seed 12345

* --- Tạo biến định danh công ty và thời gian ---
gen firmid = cond(_n <= 20, 1, 2)
bysort firmid: gen year = _n + 1999

* --- Thiết lập dữ liệu bảng ---
xtset firmid year

* --- Tạo các biến độc lập ---
gen mvalue = runiform() * 1000 + 500
gen kstock = runiform() * 500 + 200

* --- Tạo các thành phần sai số tương quan giữa các công ty ---
* Ma trận hiệp phương sai cho các thành phần sai số
matrix Sigma_mu = (0.8, 0.4 \ 0.4, 0.6) // Hiệp phương sai của hiệu ứng riêng (mu_i)
matrix Sigma_v = (1.2, 0.5 \ 0.5, 1.5) // Hiệp phương sai của sai số ngẫu nhiên (v_it)

* Tạo các sai số từ phân phối chuẩn đa biến
drawnorm mu1 mu2, n(2) cov(Sigma_mu)
drawnorm v1 v2, n(40) cov(Sigma_v)

* Gán hiệu ứng riêng cho từng công ty
gen mu = cond(firmid == 1, mu1[1], mu2[1])

* --- Tạo biến phụ thuộc cho hai phương trình (hai công ty) ---
* Phương trình 1: Đầu tư của công ty 1
gen invest1 = 50 + 0.5*mvalue + 0.8*kstock + mu + v1 if firmid == 1

* Phương trình 2: Đầu tư của công ty 2
gen invest2 = 80 + 0.4*mvalue + 0.7*kstock + mu + v2 if firmid == 2

* --- Định dạng lại dữ liệu từ dạng dài sang dạng rộng để dễ sử dụng với lệnh sureg ---
* Tuy nhiên, để phân tích với các lệnh xt, chúng ta sẽ giữ ở dạng dài và tạo biến invest chung
gen invest = cond(firmid == 1, invest1, invest2)
drop invest1 invest2

* --- Lưu dữ liệu ---
compress
save "sur_panel_simulation.dta", replace
export delimited using "sur_panel_simulation.csv", replace

Mô tả các biến

firmid: Mã định danh công ty (1 và 2).
year: Năm quan sát (2000-2019).
invest: Chi tiêu đầu tư của công ty trong năm (biến phụ thuộc).
mvalue: Giá trị thị trường của công ty (biến độc lập).
kstock: Lượng vốn hiện có của công ty (biến độc lập).

Bạn có thể tải về bộ dữ liệu đã được tạo ra ở định dạng .csv để tự thực hành.

Tải về dữ liệu mô phỏng (.csv)

📚 Bài tiếp theo: Nền tảng lý thuyết về mô hình SUR với thành phần sai số

💡 Lưu ý: Hãy đảm bảo bạn đã nắm vững các kiến thức tiên quyết, đặc biệt là về kinh tế lượng dữ liệu bảng và đại số ma trận, trước khi bắt đầu bài học đầu tiên.