Ước lượng khoảng cách tối thiểu và phương pháp mô-men tổng quát

Chào các bạn sinh viên, trong các chương trước, chúng ta đã làm quen với nhiều phương pháp ước lượng, đặc biệt là ước lượng hợp lý cực đại (Maximum Likelihood Estimation). Phương pháp này rất hiệu quả, nhưng đòi hỏi chúng ta phải có những giả định khá chặt chẽ về phân phối của dữ liệu. Vậy điều gì sẽ xảy ra nếu chúng ta không chắc chắn về những giả định đó? Liệu có một phương pháp nào linh hoạt và “bền vững” hơn không? Câu trả lời là có, và đó chính là nội dung chính của chuỗi bài học này: Phương pháp các Mô-men Tổng quát, hay còn gọi là (Generalized Method of Moments – GMM).

GMM là một trong những công cụ mạnh mẽ và phổ biến nhất trong kinh tế lượng hiện đại, đặc biệt trong các lĩnh vực kinh tế vĩ mô và tài chính. Sức mạnh của GMM nằm ở chỗ nó không yêu cầu chúng ta phải biết chính xác phân phối xác suất của dữ liệu. Thay vào đó, nó dựa trên một ý tưởng rất trực quan: nếu một mô hình kinh tế là đúng, thì một số mối quan hệ trung bình (gọi là các điều kiện mô-men) trong tổng thể phải được thỏa mãn. GMM tìm cách làm cho các điều kiện mô-men tương ứng trong mẫu gần bằng 0 nhất có thể. Cách tiếp cận này không chỉ bao quát hầu hết các phương pháp ước lượng quen thuộc như OLS, IV, mà còn mở ra khả năng ước lượng các mô hình kinh tế phức tạp trực tiếp từ các điều kiện tối ưu hóa trong lý thuyết.

Trong chuỗi bài học này, chúng ta sẽ cùng nhau xây dựng kiến thức về GMM một cách có hệ thống, từ những viên gạch nền tảng nhất. Chúng ta sẽ bắt đầu với “ông tổ” của GMM là phương pháp các mô-men cổ điển, sau đó tìm hiểu về ước lượng khoảng cách tối thiểu, và cuối cùng là đi sâu vào khung làm việc tổng quát của GMM. Đừng lo lắng về các công thức toán học, mỗi khái niệm sẽ được giải thích cặn kẽ và đi kèm với các ví dụ minh họa trực quan. Mục tiêu cuối cùng là giúp các bạn không chỉ hiểu GMM là gì, mà còn có thể tự tin áp dụng nó vào các bài toán nghiên cứu thực tế bằng Stata.

Cấu trúc chuỗi bài học

Để giúp các bạn dễ dàng theo dõi và nắm bắt kiến thức, chuỗi bài học của chúng ta sẽ được chia thành các phần nhỏ, đi từ lý thuyết nền tảng đến ứng dụng thực hành:

Bài 1: Nền tảng phương pháp các mô-men
Chúng ta sẽ bắt đầu với phương pháp ước lượng kinh điển nhất, tìm hiểu cách sử dụng các mô-men của mẫu để suy ra tham số của tổng thể.
Bài 2: Từ ước lượng khoảng cách tối thiểu đến GMM
Bài học này sẽ là cầu nối quan trọng, giới thiệu cách giải quyết khi có nhiều thông tin (mô-men) hơn mức cần thiết và dẫn dắt đến GMM.
Bài 3: Các tính chất và kiểm định giả thuyết trong GMM
Chúng ta sẽ khám phá các tính chất thống kê quan trọng của ước lượng GMM và học cách thực hiện các kiểm định giả thuyết trong khung làm việc này.
Bài 4: Ứng dụng GMM trong các mô hình kinh tế lượng
Phần này sẽ chỉ ra GMM không phải là một lý thuyết xa vời, mà được áp dụng trực tiếp vào các mô hình hồi quy tuyến tính, phi tuyến và hệ phương trình.
Bài 5: Hướng dẫn thực hành GMM cho dữ liệu bảng động với Stata
Đây là bài học tổng hợp, nơi chúng ta sẽ áp dụng toàn bộ kiến thức đã học để phân tích một mô hình dữ liệu bảng động, một ứng dụng rất phổ biến của GMM.

Kiến thức tiên quyết

Để có thể tiếp thu tốt nhất chuỗi bài học này, các bạn cần trang bị trước một số kiến thức nền tảng sau:

Đại số tuyến tính: Các phép toán cơ bản về ma trận (nhân, chuyển vị, nghịch đảo).
Xác suất thống kê: Các khái niệm về kỳ vọng, phương sai, hội tụ theo xác suất (plim), và định lý giới hạn trung tâm.
Kinh tế lượng cơ bản: Hiểu rõ về mô hình hồi quy OLS, các giả định của nó, và phương pháp ước lượng biến công cụ (IV).
Stata cơ bản: Quen thuộc với các lệnh cơ bản như use, regress, summarize, và cách đọc kết quả hồi quy.

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng:

Hiểu sâu lý thuyết: Nắm vững bản chất của phương pháp các mô-men, ước lượng khoảng cách tối thiểu và khung làm việc GMM.
Xây dựng mô hình: Biết cách thiết lập các điều kiện mô-men từ lý thuyết kinh tế hoặc các giả định của mô hình.
Thực hành thành thạo: Sử dụng Stata để thực hiện ước lượng GMM cho các mô hình khác nhau, bao gồm cả mô hình dữ liệu bảng động.
Diễn giải kết quả: Đọc và hiểu ý nghĩa của các kết quả ước lượng GMM, thực hiện các kiểm định giả thuyết và kiểm định đặc tả mô hình.

Tài liệu tham khảo

Nội dung của chuỗi bài viết này chủ yếu dựa trên các tài liệu kinh điển và uy tín. Các bạn có thể tham khảo thêm để đào sâu kiến thức:

Chính: Greene, W. H. (2019). Econometric Analysis (8th ed.). Pearson. (Chương 13).
Bổ sung (dễ hiểu hơn): Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach (7th ed.). Cengage Learning.
Nâng cao về GMM: Hansen, L. P. (1982). Large Sample Properties of Generalized Method of Moments Estimators. Econometrica, 50(4), 1029–1054.
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Stata Press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học và thực hành trở nên dễ dàng, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài viết. Dưới đây là đoạn code Stata để tạo ra bộ dữ liệu này. Các bạn hãy chạy code này một lần và lưu file gmm_practice_data.dta để sử dụng cho các bài học sau nhé.

Bối cảnh dữ liệu: Chúng ta sẽ mô phỏng một bộ dữ liệu bảng (panel data) đơn giản về quyết định đầu tư (invest) của 500 công ty (firm_id) trong 5 năm (year). Giả định rằng đầu tư của một công ty phụ thuộc vào giá trị thị trường của công ty năm trước (mktval_lag) và lượng tiền mặt hiện có (cashflow). Chúng ta cũng sẽ tạo ra một hiệu ứng cố định cho mỗi công ty (c_i) không quan sát được.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC GMM
* Mục đích: Tạo một bộ dữ liệu bảng động đơn giản
* Số công ty (n): 500
* Số năm (T): 5
* ==================================================

* Xóa dữ liệu cũ và cài đặt số quan sát
clear
set obs 500

* Tạo biến ID cho mỗi công ty
gen firm_id = _n

* Tạo hiệu ứng cố định không quan sát được cho mỗi công ty
* Giả định nó tuân theo phân phối chuẩn N(0, 1)
gen c_i = rnormal(0, 1)

* Mở rộng dữ liệu ra dạng bảng (panel data)
expand 5
bysort firm_id: gen year = 1999 + _n

* Sắp xếp dữ liệu theo công ty và năm
sort firm_id year

* Tạo các biến độc lập
* cashflow: dòng tiền, giả định có tương quan với hiệu ứng cố định
gen cashflow = 0.5 * c_i + rnormal(10, 2)

* mktval: giá trị thị trường, cũng tương quan với hiệu ứng cố định
gen mktval = 2 * c_i + rnormal(50, 10)

* Tạo biến phụ thuộc (đầu tư) theo mô hình động
* invest_it = 0.5*invest_it-1 + 0.2*mktval_it-1 + 0.1*cashflow_it + c_i + e_it
* Đầu tiên, tạo giá trị đầu tư ban đầu cho mỗi công ty
gen invest = .
bysort firm_id: replace invest = 0.3*mktval + 0.15*cashflow + c_i + rnormal(5,1) if year == 2000

* Bây giờ, tạo các giá trị đầu tư cho các năm sau theo công thức
forvalues t = 2001/2004 {
    qui bysort firm_id: gen invest_lag = invest[_n-1]
    qui bysort firm_id: gen mktval_lag = mktval[_n-1]
    qui replace invest = 0.5*invest_lag + 0.2*mktval_lag + 0.1*cashflow + c_i + rnormal(0, 2) if year == `t'
    qui drop invest_lag mktval_lag
}

* Tạo một biến công cụ ngoại sinh (ví dụ: chi tiêu R&D)
* Biến này không tương quan với hiệu ứng cố định c_i
gen rd_expense = rnormal(5, 1.5)

* Mô tả và lưu dữ liệu
describe
summarize firm_id year invest mktval cashflow rd_expense
save "gmm_practice_data.dta", replace

* Hướng dẫn sử dụng:
* Trong các bài học sau, chỉ cần dùng lệnh: use "gmm_practice_data.dta", clear

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC GMM
* Mục đích: Tạo một bộ dữ liệu bảng động đơn giản
* Số công ty (n): 500
* Số năm (T): 5
* ==================================================

* Xóa dữ liệu cũ và cài đặt số quan sát
clear
set obs 500

* Tạo biến ID cho mỗi công ty
gen firm_id = _n

* Tạo hiệu ứng cố định không quan sát được cho mỗi công ty
* Giả định nó tuân theo phân phối chuẩn N(0, 1)
gen c_i = rnormal(0, 1)

* Mở rộng dữ liệu ra dạng bảng (panel data)
expand 5
bysort firm_id: gen year = 1999 + _n

* Sắp xếp dữ liệu theo công ty và năm
sort firm_id year

* Tạo các biến độc lập
* cashflow: dòng tiền, giả định có tương quan với hiệu ứng cố định
gen cashflow = 0.5 * c_i + rnormal(10, 2)

* mktval: giá trị thị trường, cũng tương quan với hiệu ứng cố định
gen mktval = 2 * c_i + rnormal(50, 10)

* Tạo biến phụ thuộc (đầu tư) theo mô hình động
* invest_it = 0.5*invest_it-1 + 0.2*mktval_it-1 + 0.1*cashflow_it + c_i + e_it
* Đầu tiên, tạo giá trị đầu tư ban đầu cho mỗi công ty
gen invest = .
bysort firm_id: replace invest = 0.3*mktval + 0.15*cashflow + c_i + rnormal(5,1) if year == 2000

* Bây giờ, tạo các giá trị đầu tư cho các năm sau theo công thức
forvalues t = 2001/2004 {
    qui bysort firm_id: gen invest_lag = invest[_n-1]
    qui bysort firm_id: gen mktval_lag = mktval[_n-1]
    qui replace invest = 0.5*invest_lag + 0.2*mktval_lag + 0.1*cashflow + c_i + rnormal(0, 2) if year == `t'
    qui drop invest_lag mktval_lag
}

* Tạo một biến công cụ ngoại sinh (ví dụ: chi tiêu R&D)
* Biến này không tương quan với hiệu ứng cố định c_i
gen rd_expense = rnormal(5, 1.5)

* Mô tả và lưu dữ liệu
describe
summarize firm_id year invest mktval cashflow rd_expense
save "gmm_practice_data.dta", replace

* Hướng dẫn sử dụng:
* Trong các bài học sau, chỉ cần dùng lệnh: use "gmm_practice_data.dta", clear

📚 Bài tiếp theo: Nền tảng phương pháp các mô-men

💡 Lưu ý: Hãy đảm bảo bạn đã chạy đoạn code Stata trên và lưu lại bộ dữ liệu. Việc chuẩn bị sẵn sàng sẽ giúp bạn tập trung hơn vào nội dung lý thuyết của bài học đầu tiên.