Phương pháp mô-men tổng quát

Chào mừng các bạn sinh viên đến với chuỗi bài học về một trong những công cụ mạnh mẽ và linh hoạt nhất trong kinh tế lượng hiện đại: Phương pháp Moment Tổng quát, hay còn gọi là GMM. Nếu như OLS là con dao đa năng cơ bản và IV/2SLS là công cụ chuyên dụng cho “bài toán biến nội sinh”, thì GMM chính là một bộ công cụ vạn năng, có khả năng xử lý rất nhiều bài toán ước lượng phức tạp. GMM không phải là một phương pháp hoàn toàn mới, mà là sự tổng quát hóa, hợp nhất các ý tưởng từ OLS, IV, và 2SLS vào một khung lý thuyết chung, đồng thời mở rộng khả năng của chúng.

Vậy tại sao GMM lại quan trọng với một nhà kinh tế lượng? Hãy tưởng tượng bạn có nhiều thông tin hơn mức cần thiết để ước lượng một tham số. Ví dụ, bạn có 5 biến công cụ tốt cho một biến nội sinh. 2SLS chỉ cho bạn một cách kết hợp chúng, nhưng liệu đó có phải là cách tốt nhất? GMM ra đời để trả lời câu hỏi này. Nó cung cấp một phương pháp để kết hợp một cách “tối ưu” tất cả thông tin có sẵn, giúp chúng ta có được những ước lượng chính xác và hiệu quả nhất. Trong chuỗi bài này, chúng ta sẽ cùng nhau “giải mã” GMM, bắt đầu từ những ý tưởng nền tảng nhất và đi đến các ứng dụng thực tế.

Để làm chủ được GMM, chúng ta sẽ tập trung vào ba khái niệm cốt lõi:

Điều kiện Moment (Moment Conditions): Đây là “luật chơi” hay giả định nền tảng, là cầu nối giữa lý thuyết kinh tế và dữ liệu chúng ta có.
Thừa định (Overidentification): Tình huống có nhiều công cụ (thông tin) hơn số tham số cần ước lượng. GMM biến điều này từ một sự phức tạp thành một lợi thế.
Ma trận Trọng số (Weight Matrix): Đây là “bộ não” của GMM, quyết định cách thức kết hợp các điều kiện moment một cách thông minh để đạt được ước lượng hiệu quả nhất.

Mục tiêu của chúng tôi là giúp các bạn không chỉ hiểu lý thuyết mà còn có thể tự tin áp dụng GMM vào các bài toán nghiên cứu của riêng mình bằng phần mềm Stata.

Nền tảng của GMM và trường hợp vừa định
Chúng ta sẽ bắt đầu với khái niệm cốt lõi về điều kiện moment và tìm hiểu cách hoạt động của ước lượng MME đơn giản nhất.
GMM cho mô hình thừa định và ước lượng một bước
Bài học này giải thích tại sao GMM cần thiết khi có thừa thông tin và cách xây dựng một ước lượng GMM cơ bản.
Phân phối tiệm cận và khái niệm GMM hiệu quả
Chúng ta sẽ khám phá lý thuyết đằng sau GMM, tìm hiểu về phương sai “sandwich” và ý tưởng về ma trận trọng số tối ưu.
Ước lượng GMM hiệu quả trong thực tế
Bài học tập trung vào các kỹ thuật thực tế như GMM hai bước, GMM lặp và cách ước lượng ma trận hiệp phương sai.
Các kiểm định giả thuyết quan trọng trong GMM
Chúng ta sẽ học cách thực hiện và diễn giải các kiểm định phổ biến như Wald, kiểm định J và kiểm định nội sinh.
Các chủ đề nâng cao và GMM phi tuyến
Bài học này mở rộng kiến thức sang các ứng dụng phức tạp hơn như GMM có ràng buộc và GMM cho mô hình phi tuyến.
Hướng dẫn thực hành GMM từ A-Z với Stata
Đây là bài thực hành tổng hợp, nơi chúng ta sẽ áp dụng toàn bộ kiến thức đã học để phân tích một bộ dữ liệu từ đầu đến cuối.

KIẾN THỨC TIÊN QUYẾT

Đại số tuyến tính: Hiểu biết về các phép toán ma trận cơ bản (nhân, chuyển vị, nghịch đảo).
Xác suất và Thống kê: Nắm vững các khái niệm về kỳ vọng, phương sai, hội tụ theo xác suất và hội tụ theo phân phối.
Kinh tế lượng cơ bản: Có kiến thức nền tảng về mô hình OLS, các giả định Gauss-Markov, và đặc biệt là Hồi quy Biến Công cụ (IV) và 2SLS.
Stata cơ bản: Quen thuộc với các lệnh cơ bản như use, summarize, regress, và ivregress.

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Nắm vững bản chất của điều kiện moment, sự khác biệt giữa trường hợp vừa định và thừa định, và vai trò của ma trận trọng số.
Thực hành thành thạo: Sử dụng Stata để ước lượng các mô hình GMM một bước, hai bước, và lặp; thực hiện các kiểm định sau ước lượng.
Phân tích thực tế: Có khả năng diễn giải kết quả GMM, bao gồm các hệ số, sai số chuẩn, và kết quả của các kiểm định giả thuyết.
Tư duy phản biện: Nhận biết được khi nào nên sử dụng GMM, ưu và nhược điểm của nó so với các phương pháp khác như 2SLS.

TÀI LIỆU THAM KHẢO

Chính: Hansen, B. E. (2022). Econometrics. Princeton University Press. (Chương 13).
Bổ sung (dễ hiểu hơn): Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning.
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata, Revised Edition. Stata Press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng xuyên suốt chuỗi bài viết. Bộ dữ liệu này được thiết kế để minh họa các vấn đề mà GMM giải quyết, đặc biệt là biến nội sinh và thừa định. Hãy chạy đoạn code Stata dưới đây để tạo và lưu dữ liệu cho các bài học tiếp theo.

Bối cảnh: Chúng ta muốn nghiên cứu tác động của trình độ học vấn (educ) lên tiền lương (wage), nhưng nghi ngờ rằng “năng lực bẩm sinh” (không quan sát được) ảnh hưởng đến cả hai, gây ra vấn đề nội sinh. Chúng ta có hai biến công cụ tiềm năng: khoảng cách đến trường đại học gần nhất (near_college) và trình độ học vấn của cha (father_educ).

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI GMM
* Mục đích: Tạo bộ dữ liệu với biến nội sinh và 2 biến công cụ
* ==================================================

clear
set obs 2000
set seed 12345

* --- BƯỚC 1: TẠO CÁC BIẾN NGOẠI SINH ---

* Tạo biến "năng lực bẩm sinh" (không quan sát được)
gen ability = rnormal(10, 2)

* Tạo các biến công cụ (instruments)
* near_college: giả sử khoảng cách đến trường ĐH ảnh hưởng đến quyết định đi học
* nhưng không ảnh hưởng trực tiếp đến lương (sau khi đã kiểm soát học vấn)
gen near_college = runiform() > 0.4

* father_educ: học vấn của cha, ảnh hưởng đến học vấn của con
gen father_educ = round(12 + rnormal(0, 2))

* Tạo biến kinh nghiệm làm việc
gen exper = runiformint(1, 10)

* --- BƯỚC 2: TẠO BIẾN NỘI SINH VÀ SAI SỐ ---

* Tạo sai số cho phương trình học vấn (educ)
gen u = rnormal(0, 1.5)

* Tạo biến học vấn (educ), phụ thuộc vào năng lực và 2 biến công cụ
* Đây là phương trình "giai đoạn 1" (first stage)
gen educ = 8 + 0.5*ability + 1.5*near_college + 0.2*father_educ + u

* Tạo sai số cho phương trình lương (wage)
* Quan trọng: Sai số này tương quan với "năng lực"
gen v = 0.8*ability + rnormal(0, 2)

* --- BƯỚC 3: TẠO BIẾN PHỤ THUỘC (LƯƠNG) ---

* Tạo biến log của lương (ln_wage)
* Tác động thực sự của educ là 0.1
gen ln_wage = 5 + 0.1*educ + 0.05*exper + v
label var ln_wage "Log của lương hàng tháng"

* --- BƯỚC 4: HOÀN THIỆN VÀ LƯU DỮ LIỆU ---

* Xóa các biến không cần thiết để giữ dữ liệu sạch
drop ability u v

* Gán nhãn cho các biến
label var educ "Số năm đi học"
label var exper "Số năm kinh nghiệm"
label var near_college "Sống gần trường ĐH (1=có)"
label var father_educ "Số năm đi học của cha"

* Lưu dữ liệu để sử dụng cho các bài sau
* Hãy chắc chắn rằng bạn thay "D:\data" bằng đường dẫn thư mục của bạn
save "D:\data\gmm_data.dta", replace

* Xem qua dữ liệu
describe
summarize

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI GMM
* Mục đích: Tạo bộ dữ liệu với biến nội sinh và 2 biến công cụ
* ==================================================

clear
set obs 2000
set seed 12345

* --- BƯỚC 1: TẠO CÁC BIẾN NGOẠI SINH ---

* Tạo biến "năng lực bẩm sinh" (không quan sát được)
gen ability = rnormal(10, 2)

* Tạo các biến công cụ (instruments)
* near_college: giả sử khoảng cách đến trường ĐH ảnh hưởng đến quyết định đi học
* nhưng không ảnh hưởng trực tiếp đến lương (sau khi đã kiểm soát học vấn)
gen near_college = runiform() > 0.4

* father_educ: học vấn của cha, ảnh hưởng đến học vấn của con
gen father_educ = round(12 + rnormal(0, 2))

* Tạo biến kinh nghiệm làm việc
gen exper = runiformint(1, 10)

* --- BƯỚC 2: TẠO BIẾN NỘI SINH VÀ SAI SỐ ---

* Tạo sai số cho phương trình học vấn (educ)
gen u = rnormal(0, 1.5)

* Tạo biến học vấn (educ), phụ thuộc vào năng lực và 2 biến công cụ
* Đây là phương trình "giai đoạn 1" (first stage)
gen educ = 8 + 0.5*ability + 1.5*near_college + 0.2*father_educ + u

* Tạo sai số cho phương trình lương (wage)
* Quan trọng: Sai số này tương quan với "năng lực"
gen v = 0.8*ability + rnormal(0, 2)

* --- BƯỚC 3: TẠO BIẾN PHỤ THUỘC (LƯƠNG) ---

* Tạo biến log của lương (ln_wage)
* Tác động thực sự của educ là 0.1
gen ln_wage = 5 + 0.1*educ + 0.05*exper + v
label var ln_wage "Log của lương hàng tháng"

* --- BƯỚC 4: HOÀN THIỆN VÀ LƯU DỮ LIỆU ---

* Xóa các biến không cần thiết để giữ dữ liệu sạch
drop ability u v

* Gán nhãn cho các biến
label var educ "Số năm đi học"
label var exper "Số năm kinh nghiệm"
label var near_college "Sống gần trường ĐH (1=có)"
label var father_educ "Số năm đi học của cha"

* Lưu dữ liệu để sử dụng cho các bài sau
* Hãy chắc chắn rằng bạn thay "D:\data" bằng đường dẫn thư mục của bạn
save "D:\data\gmm_data.dta", replace

* Xem qua dữ liệu
describe
summarize

Hướng dẫn sử dụng:

Mở Stata.
Mở một cửa sổ Do-file Editor mới (bằng cách gõ doedit vào cửa sổ lệnh).
Sao chép toàn bộ đoạn code trên và dán vào Do-file Editor.
Quan trọng: Thay đổi dòng save "D:\data\gmm_data.dta", replace thành đường dẫn đến thư mục làm việc của bạn. Ví dụ: save "C:\Users\TenBan\Documents\gmm_data.dta", replace.
Chạy toàn bộ do-file. Bây giờ bạn đã có file gmm_data.dta sẵn sàng cho các bài thực hành sắp tới!

📚 Bài tiếp theo: Nền tảng của GMM và trường hợp vừa định

💡 Lưu ý: Hãy đảm bảo bạn đã tạo thành công bộ dữ liệu mô phỏng. Việc chuẩn bị sẵn sàng dữ liệu sẽ giúp bạn tập trung hoàn toàn vào các khái niệm kinh tế lượng trong bài học tiếp theo.