Biến công cụ

Chào mừng các bạn sinh viên đến với chuỗi bài học về một trong những chủ đề quan trọng và thú vị nhất của kinh tế lượng hiện đại: Biến công cụ (Instrumental Variables – IV). Trong thực tế, các mô hình kinh tế thường phức tạp hơn những gì chúng ta giả định trong hồi quy OLS cơ bản. Rất nhiều khi, biến giải thích mà chúng ta quan tâm lại có mối quan hệ hai chiều hoặc bị ảnh hưởng bởi các yếu tố không quan sát được, dẫn đến một vấn đề nghiêm trọng gọi là “nội sinh”. Khi đó, ước lượng OLS sẽ bị chệch và không còn đáng tin cậy để suy luận nhân quả.

Vậy làm thế nào để giải quyết vấn đề hóc búa này? Phương pháp Biến công cụ ra đời như một giải pháp thông minh và mạnh mẽ. Ý tưởng cốt lõi là tìm một biến thứ ba, gọi là “biến công cụ”, có khả năng tác động đến biến giải thích nội sinh nhưng lại không ảnh hưởng trực tiếp đến biến phụ thuộc. Bằng cách sử dụng “đòn bẩy” từ biến công cụ này, chúng ta có thể tách ra phần biến thiên “sạch” của biến giải thích và từ đó ước lượng được tác động nhân quả thực sự. Chuỗi bài học này sẽ dẫn dắt các bạn đi từ những khái niệm cơ bản nhất đến việc áp dụng thành thạo phương pháp này trong Stata, dựa trên nền tảng kiến thức từ cuốn sách giáo khoa “Econometrics” của Giáo sư Bruce Hansen (2022).

Mục tiêu của chúng ta không chỉ là học thuộc công thức, mà là xây dựng một tư duy kinh tế lượng vững chắc. Các bạn sẽ học cách nhận diện vấn đề, lựa chọn công cụ, thực hiện các kiểm định cần thiết và diễn giải kết quả một cách sâu sắc. Hãy cùng nhau khám phá sức mạnh của phương pháp Biến công cụ để trả lời những câu hỏi kinh tế quan trọng!

Cấu trúc chuỗi bài học

  1. Bài 1: Hiểu về nội sinh và biến công cụ
    Chúng ta sẽ bắt đầu bằng việc tìm hiểu tại sao hồi quy OLS có thể đưa ra kết quả sai lệch và khám phá ý tưởng trực quan đằng sau biến công cụ.
  2. Bài 2: Nhận dạng và các phương pháp ước lượng cơ bản
    Bài học này sẽ đi sâu vào các điều kiện toán học cần thiết để mô hình IV hoạt động và giới thiệu các phương pháp ước lượng IV, 2SLS.
  3. Bài 3: Ước lượng LIML và các phương pháp thay thế
    Chúng ta sẽ khám phá các phương pháp ước lượng nâng cao hơn như LIML, JIVE và so sánh ưu nhược điểm của chúng trong các tình huống khác nhau.
  4. Bài 4: Suy luận thống kê trong mô hình biến công cụ
    Học cách xây dựng khoảng tin cậy và thực hiện các kiểm định giả thuyết cho các tham số ước lượng được từ mô hình biến công cụ một cách chính xác.
  5. Bài 5: Các kiểm định đặc tả và vấn đề biến công cụ yếu
    Đây là bước kiểm tra quan trọng, giúp chúng ta đánh giá độ tin cậy của mô hình, từ kiểm định nội sinh, quá xác định đến vấn đề công cụ yếu.
  6. Bài 6: Hướng dẫn thực hành biến công cụ với Stata
    Áp dụng toàn bộ kiến thức đã học vào một case study hoàn chỉnh, từ việc chuẩn bị dữ liệu, chạy các mô hình IV, 2SLS, thực hiện kiểm định và diễn giải kết quả.

KIẾN THỨC TIÊN QUYẾT

  • Toán học cơ bản: Hiểu biết về kỳ vọng có điều kiện, đại số tuyến tính (ma trận, hạng của ma trận).
  • Thống kê căn bản: Các khái niệm về tính nhất quán, phân phối tiệm cận, và định lý giới hạn trung tâm.
  • Kinh tế lượng nhập môn: Nắm vững mô hình hồi quy OLS, các giả định Gauss-Markov, và ý nghĩa của hệ số hồi quy.
  • Stata cơ bản: Biết cách nhập dữ liệu, sử dụng các lệnh summarize, regress, và quản lý tệp do-file.

MỤC TIÊU HỌC TẬP

  • Hiểu sâu lý thuyết: Giải thích được tại sao nội sinh là một vấn đề và cơ chế hoạt động của phương pháp biến công cụ.
  • Nhận diện mô hình: Nắm vững các điều kiện cần thiết (liên quan và ngoại sinh) để một biến công cụ hợp lệ.
  • Thực hành thành thạo: Sử dụng Stata để ước lượng các mô hình IV, 2SLS, LIML và thực hiện các kiểm định đặc tả quan trọng.
  • Phân tích thực tế: Có khả năng đọc, hiểu và đánh giá các nghiên cứu thực nghiệm sử dụng phương pháp biến công cụ.
  • Tư duy phản biện: Nhận biết các cạm bẫy phổ biến như công cụ yếu và diễn giải kết quả một cách cẩn trọng.

TÀI LIỆU THAM KHẢO

  • Chính: Hansen, B. E. (2022). Econometrics. Princeton University Press.
  • Bổ sung: Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning.
  • Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Stata Press.
  • Kinh điển: Angrist, J. D., & Pischke, J. S. (2009). Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton University Press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp các bạn dễ dàng thực hành, chúng ta sẽ tạo và sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài học. Bộ dữ liệu này mô phỏng mối quan hệ giữa trình độ học vấn và thu nhập, trong đó có vấn đề nội sinh do “năng lực” không quan sát được.

Bối cảnh: Chúng ta muốn ước lượng lợi tức của mỗi năm đi học thêm (`education`) đối với log của thu nhập (`log_wage`). Tuy nhiên, những người có năng lực (`ability`) cao hơn thường có xu hướng học cao hơn và cũng có thu nhập cao hơn. Vì chúng ta không quan sát được `ability`, nó sẽ nằm trong sai số, gây ra tương quan giữa `education` và sai số (nội sinh). Chúng ta sẽ sử dụng biến `distance_college` (khoảng cách đến trường đại học gần nhất) làm biến công cụ.

Hãy mở Stata và chạy đoạn code sau để tạo tệp dữ liệu iv_student_data.dta. Hãy lưu nó vào thư mục làm việc của bạn.

Stata
* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC VỀ BIẾN CÔNG CỤ
* Mục đích: Tạo ra một bộ dữ liệu đơn giản để minh họa vấn đề nội sinh
* và cách giải quyết bằng phương pháp Biến công cụ.
* ==================================================

* --- Bước 1: Thiết lập ban đầu ---
clear all
set obs 2000 // Tạo 2000 quan sát (sinh viên)
set seed 123 // Đảm bảo kết quả có thể lặp lại

* --- Bước 2: Sinh các biến ngoại sinh và không quan sát được ---

* Sinh biến "năng lực" không quan sát được (giả định phân phối chuẩn)
* Đây là nguồn gốc của vấn đề nội sinh
gen ability = rnormal(0, 1)

* Sinh biến công cụ "khoảng cách đến trường đại học" (đơn vị: km)
* Giả định nó không liên quan trực tiếp đến năng lực
gen distance_college = runiform(5, 50)

* --- Bước 3: Sinh biến giải thích nội sinh ---

* Sinh biến "số năm đi học" (education)
* Education phụ thuộc vào cả năng lực (ability) và khoảng cách (distance_college)
* Dấu trừ trước distance_college nghĩa là ở càng xa thì càng ít có xu hướng đi học
gen education = 12 + 0.5*ability - 0.1*distance_college + rnormal(0, 1.5)

* --- Bước 4: Sinh biến phụ thuộc ---

* Sinh biến "log của thu nhập" (log_wage)
* Thu nhập phụ thuộc vào education và ability
* Vì ability không được đưa vào mô hình, nó sẽ nằm trong sai số.
* Do education và ability có tương quan, nên education sẽ tương quan với sai số.
gen log_wage = 1.5 + 0.1*education + 0.4*ability + rnormal(0, 0.5)

* --- Bước 5: Hoàn thiện và lưu dữ liệu ---

* Gán nhãn cho các biến để dễ hiểu
label variable log_wage "Log của thu nhập hàng tháng"
label variable education "Số năm đi học"
label variable ability "Năng lực không quan sát được"
label variable distance_college "Khoảng cách đến trường ĐH (km)"

* Xem qua thống kê mô tả
summarize log_wage education distance_college ability

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "iv_student_data.dta", replace

📚 Bài tiếp theo: Hiểu về nội sinh và biến công cụ

💡 Lưu ý: Hãy đảm bảo bạn đã chạy đoạn code trên và lưu lại tệp dữ liệu. Chúng ta sẽ cần nó cho các bài thực hành sắp tới!

Back to top button