Giới thiệu hồi quy bội cho sinh viên

An Introduction to Multiple Regression for Students

Chào các bạn sinh viên, chào mừng đến với một trong những chương học quan trọng và thú vị nhất trong hành trình chinh phục kinh tế lượng. Ở các bài học trước, chúng ta đã làm quen với hồi quy tuyến tính đơn – một công cụ mạnh mẽ để phân tích mối quan hệ giữa hai biến. Tuy nhiên, thế giới thực tế lại phức tạp hơn nhiều. Quyết định chi tiêu của một gia đình không chỉ phụ thuộc vào thu nhập, mà còn bị ảnh hưởng bởi số thành viên, độ tuổi, nơi ở, và nhiều yếu tố khác. Tương tự, điểm thi của học sinh không chỉ do sĩ số lớp quyết định.

Vậy làm thế nào để chúng ta có thể phân tích tác động của một yếu tố trong khi vẫn “kiểm soát” được ảnh hưởng của các yếu tố khác? Câu trả lời nằm ở hồi quy tuyến tính bội (Multiple Linear Regression). Đây là một sự mở rộng tự nhiên và mạnh mẽ của hồi quy đơn, cho phép chúng ta đưa nhiều biến giải thích vào mô hình cùng một lúc. Việc này không chỉ giúp mô hình của chúng ta trở nên thực tế hơn mà còn giúp giải quyết một vấn đề nghiêm trọng trong hồi quy đơn: thiên lệch do biến bị bỏ sót (Omitted Variable Bias). Trong chuỗi bài học này, chúng ta sẽ cùng nhau khám phá từ lý thuyết nền tảng đến các ứng dụng thực tế của hồi quy bội, một kỹ năng không thể thiếu cho bất kỳ nhà phân tích dữ liệu hay nhà nghiên cứu kinh tế nào.

Để bắt đầu, hãy làm quen với ba khái niệm cốt lõi sẽ đồng hành cùng chúng ta:

  • Thiên lệch do biến bị bỏ sót: Tình huống mà một biến quan trọng bị bỏ quên khỏi mô hình, làm cho ước lượng của chúng ta bị chệch khỏi giá trị thực.
  • Hồi quy bội: Kỹ thuật cho phép ước lượng tác động riêng phần của từng biến độc lập lên biến phụ thuộc, trong khi giữ các biến khác không đổi.
  • Đa cộng tuyến: Hiện tượng các biến độc lập trong mô hình có mối tương quan mạnh với nhau, có thể gây khó khăn cho việc ước lượng.

CẤU TRÚC CHUỖI BÀI HỌC

  1. Hiểu rõ thiên lệch do biến bị bỏ sót
    Khám phá tại sao hồi quy đơn là chưa đủ và tại sao chúng ta cần một công cụ mạnh mẽ hơn.
  2. Mô hình hồi quy bội và ước lượng OLS
    Xây dựng và diễn giải mô hình hồi quy với nhiều biến, tìm hiểu cách Stata ước lượng các hệ số.
  3. Các thước đo độ phù hợp của mô hình
    Học cách đánh giá một mô hình hồi quy bội là “tốt” hay “chưa tốt” qua SER và R-squared.
  4. Các giả định OLS và phân phối của ước lượng
    Nắm vững nền tảng lý thuyết để đảm bảo các ước lượng của chúng ta đáng tin cậy cho suy luận thống kê.
  5. Hiện tượng đa cộng tuyến trong thực tế
    Nhận biết, chẩn đoán và xử lý một trong những vấn đề phổ biến nhất khi làm việc với dữ liệu thực.
  6. Biến kiểm soát và suy luận nhân quả
    Phân biệt vai trò của các biến trong mô hình để tiến gần hơn đến việc ước lượng mối quan hệ nhân quả.
  7. Thực hành phân tích hồi quy bội với Stata
    Áp dụng toàn bộ kiến thức vào một case study hoàn chỉnh, từ làm sạch dữ liệu đến phân tích kết quả.
  8. Tổng hợp kiến thức về hồi quy bội
    Hệ thống hóa lại toàn bộ kiến thức, cung cấp một cái nhìn tổng quan và định hướng cho các chủ đề nâng cao.

KIẾN THỨC TIÊN QUYẾT

  • Thống kê căn bản: Hiểu về kỳ vọng, phương sai, hiệp phương sai, tương quan, phân phối chuẩn và kiểm định giả thuyết.
  • Kinh tế lượng nhập môn: Nắm vững mô hình hồi quy tuyến tính đơn, các giả định OLS cơ bản và cách diễn giải hệ số.
  • Stata cơ bản: Quen thuộc với các lệnh cơ bản như use, describe, summarize, regress, và scatter.

MỤC TIÊU HỌC TẬP

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng:

  • Giải thích được khái niệm thiên lệch do biến bị bỏ sót và tại sao hồi quy bội có thể giải quyết vấn đề này.
  • Xây dựng, ước lượng và diễn giải kết quả từ mô hình hồi quy bội một cách chính xác.
  • Sử dụng thành thạo các thước đo độ phù hợp để so sánh và lựa chọn mô hình.
  • Vận dụng Stata để thực hiện một phân tích hồi quy bội hoàn chỉnh và diễn giải kết quả một cách chuyên nghiệp.
  • Nhận biết và xử lý các vấn đề thực tế như đa cộng tuyến và lựa chọn biến kiểm soát phù hợp.

TÀI LIỆU THAM KHẢO

  • Stock, J. H., & Watson, M. W. (2020). Introduction to Econometrics, 4th Edition. (Tài liệu gốc của chuỗi bài viết này).
  • Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach, 7th Edition. (Một tài liệu tham khảo kinh điển khác với nhiều ví dụ ứng dụng).
  • Hamilton, J. D. (1994). Time Series Analysis. (Dành cho các bạn muốn tìm hiểu sâu hơn về các mô hình kinh tế lượng nâng cao).

PHỤ LỤC: DỮ LIỆU MÔ PHỎNG CHO SERIES

Để giúp việc học trở nên trực quan, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài. Bộ dữ liệu này chứa thông tin về điểm thi, sĩ số lớp và các đặc điểm khác của 420 khu học chánh giả định. Các bạn có thể tự tạo lại bộ dữ liệu này bằng các lệnh Stata dưới đây.

Stata
* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học về Hồi quy bội
* NGUỒN DỮ LIỆU: Dữ liệu giả định về 420 khu học chánh
* TÁC GIẢ: Giáo sư Kinh tế lượng
* ==================================================

* Bước 1: Xóa dữ liệu cũ và thiết lập số quan sát
clear
set obs 420
set seed 123 // Đảm bảo kết quả có thể tái lập

* Bước 2: Tạo các biến độc lập
* str: Tỷ lệ sinh viên/giáo viên (sĩ số lớp trung bình)
gen str = 14 + 6 * runiform()

* pctel: Tỷ lệ học sinh nói tiếng Anh như ngôn ngữ thứ hai
gen pctel = 50 * runiform()

* income: Thu nhập trung bình của phụ huynh trong khu vực (đơn vị: nghìn USD)
gen income = 20 + 80 * runiform()

* Bước 3: Tạo sai số ngẫu nhiên (thành phần không quan sát được)
gen u = 15 * rnormal()

* Bước 4: Tạo biến phụ thuộc (điểm thi) dựa trên một mô hình "thực"
* Giả định mô hình thực của tổng thể là:
* TestScore = 680 - 1.1*str - 0.6*pctel + 0.3*income + u
gen testscr = 680 - 1.1*str - 0.6*pctel + 0.3*income + u

* Bước 5: Gán nhãn cho các biến để dễ hiểu
label variable testscr "Điểm thi trung bình của khu học chánh"
label variable str "Tỷ lệ sinh viên trên giáo viên"
label variable pctel "Phần trăm học sinh tiếng Anh (ESL)"
label variable income "Thu nhập trung bình của phụ huynh (nghìn USD)"

* Bước 6: Lưu dữ liệu để sử dụng cho các bài học sau
compress
save "california_scores_simulated.dta", replace

* Bước 7: Xem qua dữ liệu vừa tạo
describe
summarize

📚 Bài tiếp theo: Hiểu rõ thiên lệch do biến bị bỏ sót

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.

🎯 Self-check: Bạn có thể giải thích tại sao hồi quy đơn có thể đưa ra kết luận sai lầm trong thực tế không?

Back to top button