Giới thiệu lý thuyết hồi quy tuyến tính

An Introduction to the Theory of Linear Regression

Tại sao cần học lý thuyết kinh tế lượng?

Chào các bạn sinh viên, có lẽ nhiều bạn sẽ tự hỏi: “Tại sao một nhà kinh tế lượng ứng dụng lại cần bận tâm đến việc học lý thuyết kinh tế lượng?” Câu trả lời nằm ở việc biến phần mềm thống kê của bạn từ một “chiếc hộp đen” bí ẩn thành một bộ công cụ linh hoạt, nơi bạn có thể tự tin lựa chọn công cụ phù hợp nhất cho công việc của mình. Hiểu biết về lý thuyết kinh tế lượng giúp bạn trân trọng cách các công cụ này hoạt động và nhận thức rõ những giả định cần thiết để chúng vận hành một cách chính xác. Quan trọng hơn cả, kiến thức lý thuyết giúp bạn nhận ra khi nào một công cụ sẽ không hoạt động tốt trong một ứng dụng cụ thể và khi nào bạn nên tìm kiếm một phương pháp tiếp cận kinh tế lượng khác.

Chuỗi bài viết này sẽ cung cấp một phần giới thiệu về lý thuyết kinh tế lượng của hồi quy tuyến tính với một biến giải thích. Loạt bài này được thiết kế để bổ sung—chứ không thay thế—cho kiến thức nền tảng mà các bạn đã học. Chúng ta sẽ đi sâu hơn vào hai khía cạnh chính: nền tảng toán học của các phân phối lấy mẫu và một phương pháp thay thế để xử lý hiện tượng phương sai của sai số thay đổi (heteroskedasticity). Mục tiêu cuối cùng là trang bị cho các bạn một sự hiểu biết sâu sắc, giúp các bạn không chỉ là người sử dụng công cụ, mà còn là một nhà phân tích có tư duy phản biện.

BA KHÁI NIỆM CỐT LÕI SẼ HỌC

  • Lý thuyết tiệm cận (Asymptotic Theory): Khám phá cách các ước lượng và thống kê hoạt động khi kích thước mẫu rất lớn, đây là nền tảng cho hầu hết các suy luận thống kê trong kinh tế lượng hiện đại.
  • Ước lượng OLS (OLS Estimator): Đi sâu vào bản chất toán học của ước lượng Bình phương Tối thiểu Thông thường, hiểu rõ tại sao nó là một công cụ mạnh mẽ và khi nào các thuộc tính tốt của nó được phát huy.
  • Bình phương Tối thiểu có Trọng số (WLS): Học một phương pháp thay thế cho OLS, được thiết kế để hiệu quả hơn khi đối mặt với vấn đề phương sai của sai số thay đổi.

CẤU TRÚC CHUỖI BÀI HỌC

  1. Nền tảng lý thuyết tiệm cận và các giả định OLS
    Giúp bạn xây dựng nền tảng vững chắc về các giả định và các định lý thống kê quan trọng nhất.
  2. Phân phối tiệm cận của ước lượng OLS
    Trang bị cho bạn khả năng diễn giải và chứng minh các thuộc tính của ước lượng OLS trong mẫu lớn.
  3. Phân phối chính xác và phương pháp WLS
    Khám phá các trường hợp đặc biệt và học một phương pháp hiệu quả để xử lý phương sai sai số thay đổi.
  4. Hướng dẫn thực hành OLS và WLS với Stata
    Biến lý thuyết thành kỹ năng thực tế qua một case study chi tiết từ A đến Z trên phần mềm Stata.
  5. Tổng hợp lý thuyết hồi quy tuyến tính
    Cung cấp một cái nhìn tổng quan, kết nối tất cả kiến thức và gợi mở những hướng nghiên cứu nâng cao.

KIẾN THỨC TIÊN QUYẾT

  • Toán học cơ bản: Các khái niệm về giới hạn, đạo hàm và các phép toán ma trận cơ bản.
  • Thống kê căn bản: Phân phối xác suất, kỳ vọng, phương sai, hiệp phương sai, và các định lý thống kê cơ bản.
  • Kinh tế lượng nhập môn: Hiểu biết vững chắc về mô hình hồi quy tuyến tính đơn, ước lượng OLS và ý nghĩa của các giả định Gauss-Markov.
  • Stata cơ bản: Quen thuộc với giao diện Stata, cách nhập liệu, và thực hiện các lệnh hồi quy cơ bản (regress).

MỤC TIÊU HỌC TẬP

  • Nắm vững nền tảng lý thuyết của phân phối tiệm cận và các giả định OLS mở rộng.
  • Vận dụng thành thạo Stata để ước lượng mô hình OLS và WLS, cũng như thực hiện các kiểm định liên quan.
  • Diễn giải và phân tích kết quả hồi quy một cách sâu sắc, có cơ sở lý thuyết vững chắc.
  • Phát triển tư duy phản biện để lựa chọn phương pháp ước lượng phù hợp trong các bối cảnh nghiên cứu khác nhau.

TÀI LIỆU THAM KHẢO

  • Stock, J. H., & Watson, M. W. (2020). Introduction to Econometrics. Pearson. (Tài liệu gốc của chuỗi bài viết).
  • Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning. (Một tài liệu tham khảo tuyệt vời với nhiều ví dụ ứng dụng).
  • Hamilton, J. D. (1994). Time Series Analysis. Princeton University Press. (Dành cho các bạn muốn tìm hiểu sâu hơn về các chủ đề nâng cao).

PHỤ LỤC: Dữ liệu mô phỏng cho series

Để giúp việc học trở nên trực quan, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài viết. Bộ dữ liệu này mô tả mối quan hệ giữa mức lương, số năm đi học và kinh nghiệm làm việc.

Mô tả biến:

  • wage: Mức lương hàng tháng (đơn vị: triệu VND).
  • education: Số năm đi học chính quy.
  • experience: Số năm kinh nghiệm làm việc.
  • error_term: Sai số ngẫu nhiên.

Các bạn có thể tự tạo bộ dữ liệu này bằng cách chạy các lệnh Stata dưới đây. Điều này sẽ giúp các bạn chủ động hơn trong việc thực hành và kiểm chứng các khái niệm lý thuyết.

Stata
* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* SỐ QUAN SÁT: 1000
* ==================================================

* Xóa dữ liệu cũ và cài đặt số quan sát
clear
set obs 1000

* Đặt seed để kết quả có thể tái lập
set seed 12345

* Tạo biến education (phân phối đều từ 9 đến 22)
gen education = 9 + floor((22-9+1)*runiform())

* Tạo biến experience (có tương quan với education)
gen experience = 5 + 0.5*education + rnormal(0, 5)
replace experience = 0 if experience < 0 // Đảm bảo kinh nghiệm không âm

* Tạo sai số ngẫu nhiên (giả định ban đầu là phương sai không đổi)
gen error_term = rnormal(0, 15)

* Tạo biến phụ thuộc (wage) dựa trên mô hình tuyến tính
* Giả sử mô hình thực tế là: wage = 5 + 2.5*education + 1.2*experience + error
gen wage = 5 + 2.5*education + 1.2*experience + error_term

* Gán nhãn cho các biến để dễ nhận biết
label variable wage "Mức lương hàng tháng (triệu VND)"
label variable education "Số năm đi học"
label variable experience "Số năm kinh nghiệm"

* Lưu dữ liệu để sử dụng cho các bài học sau
save "wage_data_simulated.dta", replace

* Mô tả ngắn gọn bộ dữ liệu vừa tạo
describe
summarize

📚 Bài tiếp theo: Nền tảng lý thuyết tiệm cận và các giả định OLS

💡 Lưu ý: Hãy đảm bảo đã nắm vững các khái niệm chính trong bài này trước khi tiếp tục.

Back to top button