Mô hình hồi quy tuyến tính đơn giản

Chào mừng các bạn sinh viên đã đến với chuỗi bài học nền tảng và quan trọng nhất trong kinh tế lượng! Nếu bạn từng thắc mắc làm thế nào các nhà kinh tế có thể ước tính được những con số như “mỗi năm đi học giúp tăng lương thêm bao nhiêu phần trăm?” hay “chi tiêu quảng cáo ảnh hưởng đến doanh thu như thế nào?”, thì chuỗi bài học này chính là câu trả lời. Chúng ta sẽ cùng nhau khám phá công cụ mạnh mẽ và phổ biến nhất để trả lời những câu hỏi đó: Mô hình Hồi quy Tuyến tính và phương pháp ước lượng Bình phương Tối thiểu Thông thường (OLS).

Đừng lo lắng nếu những thuật ngữ này nghe có vẻ phức tạp. Sứ mệnh của chúng ta là bóc tách từng lớp kiến thức, đi từ những ý tưởng trực quan nhất đến các công thức toán học và cuối cùng là ứng dụng trên phần mềm Stata. Chúng ta sẽ tập trung vào việc xây dựng một sự hiểu biết sâu sắc, thay vì chỉ học thuộc lòng công thức. Trọng tâm của chuỗi bài này là hàm thu nhập Mincer kinh điển, một ví dụ hoàn hảo để thấy OLS hoạt động trong thực tế, giúp chúng ta hiểu rõ hơn về các yếu tố quyết định đến thu nhập.

Để bắt đầu hành trình này, hãy cùng làm quen với ba khái niệm cốt lõi sẽ đồng hành cùng chúng ta:

  • Mô hình Hồi quy Tuyến tính (Linear Regression Model): Một cách để mô tả mối quan hệ giữa một biến kết quả (ví dụ: lương) và một hoặc nhiều biến giải thích (ví dụ: số năm đi học) bằng một phương trình đường thẳng.
  • Ước lượng OLS (Ordinary Least Squares): Phương pháp “thần kỳ” giúp chúng ta tìm ra đường thẳng “khớp nhất” với dữ liệu thực tế, từ đó đưa ra các con số ước lượng cụ thể cho mối quan hệ mà chúng ta quan tâm.
  • Quan hệ Nhân quả (Causality): Mục tiêu cuối cùng của rất nhiều phân tích kinh tế lượng. Chúng ta sẽ tìm hiểu những điều kiện cần thiết để có thể nói rằng “A gây ra B”, chứ không chỉ đơn thuần là “A và B có liên quan đến nhau”.

Hãy chuẩn bị sẵn sàng để xây dựng nền tảng vững chắc nhất cho hành trình chinh phục kinh tế lượng của bạn!

Cấu trúc chuỗi bài học

  1. Bài 1: Nền tảng mô hình hồi quy tuyến tính và quan hệ nhân quả
    Chúng ta sẽ bắt đầu bằng việc tìm hiểu tại sao cần mô hình hồi quy, cách diễn giải các tham số và thảo luận về khái niệm quan hệ nhân quả.
  2. Bài 2: Giả định cốt lõi và cách xây dựng bộ ước lượng OLS
    Bài học này đi sâu vào giả định quan trọng nhất “kỳ vọng có điều kiện bằng không” và từng bước xây dựng công thức toán học cho ước lượng OLS.
  3. Bài 3: Phân tích các tính chất quan trọng của ước lượng OLS
    Chúng ta sẽ tìm hiểu tại sao OLS lại được ưa chuộng đến vậy thông qua các tính chất như không chệch, hiệu quả (BLUE) và xử lý phương sai thay đổi.
  4. Bài 4: Hướng dẫn thực hành và bài tập vận dụng với Stata
    Bài học cuối cùng sẽ tổng hợp kiến thức, hướng dẫn bạn cách chạy mô hình, diễn giải kết quả trên Stata và tự giải một bài tập kinh tế lượng hoàn chỉnh.

KIẾN THỨC TIÊN QUYẾT

  • Toán học cơ bản: Các phép toán đại số, khái niệm về hàm số tuyến tính (y = ax + b).
  • Thống kê căn bản: Hiểu các khái niệm trung bình (mean), phương sai (variance), hiệp phương sai (covariance) và tương quan (correlation).
  • Stata cơ bản: Biết cách mở phần mềm, nhập dữ liệu và sử dụng các lệnh đơn giản như summarize, describe.

MỤC TIÊU HỌC TẬP

  • Hiểu sâu lý thuyết: Nắm vững bản chất của mô hình hồi quy tuyến tính và các giả định nền tảng của phương pháp OLS.
  • Xây dựng công thức: Có khả năng tự mình suy ra công thức của các ước lượng OLS từ các điều kiện bậc nhất.
  • Phân tích thực tế: Sử dụng Stata để ước lượng mô hình hồi quy đơn, đọc và diễn giải kết quả một cách chính xác.
  • Tư duy phản biện: Nhận biết được sự khác biệt giữa tương quan và quan hệ nhân quả, và hiểu được các điều kiện cần để đưa ra kết luận nhân quả.

TÀI LIỆU THAM KHẢO

  • Chính: Francis, A. (2015). Empirical Development Economics – Nguồn tài liệu gốc cho chuỗi bài viết này.
  • Bổ sung: Wooldridge, J.M. (2019). Introductory Econometrics: A Modern Approach – Sách giáo khoa kinh tế lượng nhập môn kinh điển, rất dễ hiểu cho sinh viên.
  • Thực hành: Angrist, J. D., & Pischke, J. S. (2009). Mostly Harmless Econometrics: An Empiricist’s Companion – Cung cấp góc nhìn trực quan và thực tế về các phương pháp kinh tế lượng.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan và dễ dàng thực hành, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản về lương và trình độ học vấn của sinh viên mới tốt nghiệp. Bộ dữ liệu này được thiết kế để dễ hiểu và tập trung vào các khái niệm chính chúng ta sẽ học.

Các bạn hãy mở Stata, copy toàn bộ đoạn code dưới đây và dán vào cửa sổ Do-file Editor, sau đó chạy code để tạo ra file dữ liệu student_wage_data.dta. Chúng ta sẽ sử dụng file này trong suốt chuỗi bài học.

Stata
* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO BÀI HỌC VỀ HỒI QUY OLS
* Mục đích: Tạo một bộ dữ liệu đơn giản, dễ hiểu
* để minh họa mối quan hệ giữa giáo dục và tiền lương.
* ==================================================

* --- Bước 1: Dọn dẹp môi trường làm việc ---
clear all      // Xóa mọi dữ liệu và cài đặt đang có trong bộ nhớ
set obs 500    // Đặt số quan sát (số sinh viên) là 500

* --- Bước 2: Tạo các biến độc lập ---
* Tạo biến số năm đi học (education), phân phối đều từ 10 đến 18 năm
* runiform() tạo số ngẫu nhiên từ 0 đến 1. Ta nhân với 8 rồi cộng 10.
* int() để lấy phần nguyên.
gen education = int(10 + 8 * runiform())

* Tạo biến kinh nghiệm làm việc (experience), từ 0 đến 5 năm
gen experience = int(6 * runiform())

* --- Bước 3: Tạo sai số ngẫu nhiên (u) ---
* Đây là thành phần đại diện cho các yếu tố không quan sát được
* (năng khiếu, may mắn, mạng lưới quan hệ...)
* Giả định nó có phân phối chuẩn với trung bình 0 và độ lệch chuẩn là 2
gen u = rnormal(0, 2)

* --- Bước 4: Xây dựng biến phụ thuộc (log_wage) ---
* Giả sử mối quan hệ "thực" trong tổng thể là:
* log_wage = 1.5 + 0.12*education + 0.05*experience + u
gen log_wage = 1.5 + 0.12 * education + 0.05 * experience + u

* Tạo biến lương thực tế (wage) bằng cách lấy hàm mũ
gen wage = exp(log_wage)

* --- Bước 5: Gán nhãn cho các biến để dễ hiểu hơn ---
label variable log_wage "Log của lương hàng giờ"
label variable wage "Lương hàng giờ (đơn vị: USD)"
label variable education "Số năm đi học"
label variable experience "Số năm kinh nghiệm"

* --- Bước 6: Lưu bộ dữ liệu ---
* Thay "D:\StataData" bằng đường dẫn đến thư mục bạn muốn lưu file
* Ví dụ: "C:\Users\YourName\Documents\Stata"
save "D:\StataData\student_wage_data.dta", replace
* Lệnh 'replace' cho phép ghi đè lên file cũ nếu đã tồn tại

* --- Bước 7: Kiểm tra lại dữ liệu vừa tạo ---
summarize wage education experience

📚 Bài tiếp theo: Nền tảng mô hình hồi quy tuyến tính và quan hệ nhân quả

💡 Lưu ý: Hãy đảm bảo bạn đã chạy thành công code Stata trên và tạo ra file dữ liệu. Việc có sẵn dữ liệu sẽ giúp bạn dễ dàng theo dõi và thực hành cùng chúng tôi trong các bài học kế tiếp.

Back to top button