Giới thiệu hồi quy tuyến tính đơn

Introduction to Simple Linear Regression

Chào mừng các bạn sinh viên đã đến với chuỗi bài học về một trong những công cụ mạnh mẽ và nền tảng nhất của kinh tế lượng: mô hình hồi quy tuyến tính. Hãy tưởng tượng bạn là một nhà hoạch định chính sách giáo dục và cần trả lời câu hỏi: “Việc giảm sĩ số lớp học có thực sự cải thiện kết quả thi của học sinh không?”. Hoặc, bạn là một nhà phân tích tài chính muốn dự báo giá cổ phiếu dựa trên các chỉ số kinh tế. Hồi quy tuyến tính chính là chìa khóa giúp chúng ta trả lời những câu hỏi như vậy một cách khoa học, dựa trên dữ liệu.

Trong chuỗi bài học này, chúng ta sẽ bắt đầu với dạng đơn giản nhất của mô hình này – hồi quy tuyến tính với một biến độc lập. Chúng ta sẽ không chỉ học cách “chạy” một mô hình, mà còn phải hiểu sâu sắc bản chất đằng sau nó. Chúng ta sẽ phân biệt rõ ràng giữa hai mục tiêu chính của kinh tế lượng: dự báo (predicting) và suy diễn nhân quả (causal inference). Dự báo giúp chúng ta đưa ra tiên lượng tốt nhất có thể về một biến số, trong khi suy diễn nhân quả giúp chúng ta hiểu được tác động thực sự của một sự can thiệp. Để làm được điều này, chúng ta sẽ tìm hiểu về phương pháp ước lượng phổ biến nhất, Bình phương Tối thiểu Thông thường (OLS), và các giả định quan trọng đi kèm để đảm bảo kết quả của chúng ta đáng tin cậy.

Mục tiêu của chuỗi bài viết này là biến những khái niệm có vẻ trừu tượng thành những công cụ trực quan và dễ áp dụng. Chúng ta sẽ đi từ lý thuyết nền tảng, các công thức toán học, đến việc thực hành từng bước trên phần mềm Stata. Hãy chuẩn bị cho một hành trình khám phá dữ liệu đầy thú vị, nơi những con số biết nói sẽ giúp chúng ta hiểu rõ hơn về thế giới kinh tế – xã hội xung quanh.

CẤU TRÚC CHUỖI BÀI HỌC

  1. Nền tảng mô hình hồi quy tuyến tính đơn
    Tìm hiểu các thành phần cốt lõi của mô hình hồi quy, bao gồm hệ số chặn, hệ số góc và sai số ngẫu nhiên.
  2. Ước lượng OLS và diễn giải kết quả
    Khám phá phương pháp OLS để ước lượng các hệ số từ dữ liệu mẫu và học cách diễn giải ý nghĩa kinh tế của chúng.
  3. Đánh giá độ phù hợp của mô hình
    Sử dụng các thước đo R-squared và SER để đánh giá mức độ mô hình giải thích được sự biến động của dữ liệu.
  4. Các giả định OLS cho suy diễn nhân quả
    Nắm vững ba giả định toán học quan trọng để đảm bảo ước lượng OLS là không chệch và vững cho suy diễn nhân quả.
  5. Phân phối lấy mẫu của các ước lượng OLS
    Hiểu tại sao các ước lượng OLS tuân theo phân phối chuẩn trong mẫu lớn, nền tảng cho kiểm định giả thuyết thống kê.
  6. Thực hành hồi quy đơn toàn diện với Stata
    Áp dụng tất cả kiến thức đã học vào một case study thực tế, từ khâu chuẩn bị dữ liệu đến phân tích kết quả.
  7. Tổng hợp và hệ thống hóa kiến thức
    Hệ thống hóa toàn bộ lý thuyết và phương pháp, kết nối các khái niệm và cung cấp một góc nhìn tổng quan, nâng cao.

KIẾN THỨC TIÊN QUYẾT

  • Toán học cơ bản: Hiểu biết về hàm số tuyến tính (phương trình đường thẳng), các phép toán đại số cơ bản.
  • Thống kê căn bản: Nắm vững các khái niệm về giá trị trung bình, phương sai, độ lệch chuẩn, hiệp phương sai, tương quan và kỳ vọng có điều kiện.
  • Kinh tế lượng nhập môn: Quen thuộc với các khái niệm về tổng thể, mẫu, biến ngẫu nhiên và ước lượng.
  • Stata cơ bản: Biết cách nhập dữ liệu, sử dụng các lệnh cơ bản như describe, summarize, và scatter.

MỤC TIÊU HỌC TẬP

  • Nắm vững lý thuyết về mô hình hồi quy tuyến tính đơn và các giả định nền tảng của phương pháp OLS.
  • Vận dụng thành thạo phần mềm Stata để thực hiện ước lượng, phân tích và trình bày kết quả hồi quy.
  • Phát triển kỹ năng diễn giải các hệ số hồi quy và các thước đo độ phù hợp trong bối cảnh kinh tế thực tế.
  • Phân biệt rõ ràng giữa mục tiêu dự báo và suy diễn nhân quả, và hiểu các điều kiện cần thiết cho mỗi mục tiêu.

TÀI LIỆU THAM KHẢO

  • Stock, J. H., & Watson, M. W. (2020). Introduction to Econometrics, 4th Edition. (Tài liệu gốc cho chuỗi bài viết này).
  • Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach, 7th Edition. (Một tài liệu tham khảo kinh điển, rất trực quan và nhiều ví dụ).
  • Hamilton, J. D. (1994). Time Series Analysis. (Tài liệu nâng cao cho các bạn muốn tìm hiểu sâu hơn về phân tích chuỗi thời gian).

PHỤ LỤC: DỮ LIỆU MÔ PHỎNG CHO SERIES

Để giúp các bạn thực hành song song với việc học lý thuyết, tôi đã tạo một bộ dữ liệu mô phỏng đơn giản về thời gian học và điểm thi. Các bạn có thể tự tạo lại bộ dữ liệu này bằng Stata để tiện theo dõi trong suốt chuỗi bài học.

Stata
* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học Hồi quy
* NGUỒN DỮ LIỆU: 100 sinh viên giả định
* MÔ HÌNH THỰC: exam_score = 50 + 4*study_hours + error
* ==================================================

* Bước 1: Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 100

* Bước 2: Đặt seed để đảm bảo kết quả có thể tái lập
set seed 1234

* Bước 3: Tạo biến ID cho mỗi sinh viên
gen student_id = _n

* Bước 4: Tạo biến thời gian học (study_hours)
* Giả định thời gian học phân phối đều từ 0 đến 15 giờ/tuần
gen study_hours = runiform() * 15

* Bước 5: Tạo sai số ngẫu nhiên (error)
* Giả định sai số có phân phối chuẩn với trung bình 0, độ lệch chuẩn 8
gen error = rnormal(0, 8)

* Bước 6: Tạo biến điểm thi (exam_score) dựa trên mô hình
* Điểm cơ bản là 50, mỗi giờ học thêm giúp tăng 4 điểm, cộng với sai số
gen exam_score = 50 + 4*study_hours + error

* Bước 7 (Tùy chọn): Lưu dữ liệu ra file .csv để sử dụng sau này
export delimited using "student_scores.csv", replace

Mô tả dữ liệu:

  • student_id: Mã số định danh cho mỗi sinh viên.
  • study_hours: Số giờ sinh viên dành để học mỗi tuần.
  • exam_score: Điểm số cuối kỳ của sinh viên (thang điểm 100).

Bộ dữ liệu này được xây dựng dựa trên một mối quan hệ tuyến tính có sẵn, giúp chúng ta dễ dàng kiểm tra xem phương pháp OLS có “tìm lại” được mối quan hệ thực sự này hay không. Chúc các bạn học tốt!

📚 Bài tiếp theo: Nền tảng mô hình hồi quy tuyến tính đơn

💡 Lưu ý: Hãy đọc kỹ các mục tiêu học tập và kiến thức tiên quyết để chuẩn bị tốt nhất cho bài học đầu tiên.

Back to top button