Phát triển và phân tích sâu hơn mô hình hồi quy tuyến tính cổ điển

Chào mừng các bạn sinh viên đã quay trở lại với hành trình khám phá kinh tế lượng! Ở các bài học trước, chúng ta đã làm quen với mô hình hồi quy tuyến tính đơn giản, một công cụ mạnh mẽ để hiểu mối quan hệ giữa hai biến. Tuy nhiên, thế giới tài chính và kinh tế trong thực tế lại phức tạp hơn nhiều. Lợi nhuận của một cổ phiếu không chỉ phụ thuộc vào lợi nhuận của thị trường chung, mà còn có thể bị ảnh hưởng bởi lãi suất, tỷ giá lạm phát, hay các đặc điểm riêng của công ty đó. Đây chính là lúc chúng ta cần một công cụ nâng cao hơn: mô hình hồi quy tuyến tính bội.

Trong chuỗi 7 bài học sắp tới, chúng ta sẽ cùng nhau đi sâu vào việc phát triển và phân tích mô hình hồi quy tuyến tính cổ điển. Chúng ta sẽ học cách xây dựng những mô hình thực tế hơn bằng cách đưa vào nhiều biến giải thích, từ đó có được cái nhìn đa chiều và chính xác hơn về các vấn đề kinh tế. Đừng lo lắng nếu bạn thấy các khái niệm ban đầu có vẻ trừu tượng. Với vai trò là người hướng dẫn, tôi sẽ dẫn dắt các bạn đi qua từng khái niệm, từng công thức một cách trực quan và dễ hiểu nhất, kết hợp chặt chẽ giữa lý thuyết nền tảng và các ví dụ thực hành sinh động trên phần mềm Stata. Mục tiêu cuối cùng là giúp các bạn không chỉ hiểu, mà còn có thể tự tin áp dụng những kỹ thuật này vào các bài tập và dự án nghiên cứu của riêng mình.

Để bắt đầu, hãy nắm vững ba khái niệm cốt lõi sẽ là kim chỉ nam cho chúng ta trong suốt chuỗi bài học này:

  • Hồi quy tuyến tính bội (Multiple Linear Regression): Đây là phiên bản mở rộng của hồi quy đơn, cho phép chúng ta xem xét tác động đồng thời của nhiều biến độc lập lên một biến phụ thuộc.
  • Kiểm định F (F-test): Một công cụ thống kê cực kỳ quan trọng giúp chúng ta kiểm định các giả thuyết phức tạp liên quan đến nhiều hệ số hồi quy cùng một lúc, chẳng hạn như kiểm tra xem một nhóm các biến có thực sự ảnh hưởng đến mô hình hay không.
  • R-squared điều chỉnh (Adjusted R-squared): Một thước đo quen thuộc để đánh giá mức độ phù hợp của mô hình, nhưng đã được “cải tiến” để không bị “đánh lừa” khi chúng ta thêm quá nhiều biến không cần thiết vào mô hình.

Hãy chuẩn bị sẵn sàng, chúng ta sẽ bắt đầu một chương mới đầy thú vị trong kinh tế lượng. Tôi tin rằng sau chuỗi bài học này, các bạn sẽ có một nền tảng vững chắc hơn rất nhiều để phân tích các vấn đề tài chính phức tạp.

Cấu trúc chuỗi bài học

  1. Từ hồi quy đơn đến hồi quy bội: những khái niệm nền tảng
    Chúng ta sẽ tìm hiểu lý do cần mở rộng mô hình và cách diễn giải ý nghĩa của các hệ số trong bối cảnh có nhiều biến giải thích.
  2. Ước lượng OLS trong hồi quy bội bằng đại số ma trận
    Bài học này sẽ giải mã phần toán học “khó nhằn” một cách trực quan, giúp bạn hiểu rõ bản chất của công thức ước lượng OLS.
  3. Kiểm định giả thuyết cho nhiều hệ số với kiểm định F
    Chúng ta sẽ học cách sử dụng kiểm định F để trả lời các câu hỏi nghiên cứu phức tạp hơn, so sánh các mô hình với nhau.
  4. Đánh giá độ phù hợp của mô hình: R-squared và các vấn đề liên quan
    Bài học tập trung vào cách diễn giải đúng đắn R-squared, R-squared điều chỉnh và nhận biết những hạn chế của chúng khi đánh giá mô hình.
  5. Các chủ đề quan trọng trong hồi quy: biến giả và khai thác dữ liệu
    Chúng ta sẽ học cách đưa thông tin định tính vào mô hình và tìm hiểu những cạm bẫy cần tránh để không đưa ra kết luận sai lầm.
  6. Giới thiệu về hồi quy phân vị (Quantile Regression)
    Khám phá một phương pháp nâng cao cho phép phân tích tác động của các biến lên toàn bộ phân phối của biến phụ thuộc, thay vì chỉ trung bình.
  7. Hướng dẫn thực hành hồi quy bội và kiểm định giả thuyết với Stata
    Bài học tổng hợp cuối cùng, nơi chúng ta sẽ áp dụng tất cả lý thuyết đã học để phân tích một bộ dữ liệu từ đầu đến cuối.

KIẾN THỨC TIÊN QUYẾT

  • Toán học cơ bản: Các phép toán đại số tuyến tính cơ bản (ma trận, véc-tơ). Không cần quá sâu, chúng ta sẽ cùng nhau ôn lại.
  • Thống kê căn bản: Hiểu về giá trị trung bình, phương sai, kiểm định t-test cho một hệ số hồi quy.
  • Kinh tế lượng nhập môn: Nắm vững mô hình hồi quy OLS đơn giản, ý nghĩa của hệ số chặn và hệ số góc.
  • Stata cơ bản: Biết cách nhập dữ liệu, sử dụng các lệnh cơ bản như describe, summarize, và regress cho hồi quy đơn.

MỤC TIÊU HỌC TẬP

  • Hiểu sâu lý thuyết: Nắm vững các khái niệm từ hồi quy bội, kiểm định F, đến các thước đo độ phù hợp của mô hình.
  • Thực hành thành thạo: Sử dụng Stata một cách tự tin để ước lượng, kiểm định và diễn giải kết quả từ mô hình hồi quy bội.
  • Phân tích thực tế: Có khả năng áp dụng các kỹ thuật đã học để phân tích các vấn đề kinh tế – tài chính thực tế.
  • Tư duy phản biện: Nhận biết được các hạn chế của mô hình và các vấn đề tiềm ẩn như “khai thác dữ liệu” để trở thành một nhà phân tích cẩn trọng.

TÀI LIỆU THAM KHẢO

  • Chính: Brooks, C. (2019). Introductory Econometrics for Finance. Cambridge university press. (Chương 4).
  • Bổ sung (dễ hiểu): Wooldridge, J.M. (2019). Introductory Econometrics: A Modern Approach. Cengage learning.
  • Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics using Stata. Stata press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan và dễ dàng, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng xuyên suốt chuỗi bài viết này. Bộ dữ liệu này được thiết kế đơn giản, tập trung vào các khái niệm chính mà không bị làm nhiễu bởi các vấn đề dữ liệu phức tạp. Chúng ta sẽ nghiên cứu các yếu tố ảnh hưởng đến tiền lương của sinh viên mới ra trường.

Hãy mở Stata và chạy đoạn code dưới đây để tự tạo bộ dữ liệu. Đừng quên lưu nó lại với tên grad_salary.dta để sử dụng cho các bài học sau nhé!

Stata
* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG VỀ LƯƠNG SINH VIÊN
* Mục đích: Tạo một bộ dữ liệu đơn giản để thực hành hồi quy bội.
* Tác giả: Giáo sư Kinh tế lượng
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 1000

* Đặt một seed để kết quả có thể tái lặp lại được
set seed 12345

* ----- TẠO CÁC BIẾN GIẢI THÍCH -----

* 1. Điểm GPA (Grade Point Average) của sinh viên
* Giả định GPA tuân theo phân phối chuẩn với trung bình 3.2 và độ lệch chuẩn 0.4
* Chúng ta cũng giới hạn giá trị trong khoảng [2.0, 4.0]
gen gpa = rnormal(3.2, 0.4)
replace gpa = 2.0 if gpa < 2.0
replace gpa = 4.0 if gpa > 4.0

* 2. Số kỳ thực tập (internships)
* Giả định số kỳ thực tập tuân theo phân phối Poisson với trung bình là 2
gen internships = rpoisson(2)

* 3. Biến giả cho ngành học STEM (Khoa học, Công nghệ, Kỹ thuật, Toán)
* Giả định 40% sinh viên học ngành STEM (is_stem = 1)
gen is_stem = rbinomial(1, 0.4)

* ----- TẠO BIẾN PHỤ THUỘC (LƯƠNG) -----

* Giả định một mối quan hệ tuyến tính thực sự trong tổng thể
* Lương khởi điểm (triệu VND/tháng) = 10 + 3*GPA + 1.5*Internships + 5*STEM + sai số
gen salary = 10 + 3*gpa + 1.5*internships + 5*is_stem + rnormal(0, 3)

* ----- HOÀN THIỆN BỘ DỮ LIỆU -----

* Gán nhãn cho các biến để dễ hiểu hơn
label variable salary "Lương khởi điểm (triệu VND/tháng)"
label variable gpa "Điểm GPA hệ 4"
label variable internships "Số kỳ thực tập đã tham gia"
label variable is_stem "Là sinh viên ngành STEM (1=Có, 0=Không)"

* Xem qua 5 dòng dữ liệu đầu tiên
list in 1/5

* Lưu bộ dữ liệu để sử dụng cho các bài học tiếp theo
* Hãy chắc chắn rằng bạn đã thay đổi đường dẫn đến thư mục làm việc của mình
* cd "D:/HocTap/KinhTeLuong" 
save "grad_salary.dta", replace

Sau khi chạy xong đoạn code trên, bạn sẽ có một file dữ liệu tên là grad_salary.dta. File này chứa thông tin về lương, điểm GPA, số kỳ thực tập và ngành học của 1000 sinh viên giả định. Chúng ta sẽ dùng chính bộ dữ liệu này để ước lượng các mô hình và kiểm định các giả thuyết trong những bài học tới.

📚 Bài tiếp theo: Từ hồi quy đơn đến hồi quy bội: những khái niệm nền tảng

💡 Lưu ý: Hãy đảm bảo bạn đã chạy code và tạo thành công bộ dữ liệu grad_salary.dta. Việc chuẩn bị sẵn sàng dữ liệu sẽ giúp bạn theo dõi các bài thực hành sau này một cách dễ dàng hơn.

Back to top button