Nền tảng mô hình hồi quy tuyến tính

Chào mừng các bạn sinh viên đến với chuỗi bài học về Mô hình Hồi quy Tuyến tính – một trong những công cụ mạnh mẽ và được sử dụng rộng rãi nhất trong kho tàng kinh tế lượng. Nếu bạn từng thắc mắc làm thế nào các nhà kinh tế có thể ước tính tác động của giáo dục lên thu nhập, hay dự báo nhu cầu tiêu dùng dựa trên giá cả, thì đây chính là điểm khởi đầu hoàn hảo. Trong chuỗi bài viết này, chúng ta sẽ cùng nhau “giải phẫu” mô hình hồi quy, không phải bằng những công thức khô khan, mà bằng cách tiếp cận trực quan, từng bước một. Mục tiêu của chúng ta không chỉ là hiểu lý thuyết, mà còn là có thể tự tin áp dụng nó vào việc phân tích dữ liệu thực tế.

Để làm được điều đó, chúng ta sẽ tập trung vào ba trụ cột kiến thức chính. Đầu tiên là Hàm hồi quy (Regression Function), giúp chúng ta hiểu cách mô tả mối quan hệ trung bình giữa các biến số. Tiếp theo, chúng ta sẽ khám phá các Giả định của mô hình (Model Assumptions) – những “luật chơi” nền tảng để đảm bảo kết quả phân tích của chúng ta đáng tin cậy. Cuối cùng, tất cả lý thuyết sẽ được áp dụng vào thực tế thông qua việc Ước lượng và diễn giải tham số (Parameter Estimation and Interpretation), nơi chúng ta học cách “đọc” những con số để kể câu chuyện đằng sau dữ liệu. Hãy chuẩn bị sẵn sàng, vì sau chuỗi bài này, bạn sẽ có một nền tảng vững chắc để chinh phục những mô hình phức tạp hơn trong tương lai!

Cấu trúc chuỗi bài học

Bài 1: Giới thiệu về mô hình hồi quy tuyến tính
Chúng ta sẽ bắt đầu bằng việc tìm hiểu khái niệm “mô hình” là gì và khám phá cấu trúc cơ bản của mô hình hồi quy tuyến tính.
Bài 2: Các giả định nền tảng: Tuyến tính, Hạng đầy đủ và Tính ngoại sinh
Bài học này sẽ đi sâu vào ba giả định quan trọng nhất, giúp bạn hiểu tại sao chúng là nền móng cho một phân tích hồi quy đáng tin cậy.
Bài 3: Các giả định về sai số và quy trình tạo dữ liệu
Chúng ta sẽ tìm hiểu các giả định còn lại liên quan đến thành phần sai số ngẫu nhiên, bao gồm tính đồng phương sai và phân phối chuẩn của sai số.
Bài 4: Hướng dẫn thực hành phân tích mô hình hồi quy với Stata
Đây là lúc áp dụng tất cả lý thuyết đã học vào thực tế. Chúng ta sẽ cùng nhau phân tích một bộ dữ liệu từ đầu đến cuối bằng Stata.

Kiến thức tiên quyết cần chuẩn bị

Để có thể theo dõi tốt nhất chuỗi bài học này, các bạn nên trang bị trước một số kiến thức nền tảng sau:

Toán học cơ bản: Hiểu biết về đại số tuyến tính (ma trận, véc-tơ) và giải tích (đạo hàm cơ bản) sẽ là một lợi thế lớn.
Thống kê căn bản: Nắm vững các khái niệm như trung bình, phương sai, phân phối xác suất, và các kiểm định giả thuyết đơn giản (ví dụ: t-test).
Kinh tế lượng nhập môn: Có kiến thức sơ bộ về hồi quy OLS đơn giản và ý nghĩa của các hệ số hồi quy.
Stata cơ bản: Quen thuộc với giao diện Stata, cách nhập dữ liệu và thực hiện các lệnh cơ bản như describe, summarize, và regress.

Mục tiêu học tập sau chuỗi bài viết

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng:

Hiểu sâu lý thuyết: Nắm vững các khái niệm và toàn bộ các giả định của mô hình hồi quy tuyến tính cổ điển.
Thực hành thành thạo: Sử dụng Stata một cách tự tin để ước lượng mô hình hồi quy và diễn giải các kết quả đầu ra.
Phân tích thực tế: Có khả năng áp dụng mô hình hồi quy để trả lời các câu hỏi nghiên cứu kinh tế đơn giản.
Tư duy phản biện: Nhận biết được khi nào các giả định của mô hình có thể bị vi phạm và hiểu được hệ quả của chúng.

Tài liệu tham khảo chính

Nội dung của chuỗi bài viết này được xây dựng chủ yếu dựa trên các tài liệu kinh điển và uy tín sau:

Chính: Greene, W. H. (2019). Econometric Analysis (8th ed.). Pearson. (Nguồn cốt lõi cho chuỗi bài viết này).
Bổ sung (dễ hiểu): Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach (7th ed.). Cengage Learning.
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Stata Press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan và dễ dàng, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài viết, có tên là student_performance.dta. Bộ dữ liệu này chứa thông tin về kết quả học tập của 200 sinh viên giả định.

Các biến trong dữ liệu:

final_grade: Điểm thi cuối kỳ (thang điểm 100).
study_hours: Số giờ tự học trung bình mỗi tuần.
prior_gpa: Điểm trung bình tích lũy của kỳ trước (thang điểm 4).
attendance: Tỷ lệ tham gia lớp học (từ 0 đến 1).

Các bạn có thể tự tạo bộ dữ liệu này bằng cách chạy đoạn code Stata dưới đây. Hãy lưu nó lại với tên student_performance.dta để sử dụng cho các bài thực hành sau này nhé!

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Tên file: student_performance.dta
* Mục đích: Phân tích các yếu tố ảnh hưởng đến điểm thi cuối kỳ
* ==================================================

* --- Bước 1: Thiết lập ban đầu ---
clear all                   // Xóa mọi dữ liệu đang có trong bộ nhớ
set obs 200                 // Đặt số lượng quan sát là 200 sinh viên
set seed 12345              // Đặt seed để kết quả có thể tái lập lại

* --- Bước 2: Tạo các biến độc lập ---

* Tạo biến điểm GPA kỳ trước (prior_gpa)
* Giả định phân phối chuẩn với trung bình 2.8 và độ lệch chuẩn 0.5
gen prior_gpa = rnormal(2.8, 0.5)
replace prior_gpa = 0 if prior_gpa < 0 // Đảm bảo không có GPA âm
replace prior_gpa = 4 if prior_gpa > 4 // Đảm bảo không vượt quá 4.0

* Tạo biến số giờ học (study_hours)
* Giả định có mối tương quan với GPA, những sinh viên có GPA cao hơn sẽ học nhiều hơn
gen study_hours = 5 + 2 * prior_gpa + rnormal(0, 4)
replace study_hours = 1 if study_hours < 1 // Giả định tối thiểu học 1 giờ/tuần

* Tạo biến tỷ lệ chuyên cần (attendance)
* Giả định phân phối đều từ 0.5 (50%) đến 1 (100%)
gen attendance = 0.5 + (1-0.5)*runiform()

* --- Bước 3: Tạo biến phụ thuộc (final_grade) ---

* Giả định điểm cuối kỳ là một hàm tuyến tính của các biến trên cộng với một sai số ngẫu nhiên
* Hệ số thực (beta) chúng ta đặt trước:
* intercept = 10, beta_gpa = 5, beta_hours = 2, beta_attendance = 15
gen final_grade = 10 + 5*prior_gpa + 2*study_hours + 15*attendance + rnormal(0, 8)

* --- Bước 4: Dán nhãn và lưu dữ liệu ---

label variable final_grade "Điểm thi cuối kỳ (thang 100)"
label variable prior_gpa "Điểm GPA kỳ trước (thang 4)"
label variable study_hours "Số giờ tự học trung bình mỗi tuần"
label variable attendance "Tỷ lệ tham gia lớp học (0-1)"

* Lưu file dữ liệu để sử dụng sau này
save "student_performance.dta", replace

* Xem lại dữ liệu vừa tạo
describe
summarize
list in 1/10

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Tên file: student_performance.dta
* Mục đích: Phân tích các yếu tố ảnh hưởng đến điểm thi cuối kỳ
* ==================================================

* --- Bước 1: Thiết lập ban đầu ---
clear all                   // Xóa mọi dữ liệu đang có trong bộ nhớ
set obs 200                 // Đặt số lượng quan sát là 200 sinh viên
set seed 12345              // Đặt seed để kết quả có thể tái lập lại

* --- Bước 2: Tạo các biến độc lập ---

* Tạo biến điểm GPA kỳ trước (prior_gpa)
* Giả định phân phối chuẩn với trung bình 2.8 và độ lệch chuẩn 0.5
gen prior_gpa = rnormal(2.8, 0.5)
replace prior_gpa = 0 if prior_gpa < 0 // Đảm bảo không có GPA âm
replace prior_gpa = 4 if prior_gpa > 4 // Đảm bảo không vượt quá 4.0

* Tạo biến số giờ học (study_hours)
* Giả định có mối tương quan với GPA, những sinh viên có GPA cao hơn sẽ học nhiều hơn
gen study_hours = 5 + 2 * prior_gpa + rnormal(0, 4)
replace study_hours = 1 if study_hours < 1 // Giả định tối thiểu học 1 giờ/tuần

* Tạo biến tỷ lệ chuyên cần (attendance)
* Giả định phân phối đều từ 0.5 (50%) đến 1 (100%)
gen attendance = 0.5 + (1-0.5)*runiform()

* --- Bước 3: Tạo biến phụ thuộc (final_grade) ---

* Giả định điểm cuối kỳ là một hàm tuyến tính của các biến trên cộng với một sai số ngẫu nhiên
* Hệ số thực (beta) chúng ta đặt trước:
* intercept = 10, beta_gpa = 5, beta_hours = 2, beta_attendance = 15
gen final_grade = 10 + 5*prior_gpa + 2*study_hours + 15*attendance + rnormal(0, 8)

* --- Bước 4: Dán nhãn và lưu dữ liệu ---

label variable final_grade "Điểm thi cuối kỳ (thang 100)"
label variable prior_gpa "Điểm GPA kỳ trước (thang 4)"
label variable study_hours "Số giờ tự học trung bình mỗi tuần"
label variable attendance "Tỷ lệ tham gia lớp học (0-1)"

* Lưu file dữ liệu để sử dụng sau này
save "student_performance.dta", replace

* Xem lại dữ liệu vừa tạo
describe
summarize
list in 1/10