Tổng quan ngắn gọn về mô hình hồi quy tuyến tính cổ điển

Chào mừng các bạn sinh viên đến với chuỗi bài học về Mô hình Hồi quy Tuyến tính Cổ điển (CLRM), một trong những công cụ nền tảng và quan trọng nhất trong kho tàng kiến thức kinh tế lượng. Dù bạn muốn phân tích tác động của giáo dục đến thu nhập, dự báo giá cổ phiếu, hay đánh giá hiệu quả của một chính sách kinh tế, hồi quy tuyến tính chính là điểm khởi đầu không thể thiếu. Nó giống như việc học bảng chữ cái trước khi bạn có thể đọc và viết thành thạo; nắm vững các nguyên tắc của CLRM sẽ mở ra cánh cửa để bạn khám phá và hiểu thế giới xung quanh qua lăng kính của dữ liệu.

Trong chuỗi bài học này, chúng ta sẽ cùng nhau “giải phẫu” mô hình hồi quy một cách chi tiết và trực quan nhất. Chúng ta sẽ không chỉ dừng lại ở việc “tại sao” phải dùng hồi quy, mà còn đi sâu vào “làm thế nào” để xây dựng, ước lượng và kiểm định mô hình một cách chính xác. Đừng lo lắng về những công thức toán học phức tạp, tôi sẽ dẫn dắt các bạn đi từng bước một, từ những ý tưởng trực quan nhất đến các ứng dụng thực tế. Mục tiêu cuối cùng là giúp các bạn không chỉ hiểu lý thuyết mà còn có thể tự tin áp dụng những kiến thức này vào các bài tập và dự án nghiên cứu của riêng mình bằng phần mềm Stata.

Để bắt đầu, hãy làm quen với ba khái niệm cốt lõi sẽ theo chúng ta trong suốt hành trình này: Hồi quy OLS (phương pháp tìm ra đường thẳng phù hợp nhất với dữ liệu), Ước lượng BLUE (lý do tại sao OLS lại là một phương pháp “tốt”), và Kiểm định giả thuyết (cách chúng ta sử dụng kết quả hồi quy để đưa ra các kết luận thống kê có ý nghĩa).

Cấu trúc chuỗi bài học

Bài 1: Giới thiệu về hồi quy và bình phương nhỏ nhất
Tìm hiểu những ý tưởng cốt lõi đằng sau phân tích hồi quy và cách phương pháp OLS hoạt động một cách trực quan nhất cho người mới bắt đầu.
Bài 2: Ước lượng OLS và các thuật ngữ chính
Đi sâu vào các công thức toán học của OLS và làm quen với các thuật ngữ quan trọng như hàm hồi quy tổng thể và hàm hồi quy mẫu.
Bài 3: Các giả định và tính chất của ước lượng OLS
Khám phá các giả định nền tảng của mô hình hồi quy tuyến tính cổ điển và tại sao OLS được coi là một ước lượng “tốt nhất” (BLUE).
Bài 4: Độ chính xác và sai số chuẩn trong OLS
Học cách đo lường độ tin cậy của các hệ số hồi quy thông qua sai số chuẩn và tìm hiểu các yếu tố nào ảnh hưởng đến chúng.
Bài 5: Nền tảng suy luận thống kê và kiểm định giả thuyết
Bắt đầu hành trình suy luận thống kê, tìm hiểu về giả thuyết không, giả thuyết thay thế, và vai trò của phân phối t trong kinh tế lượng.
Bài 6: Thực hành kiểm định giả thuyết với t-test
Nắm vững hai phương pháp kiểm định chính là kiểm định ý nghĩa và khoảng tin cậy, cùng với cách diễn giải p-value một cách chính xác.
Bài 7: Ứng dụng kiểm định t trong tài chính
Phân tích hai nghiên cứu điển hình trong tài chính để thấy cách các khái niệm lý thuyết được áp dụng vào việc trả lời các câu hỏi thực tế.
Hướng dẫn thực hành hồi quy OLS với Stata
Đây là bài học tổng hợp quan trọng nhất, nơi chúng ta sẽ áp dụng tất cả kiến thức đã học để phân tích một bộ dữ liệu từ A-Z bằng Stata, có hướng dẫn chi tiết từng bước.

KIẾN THỨC TIÊN QUYẾT

Toán học cơ bản: Các phép toán đại số cơ bản, khái niệm về hàm số và đồ thị. Hiểu biết về đạo hàm cơ bản sẽ là một lợi thế.
Thống kê căn bản: Các khái niệm về trung bình, phương sai, độ lệch chuẩn, hiệp phương sai và tương quan. Quen thuộc với phân phối xác suất là cần thiết.
Kinh tế lượng nhập môn: Hiểu biết sơ bộ về mục đích của kinh tế lượng. Không yêu cầu kiến thức sâu về hồi quy từ trước.
Stata cơ bản: Biết cách khởi động Stata, mở tệp dữ liệu (.dta), và sử dụng các lệnh cơ bản như describe và summarize.

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Nắm vững các khái niệm từ hồi quy đơn, các giả định CLRM, đến các nguyên tắc kiểm định giả thuyết.
Thực hành thành thạo: Sử dụng Stata một cách tự tin để chạy mô hình hồi quy OLS, tính toán và diễn giải các kết quả chính.
Phân tích thực tế: Có khả năng đọc và hiểu kết quả hồi quy trong các bài báo nghiên cứu và áp dụng để trả lời các câu hỏi kinh tế đơn giản.
Tư duy phản biện: Nhận biết được các giả định đằng sau mô hình và hiểu được tầm quan trọng của chúng đối với độ tin cậy của kết quả.

TÀI LIỆU THAM KHẢO

Chính: Brooks, C. (2019). Introductory Econometrics for Finance. Cambridge University Press. (Tài liệu gốc cho chuỗi bài viết này).
Bổ sung: Wooldridge, J.M. (2019). Introductory Econometrics: A Modern Approach. Cengage Learning. (Một cuốn sách giáo khoa tuyệt vời với nhiều ví dụ thực tế).
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Stata Press. (Tài liệu tham khảo nâng cao cho các ứng dụng Stata).

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan và dễ dàng, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng đơn giản trong suốt chuỗi bài viết. Bộ dữ liệu này khảo sát mối quan hệ giữa mức lương khởi điểm của sinh viên mới tốt nghiệp và các yếu tố như điểm trung bình (GPA), kinh nghiệm thực tập và ngành học. Dữ liệu này được thiết kế để dễ hiểu và phù hợp cho mục đích học tập.

Hãy mở Stata và chạy đoạn code dưới đây để tạo và lưu tệp dữ liệu grad_salary.dta. Chúng ta sẽ sử dụng tệp này trong các bài học sau.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO SINH VIÊN
* Chủ đề: Lương khởi điểm của sinh viên mới tốt nghiệp
* Mục đích: Dữ liệu sạch, dễ hiểu để thực hành hồi quy OLS
* ==================================================

* Xóa bộ nhớ Stata để bắt đầu
clear
set obs 1000 // Tạo 1000 quan sát (sinh viên)

* Đặt một seed để kết quả có thể tái lặp lại
set seed 12345

* --- TẠO CÁC BIẾN ĐỘC LẬP ---

* 1. Điểm trung bình (GPA), giả sử phân phối đều từ 2.5 đến 4.0
* runiform() tạo số ngẫu nhiên từ 0 đến 1
gen gpa = 2.5 + (4.0 - 2.5) * runiform()
label var gpa "Điểm trung bình (GPA) hệ 4"

* 2. Số kỳ thực tập (internships), từ 0 đến 4
* round(x, y) làm tròn số x đến bội số gần nhất của y
gen internships = round(4 * runiform(), 1)
label var internships "Số kỳ thực tập đã hoàn thành"

* 3. Ngành học STEM (Khoa học, Công nghệ, Kỹ thuật, Toán)
* Biến giả: 1 nếu là ngành STEM, 0 nếu không phải
gen is_stem = (runiform() > 0.6) // Giả sử 40% sinh viên học STEM
label var is_stem "Là sinh viên ngành STEM (1=Có, 0=Không)"

* --- TẠO BIẾN PHỤ THUỘC (LƯƠNG) DỰA TRÊN MỘT MÔ HÌNH "THỰC" ---
* Giả sử mối quan hệ thực (PRF) trong tổng thể là:
* Luong = 5 + 3*GPA + 1.5*Internships + 4*is_STEM + nhieu
* Các hệ số này là các giá trị "thực" mà chúng ta sẽ cố gắng ước lượng

* Tạo thành phần nhiễu ngẫu nhiên (u_t)
* rnormal(0, 2) tạo ra các số ngẫu nhiên từ phân phối chuẩn
* có trung bình 0 và độ lệch chuẩn 2
gen u = rnormal(0, 2)

* Tạo biến lương (salary) theo mô hình trên
gen salary = 5 + 3*gpa + 1.5*internships + 4*is_stem + u
label var salary "Lương khởi điểm hàng tháng (triệu VND)"

* --- LƯU DỮ LIỆU ---

* Lưu bộ dữ liệu vào thư mục làm việc hiện tại của bạn
* Bạn có thể tìm thư mục làm việc bằng lệnh "pwd"
save "grad_salary.dta", replace
compress // Nén dữ liệu để tiết kiệm dung lượng

* Xem qua dữ liệu vừa tạo
describe
summarize
list in 1/10 // Xem 10 quan sát đầu tiên

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO SINH VIÊN
* Chủ đề: Lương khởi điểm của sinh viên mới tốt nghiệp
* Mục đích: Dữ liệu sạch, dễ hiểu để thực hành hồi quy OLS
* ==================================================

* Xóa bộ nhớ Stata để bắt đầu
clear
set obs 1000 // Tạo 1000 quan sát (sinh viên)

* Đặt một seed để kết quả có thể tái lặp lại
set seed 12345

* --- TẠO CÁC BIẾN ĐỘC LẬP ---

* 1. Điểm trung bình (GPA), giả sử phân phối đều từ 2.5 đến 4.0
* runiform() tạo số ngẫu nhiên từ 0 đến 1
gen gpa = 2.5 + (4.0 - 2.5) * runiform()
label var gpa "Điểm trung bình (GPA) hệ 4"

* 2. Số kỳ thực tập (internships), từ 0 đến 4
* round(x, y) làm tròn số x đến bội số gần nhất của y
gen internships = round(4 * runiform(), 1)
label var internships "Số kỳ thực tập đã hoàn thành"

* 3. Ngành học STEM (Khoa học, Công nghệ, Kỹ thuật, Toán)
* Biến giả: 1 nếu là ngành STEM, 0 nếu không phải
gen is_stem = (runiform() > 0.6) // Giả sử 40% sinh viên học STEM
label var is_stem "Là sinh viên ngành STEM (1=Có, 0=Không)"

* --- TẠO BIẾN PHỤ THUỘC (LƯƠNG) DỰA TRÊN MỘT MÔ HÌNH "THỰC" ---
* Giả sử mối quan hệ thực (PRF) trong tổng thể là:
* Luong = 5 + 3*GPA + 1.5*Internships + 4*is_STEM + nhieu
* Các hệ số này là các giá trị "thực" mà chúng ta sẽ cố gắng ước lượng

* Tạo thành phần nhiễu ngẫu nhiên (u_t)
* rnormal(0, 2) tạo ra các số ngẫu nhiên từ phân phối chuẩn
* có trung bình 0 và độ lệch chuẩn 2
gen u = rnormal(0, 2)

* Tạo biến lương (salary) theo mô hình trên
gen salary = 5 + 3*gpa + 1.5*internships + 4*is_stem + u
label var salary "Lương khởi điểm hàng tháng (triệu VND)"

* --- LƯU DỮ LIỆU ---

* Lưu bộ dữ liệu vào thư mục làm việc hiện tại của bạn
* Bạn có thể tìm thư mục làm việc bằng lệnh "pwd"
save "grad_salary.dta", replace
compress // Nén dữ liệu để tiết kiệm dung lượng

* Xem qua dữ liệu vừa tạo
describe
summarize
list in 1/10 // Xem 10 quan sát đầu tiên

Hướng dẫn sử dụng:

Sao chép toàn bộ đoạn code trên.
Mở phần mềm Stata.
Mở cửa sổ “Do-file Editor” (bằng cách nhấp vào biểu tượng trông giống như một cuốn sổ tay hoặc gõ lệnh doedit).
Dán đoạn code vào Do-file Editor và chạy nó (nhấp vào nút “Execute (Do)”).
Một tệp có tên grad_salary.dta sẽ được tạo trong thư mục làm việc của bạn. Chúng ta đã sẵn sàng cho các bài học tiếp theo!

📚 Bài tiếp theo: Giới thiệu về hồi quy và bình phương nhỏ nhất

💡 Lưu ý: Hãy đảm bảo bạn đã tạo thành công bộ dữ liệu mô phỏng. Việc chuẩn bị sẵn sàng công cụ và dữ liệu sẽ giúp bạn tập trung hoàn toàn vào các khái niệm kinh tế lượng trong bài học tới.