Các phương pháp dựa trên lựa chọn các biến quan sát được

Chào mừng các bạn sinh viên đến với chuỗi bài học về các phương pháp đánh giá tác động trong kinh tế lượng. Trong thế giới thực, chúng ta hiếm khi có được dữ liệu từ các thí nghiệm ngẫu nhiên có kiểm soát hoàn hảo. Thay vào đó, chúng ta thường phải làm việc với dữ liệu quan sát, nơi các cá nhân, doanh nghiệp, hay chính phủ tự lựa chọn tham gia (hoặc không tham gia) vào một chương trình, chính sách nào đó. Điều này tạo ra một thách thức lớn gọi là “thiên kiến lựa chọn” (selection bias), khiến việc so sánh đơn giản giữa nhóm tham gia và không tham gia trở nên sai lệch.

May mắn thay, các nhà kinh tế lượng đã phát triển một bộ công cụ mạnh mẽ để giải quyết vấn đề này, dựa trên một giả định quan trọng: “lựa chọn dựa trên các biến quan sát được”. Giả định này cho rằng mọi yếu tố quan trọng ảnh hưởng đến quyết định tham gia đều có thể đo lường và quan sát được trong bộ dữ liệu của chúng ta. Chuỗi bài học này sẽ trang bị cho các bạn những kiến thức nền tảng và kỹ năng thực hành để có thể tự tin ước lượng tác động nhân quả một cách đáng tin cậy từ dữ liệu quan sát.

Chúng ta sẽ cùng nhau khám phá bốn phương pháp trụ cột trong lĩnh vực này. Mỗi phương pháp có một triết lý và cách tiếp cận riêng, nhưng tất cả đều chung một mục tiêu: tách bạch tác động thực sự của chương trình khỏi các yếu tố gây nhiễu. Hãy coi đây là một hành trình xây dựng bộ công cụ phân tích của riêng bạn, bắt đầu từ những viên gạch nền tảng nhất.

Cấu trúc chuỗi bài học

Để giúp các bạn tiếp thu kiến thức một cách có hệ thống, chúng ta sẽ đi qua 6 bài học được thiết kế theo lộ trình từ lý thuyết đến thực hành:

Nền tảng về điều chỉnh hồi quy
Chúng ta sẽ bắt đầu với phương pháp trực quan nhất, học cách dùng mô hình hồi quy để “điều chỉnh” cho sự khác biệt giữa các nhóm.
Giới thiệu về phương pháp so khớp
Khám phá triết lý “táo so với táo”, tìm hiểu cách tạo ra một nhóm đối chứng nhân tạo gần như hoàn hảo từ dữ liệu quan sát.
Kỹ thuật so khớp điểm xu hướng
Học cách sử dụng “điểm xu hướng” – một công cụ mạnh mẽ để đơn giản hóa việc so khớp và áp dụng các kỹ thuật phổ biến nhất.
Phương pháp tái trọng số và ước lượng bền vững kép
Tìm hiểu cách “tái trọng số” dữ liệu để khôi phục lại sự cân bằng và khám phá một phương pháp kết hợp để có kết quả vững chắc hơn.
Phân tích thực hành với hồi quy điều chỉnh và so khớp
Bắt tay vào Stata, áp dụng các phương pháp hồi quy và so khớp vào một bộ dữ liệu thực tế để củng cố kiến thức lý thuyết đã học.
Hướng dẫn thực hành với tái trọng số và so khớp CEM
Nâng cao kỹ năng thực hành của bạn với các kỹ thuật tái trọng số và một phương pháp so khớp hiện đại gọi là Coarsened Exact Matching (CEM).

KIẾN THỨC TIÊN QUYẾT

Để theo dõi tốt nhất chuỗi bài học này, các bạn cần có kiến thức nền tảng về:

Xác suất và Thống kê: Kỳ vọng có điều kiện, các phân phối xác suất cơ bản, kiểm định giả thuyết (t-test).
Kinh tế lượng Nhập môn: Mô hình hồi quy OLS, ý nghĩa của hệ số hồi quy, các giả định của OLS.
Stata Cơ bản: Biết cách nhập dữ liệu, sử dụng các lệnh cơ bản như summarize, regress, và quản lý tệp do-file.

MỤC TIÊU HỌC TẬP

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng:

Hiểu sâu sắc: Nắm vững lý thuyết và các giả định đằng sau bốn phương pháp đánh giá tác động chính.
Thực hành thành thạo: Tự tin sử dụng Stata để áp dụng các phương pháp Điều chỉnh hồi quy, So khớp, và Tái trọng số.
Phân tích và Diễn giải: Đọc và hiểu kết quả từ Stata, diễn giải ý nghĩa kinh tế của các tác động can thiệp.
Tư duy Phản biện: Nhận biết được điểm mạnh, điểm yếu của từng phương pháp và biết cách kiểm tra độ tin cậy của kết quả.

TÀI LIỆU THAM KHẢO CHÍNH

Nguồn chính: Cerulli, G. (2022). Econometric Evaluation of Socio-Economic Programs. Springer. (Chương 2).
Dễ hiểu cho người mới bắt đầu: Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach.
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics: Methods and applications.
Lý thuyết nâng cao: Hansen, B. E. (2022). Econometrics. Princeton University Press.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học và thực hành trở nên nhất quán, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng trong suốt chuỗi bài viết. Bộ dữ liệu này mô phỏng thông tin về lương khởi điểm của 1000 sinh viên mới tốt nghiệp, dựa trên các yếu tố như điểm trung bình (GPA), số kỳ thực tập, và việc học ngành STEM (Khoa học, Công nghệ, Kỹ thuật, Toán).

Hãy mở Stata, tạo một file do-file mới, sao chép toàn bộ đoạn code dưới đây, và chạy nó để tạo ra tệp grad_salary.dta. Chúng ta sẽ sử dụng tệp dữ liệu này trong các bài học thực hành.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Tên file: grad_salary.dta
* Mục đích: Nghiên cứu tác động của các yếu tố đến lương khởi điểm
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 1000
set seed 12345 // Để đảm bảo kết quả có thể tái lập

* --- TẠO CÁC BIẾN ĐỘC LẬP ---

* 1. Điểm GPA (từ 2.5 đến 4.0)
* Phân phối đều để có sự đa dạng
gen gpa = 2.5 + (4 - 2.5) * runiform()

* 2. Số kỳ thực tập (từ 0 đến 4)
* Tạo biến ngẫu nhiên tuân theo phân phối Poisson với trung bình là 1.5
gen internships = rpoisson(1.5)
* Giới hạn số kỳ thực tập tối đa là 4
replace internships = 4 if internships > 4

* 3. Có học ngành STEM hay không (biến nhị phân)
* Giả sử 40% sinh viên học ngành STEM
gen is_stem = (runiform() < 0.4)

* --- TẠO BIẾN PHỤ THUỘC (LƯƠNG) ---

* 1. Tạo thành phần sai số ngẫu nhiên
* Giả định tuân theo phân phối chuẩn với trung bình 0 và độ lệch chuẩn 2
gen error = rnormal(0, 2)

* 2. Xây dựng mô hình lương
* Lương cơ bản là 8 triệu VND
* Mỗi điểm GPA tăng thêm 3 triệu lương
* Mỗi kỳ thực tập tăng thêm 1.5 triệu lương
* Học ngành STEM được cộng thêm 4 triệu lương
gen salary = 8 + 3 * gpa + 1.5 * internships + 4 * is_stem + error

* --- HOÀN THIỆN BỘ DỮ LIỆU ---

* Gán nhãn cho các biến để dễ hiểu
label variable salary "Lương khởi điểm (triệu VND)"
label variable gpa "Điểm GPA hệ 4.0"
label variable internships "Số kỳ thực tập đã hoàn thành"
label variable is_stem "Học ngành STEM (1=Có, 0=Không)"

* Xem qua một vài quan sát đầu tiên
list in 1/10

* Xem thống kê mô tả
summarize

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "grad_salary.dta", replace
di "Tệp dữ liệu grad_salary.dta đã được tạo và lưu thành công!"

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Tên file: grad_salary.dta
* Mục đích: Nghiên cứu tác động của các yếu tố đến lương khởi điểm
* ==================================================

* Xóa bộ nhớ và thiết lập số quan sát
clear
set obs 1000
set seed 12345 // Để đảm bảo kết quả có thể tái lập

* --- TẠO CÁC BIẾN ĐỘC LẬP ---

* 1. Điểm GPA (từ 2.5 đến 4.0)
* Phân phối đều để có sự đa dạng
gen gpa = 2.5 + (4 - 2.5) * runiform()

* 2. Số kỳ thực tập (từ 0 đến 4)
* Tạo biến ngẫu nhiên tuân theo phân phối Poisson với trung bình là 1.5
gen internships = rpoisson(1.5)
* Giới hạn số kỳ thực tập tối đa là 4
replace internships = 4 if internships > 4

* 3. Có học ngành STEM hay không (biến nhị phân)
* Giả sử 40% sinh viên học ngành STEM
gen is_stem = (runiform() < 0.4)

* --- TẠO BIẾN PHỤ THUỘC (LƯƠNG) ---

* 1. Tạo thành phần sai số ngẫu nhiên
* Giả định tuân theo phân phối chuẩn với trung bình 0 và độ lệch chuẩn 2
gen error = rnormal(0, 2)

* 2. Xây dựng mô hình lương
* Lương cơ bản là 8 triệu VND
* Mỗi điểm GPA tăng thêm 3 triệu lương
* Mỗi kỳ thực tập tăng thêm 1.5 triệu lương
* Học ngành STEM được cộng thêm 4 triệu lương
gen salary = 8 + 3 * gpa + 1.5 * internships + 4 * is_stem + error

* --- HOÀN THIỆN BỘ DỮ LIỆU ---

* Gán nhãn cho các biến để dễ hiểu
label variable salary "Lương khởi điểm (triệu VND)"
label variable gpa "Điểm GPA hệ 4.0"
label variable internships "Số kỳ thực tập đã hoàn thành"
label variable is_stem "Học ngành STEM (1=Có, 0=Không)"

* Xem qua một vài quan sát đầu tiên
list in 1/10

* Xem thống kê mô tả
summarize

* Lưu bộ dữ liệu để sử dụng cho các bài học sau
save "grad_salary.dta", replace
di "Tệp dữ liệu grad_salary.dta đã được tạo và lưu thành công!"

📚 Bài tiếp theo: Chúng ta sẽ bắt đầu với bài học đầu tiên. Hãy sẵn sàng để tìm hiểu về phương pháp nền tảng và rất trực quan: Điều chỉnh hồi quy. Để tiếp tục, vui lòng nhập: Nền tảng về Điều chỉnh hồi quy

💡 Lưu ý: Hãy đảm bảo bạn đã chạy do-file trên và tạo thành công tệp dữ liệu grad_salary.dta. Việc chuẩn bị sẵn sàng dữ liệu sẽ giúp quá trình học thực hành của chúng ta diễn ra suôn sẻ.