Giới thiệu về kinh tế lượng trong đánh giá chương trình

Chào mừng các bạn sinh viên đến với chuỗi bài học nhập môn về một trong những lĩnh vực hấp dẫn và thực tiễn nhất của kinh tế lượng: Đánh giá tác động chương trình. Chắc hẳn nhiều bạn đã từng tự hỏi: Làm thế nào để chúng ta biết chắc chắn một chính sách của chính phủ (ví dụ: một chương trình học bổng, một dự án hỗ trợ việc làm, hay một khoản trợ cấp cho doanh nghiệp) có thực sự hiệu quả hay không? Liệu sự thành công mà chúng ta quan sát được là do chính sách, hay do các yếu tố khác? Trả lời những câu hỏi này chính là sứ mệnh của kinh tế lượng đánh giá chương trình.

Trong chuỗi bài học này, chúng ta sẽ cùng nhau đi từ những khái niệm cơ bản nhất đến việc xây dựng một tư duy phân tích vững chắc. Chúng ta sẽ không chỉ học các công thức toán học khô khan, mà sẽ tìm hiểu “linh hồn” đằng sau chúng thông qua các ví dụ trực quan và gần gũi. Mục tiêu cao nhất là giúp các bạn tự tin trả lời câu hỏi “tác động thực sự là gì?” và trang bị bộ công cụ cần thiết để đo lường tác động đó một cách khoa học. Hãy coi đây là một hành trình khám phá, nơi chúng ta học cách tách bạch giữa sự tương quan và mối quan hệ nhân quả thực sự.

Để bắt đầu, chúng ta cần làm quen với ba khái niệm nền tảng sẽ đồng hành cùng chúng ta xuyên suốt các bài học:

Hiệu ứng nhân quả (Causal Effect): Đây là tác động “thực” của một chương trình lên kết quả, sau khi đã loại bỏ tất cả các yếu tố gây nhiễu khác.
Khung phân tích đối chứng (Counterfactual Framework): “Chuyện gì sẽ xảy ra nếu một người không tham gia chương trình?” Đây là câu hỏi cốt lõi, và khung phân tích này giúp chúng ta xây dựng một nhóm so sánh hợp lý để trả lời nó.
Thiên lệch chọn mẫu (Selection Bias): Đây là “kẻ thù” lớn nhất trong đánh giá tác động, xảy ra khi nhóm tham gia và không tham gia chương trình khác nhau một cách có hệ thống ngay từ đầu.

Kết thúc chuỗi bài học này, các bạn sẽ không chỉ nắm vững lý thuyết mà còn có khả năng áp dụng các kỹ thuật cơ bản trong Stata để thực hiện một phân tích đánh giá tác động hoàn chỉnh. Hãy chuẩn bị tinh thần cho một hành trình học tập đầy thử thách nhưng cũng vô cùng bổ ích nhé!

Cấu trúc chuỗi bài học

Nền tảng của đánh giá tác động và các khái niệm cốt lõi
Chúng ta sẽ tìm hiểu về khung phân tích đối chứng và làm quen với các tham số quan trọng nhất như ATE, ATET, và ATENT.
Hiểu sâu về vấn đề thiên lệch chọn mẫu
Bài học này sẽ giải thích tại sao việc so sánh đơn giản thường dẫn đến sai lầm và phân tích các nguồn gốc gây ra thiên lệch chọn mẫu.
Các giả định nhận dạng cốt lõi trong kinh tế lượng
Chúng ta sẽ học về các “vũ khí” lý thuyết như Giả định Độc lập có điều kiện (CIA) và Giả định Chồng lấp (Overlap) để khắc phục thiên lệch.
Tổng quan các phương pháp và khung phân tích chính sách
Bài học này cung cấp một bản đồ tổng quan về các phương pháp đánh giá tác động và cách đặt chúng trong một quy trình phân tích thực tế.
Hướng dẫn thực hành đánh giá tác động với Stata
Chúng ta sẽ áp dụng tất cả lý thuyết đã học vào một bộ dữ liệu mô phỏng, thực hành từng bước từ việc khám phá dữ liệu đến ước lượng và diễn giải kết quả.

KIẾN THỨC TIÊN QUYẾT

Toán học cơ bản: Các phép toán đại số, khái niệm về hàm số và đạo hàm cơ bản.
Thống kê căn bản: Hiểu về giá trị trung bình, phương sai, phân phối xác suất và kiểm định giả thuyết (t-test).
Kinh tế lượng nhập môn: Nắm vững mô hình hồi quy OLS, ý nghĩa của hệ số hồi quy và sai số chuẩn.
Stata cơ bản: Biết cách nhập dữ liệu, sử dụng các lệnh cơ bản như describe, summarize, và regress.

MỤC TIÊU HỌC TẬP

Hiểu sâu lý thuyết: Nắm vững các khái niệm cốt lõi của đánh giá tác động, đặc biệt là khung phản chứng và các loại thiên lệch.
Thực hành thành thạo: Sử dụng Stata một cách tự tin để tính toán các hiệu ứng điều trị và kiểm tra các giả định cơ bản.
Phân tích thực tế: Có khả năng diễn giải kết quả kinh tế lượng một cách có ý nghĩa và nhận biết các cạm bẫy phổ biến.
Tư duy phản biện: Nhận ra các hạn chế của mỗi phương pháp và hiểu được tầm quan trọng của các giả định nhận dạng.

TÀI LIỆU THAM KHẢO

Chính: Cerulli, G. (2022). Econometric Evaluation of Socio-Economic Programs. Cuốn sách nền tảng cho toàn bộ chuỗi bài học.
Bổ sung (Dễ hiểu): Wooldridge, J.M. (2019). Introductory Econometrics: A Modern Approach. Rất tuyệt vời cho các bạn muốn củng cố kiến thức kinh tế lượng nhập môn.
Thực hành Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata. Cung cấp vô số ví dụ thực hành từ cơ bản đến nâng cao.
Nâng cao (Lý thuyết): Angrist, J. D., & Pischke, J. S. (2008). Mostly Harmless Econometrics: An Empiricist’s Companion. Dành cho các bạn muốn tìm hiểu sâu hơn về tư duy nhân quả.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học trở nên trực quan và dễ dàng, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng xuyên suốt chuỗi bài viết. Bộ dữ liệu này mô phỏng thông tin về lương khởi điểm của 1000 sinh viên mới tốt nghiệp, cùng với các đặc điểm về học vấn và kinh nghiệm của họ.

Các biến trong bộ dữ liệu grad_salary.dta:

id: Mã số định danh duy nhất cho mỗi sinh viên.
salary: Lương khởi điểm hàng tháng (đơn vị: triệu VND).
gpa: Điểm trung bình tích lũy khi tốt nghiệp (thang 4).
internships: Số kỳ thực tập đã hoàn thành trong quá trình học.
is_stem: Biến giả, nhận giá trị 1 nếu sinh viên tốt nghiệp ngành STEM (Khoa học, Công nghệ, Kỹ thuật, Toán), và 0 nếu ngược lại.

Các bạn hãy mở Stata, chạy đoạn code dưới đây để tự tạo ra bộ dữ liệu này và lưu lại để sử dụng cho các bài học tiếp theo. Đừng lo lắng, mỗi dòng lệnh đều có giải thích chi tiết!

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG: LƯƠNG SINH VIÊN MỚI TỐT NGHIỆP
* Mục đích: Tạo một bộ dữ liệu đơn giản, dễ hiểu để thực hành
* Tác giả: Giáo sư Kinh tế lượng
* Ngày tạo: [Ngày hiện tại]
* ==================================================

* --- Bước 1: Thiết lập cơ bản ---
clear all                   // Xóa mọi dữ liệu đang có trong bộ nhớ
set obs 1000                // Đặt số quan sát là 1000 sinh viên
set seed 12345              // Đặt seed để kết quả mô phỏng có thể lặp lại

* --- Bước 2: Tạo các biến độc lập ---

* Tạo biến ID cho mỗi sinh viên
gen id = _n

* Tạo biến điểm GPA (phân phối đều từ 2.5 đến 4.0)
gen gpa = 2.5 + (4 - 2.5) * runiform()

* Tạo biến số kỳ thực tập (phân phối Poisson với trung bình là 2)
gen internships = rpoisson(2)

* Tạo biến giả cho ngành STEM (xác suất 40% là sinh viên ngành STEM)
gen is_stem = (runiform() < 0.4)

* --- Bước 3: Tạo biến phụ thuộc (Lương) ---
* Giả định một mô hình lương cơ bản:
* Lương = 5 (mức lương cơ sở)
*       + 3 * gpa (mỗi điểm GPA tăng lương 3 triệu)
*       + 1.5 * internships (mỗi kỳ thực tập tăng lương 1.5 triệu)
*       + 4 * is_stem (sinh viên STEM có lương cao hơn 4 triệu)
*       + nhiễu ngẫu nhiên (phân phối chuẩn)
gen salary = 5 + 3*gpa + 1.5*internships + 4*is_stem + rnormal(0, 2)

* --- Bước 4: Gán nhãn và lưu dữ liệu ---

* Gán nhãn cho các biến để dễ nhận biết
label variable id "Mã sinh viên"
label variable salary "Lương khởi điểm (triệu VND)"
label variable gpa "Điểm GPA hệ 4"
label variable internships "Số kỳ thực tập đã hoàn thành"
label variable is_stem "Tốt nghiệp ngành STEM (1=Có)"

* Lưu bộ dữ liệu vào thư mục làm việc của bạn
* Hãy thay "D:\data" bằng đường dẫn thư mục của bạn
* ví dụ: save "C:\Users\YourName\Documents\grad_salary.dta", replace
save "grad_salary.dta", replace

* In ra một vài dòng đầu để kiểm tra
list in 1/10

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG: LƯƠNG SINH VIÊN MỚI TỐT NGHIỆP
* Mục đích: Tạo một bộ dữ liệu đơn giản, dễ hiểu để thực hành
* Tác giả: Giáo sư Kinh tế lượng
* Ngày tạo: [Ngày hiện tại]
* ==================================================

* --- Bước 1: Thiết lập cơ bản ---
clear all                   // Xóa mọi dữ liệu đang có trong bộ nhớ
set obs 1000                // Đặt số quan sát là 1000 sinh viên
set seed 12345              // Đặt seed để kết quả mô phỏng có thể lặp lại

* --- Bước 2: Tạo các biến độc lập ---

* Tạo biến ID cho mỗi sinh viên
gen id = _n

* Tạo biến điểm GPA (phân phối đều từ 2.5 đến 4.0)
gen gpa = 2.5 + (4 - 2.5) * runiform()

* Tạo biến số kỳ thực tập (phân phối Poisson với trung bình là 2)
gen internships = rpoisson(2)

* Tạo biến giả cho ngành STEM (xác suất 40% là sinh viên ngành STEM)
gen is_stem = (runiform() < 0.4)

* --- Bước 3: Tạo biến phụ thuộc (Lương) ---
* Giả định một mô hình lương cơ bản:
* Lương = 5 (mức lương cơ sở)
*       + 3 * gpa (mỗi điểm GPA tăng lương 3 triệu)
*       + 1.5 * internships (mỗi kỳ thực tập tăng lương 1.5 triệu)
*       + 4 * is_stem (sinh viên STEM có lương cao hơn 4 triệu)
*       + nhiễu ngẫu nhiên (phân phối chuẩn)
gen salary = 5 + 3*gpa + 1.5*internships + 4*is_stem + rnormal(0, 2)

* --- Bước 4: Gán nhãn và lưu dữ liệu ---

* Gán nhãn cho các biến để dễ nhận biết
label variable id "Mã sinh viên"
label variable salary "Lương khởi điểm (triệu VND)"
label variable gpa "Điểm GPA hệ 4"
label variable internships "Số kỳ thực tập đã hoàn thành"
label variable is_stem "Tốt nghiệp ngành STEM (1=Có)"

* Lưu bộ dữ liệu vào thư mục làm việc của bạn
* Hãy thay "D:\data" bằng đường dẫn thư mục của bạn
* ví dụ: save "C:\Users\YourName\Documents\grad_salary.dta", replace
save "grad_salary.dta", replace

* In ra một vài dòng đầu để kiểm tra
list in 1/10