Dạng hàm, phương pháp sai biệt kép và thay đổi cấu trúc

Chào mừng các bạn sinh viên đến với chuỗi bài học khám phá những kỹ thuật nâng cao và vô cùng hữu ích trong kinh tế lượng. Trong thực tế, mô hình hồi quy tuyến tính cơ bản thường quá cứng nhắc để có thể nắm bắt được sự phức tạp của các mối quan hệ kinh tế. Chuỗi bài viết này sẽ trang bị cho các bạn những công cụ mạnh mẽ để “uốn nắn” mô hình hồi quy, giúp nó trở nên linh hoạt và phù hợp hơn với các tình huống phân tích đa dạng, từ việc đánh giá tác động của một chính sách mới đến việc phát hiện những thay đổi đột ngột trong nền kinh tế.

Chúng ta sẽ bắt đầu từ những viên gạch nền tảng và xây dựng kiến thức một cách có hệ thống. Các bạn sẽ học cách sử dụng các biến đơn giản nhưng đầy quyền năng để mô hình hóa các hiệu ứng phức tạp, và dần dần tiếp cận những phương pháp hiện đại đang được sử dụng rộng rãi trong các nghiên cứu kinh tế học ứng dụng ngày nay. Đừng lo lắng nếu các khái niệm ban đầu có vẻ trừu tượng, mỗi bài học đều được thiết kế với nhiều ví dụ minh họa và hướng dẫn thực hành chi tiết trên Stata để giúp các bạn không chỉ hiểu lý thuyết mà còn có thể tự tin áp dụng vào thực tế.

Trong chuỗi bài học này, chúng ta sẽ tập trung vào ba nhóm công cụ chính:

Biến nhị phân (Binary Variables): Công cụ linh hoạt để đưa các yếu tố định tính (như giới tính, khu vực địa lý) hoặc các sự kiện rời rạc (như một cuộc khủng hoảng) vào mô hình hồi quy.
Hồi quy khác biệt kép (Difference-in-Differences): Một phương pháp chuẩn mực trong kinh tế lượng ứng dụng để đo lường tác động nhân quả của một chính sách hoặc một sự can thiệp bằng cách so sánh nhóm được tác động và nhóm đối chứng trước và sau sự kiện.
Thay đổi cấu trúc (Structural Change): Các kỹ thuật kiểm định để xác định xem liệu mối quan hệ giữa các biến có thay đổi một cách đột ngột tại một thời điểm nào đó hoặc giữa các nhóm khác nhau trong mẫu hay không.

Cấu trúc chuỗi bài học

Để giúp các bạn dễ dàng theo dõi và hệ thống hóa kiến thức, chuỗi bài học sẽ được chia thành các phần nhỏ, đi từ cơ bản đến nâng cao:

Sức mạnh của biến nhị phân trong mô hình hồi quy
Chúng ta sẽ tìm hiểu cách sử dụng biến giả để mô hình hóa các yếu tố định tính, các hiệu ứng nhóm và tính không đồng nhất cá nhân.
Phân tích tác động chính sách với hồi quy khác biệt kép
Bài học này sẽ giới thiệu phương pháp Difference-in-Differences, một công cụ thiết yếu để đánh giá hiệu quả của các chương trình và chính sách.
Hồi quy gián đoạn và điểm gãy
Chúng ta sẽ khám phá hai kỹ thuật nâng cao để xác định tác động nhân quả khi chính sách được áp dụng dựa trên một ngưỡng cụ thể.
Mô hình hóa các mối quan hệ phi tuyến
Bài học này hướng dẫn cách sử dụng logarit, đa thức và biến tương tác để mô hình hồi quy có thể mô tả các mối quan hệ phức tạp hơn.
Phát hiện thay đổi cấu trúc với kiểm định Chow
Chúng ta sẽ học cách kiểm định xem liệu các hệ số của mô hình có ổn định qua các giai đoạn thời gian hoặc giữa các nhóm khác nhau không.
Hướng dẫn thực hành tổng hợp với Stata
Bài cuối cùng sẽ là một bài thực hành toàn diện, áp dụng tất cả các kỹ thuật đã học để phân tích một bộ dữ liệu từ đầu đến cuối.

Kiến thức tiên quyết

Để tiếp thu tốt nhất chuỗi bài học này, các bạn nên trang bị trước một số kiến thức nền tảng sau:

Toán học cơ bản: Hiểu biết về các phép toán ma trận cơ bản và khái niệm đạo hàm.
Thống kê căn bản: Nắm vững các khái niệm về kỳ vọng, phương sai, hiệp phương sai và các kiểm định giả thuyết cơ bản (như kiểm định t, kiểm định F).
Kinh tế lượng nhập môn: Đã quen thuộc với mô hình hồi quy OLS, các giả định của nó, và cách diễn giải hệ số hồi quy.
Stata cơ bản: Có khả năng nhập dữ liệu, thực hiện các lệnh thống kê mô tả (summarize, describe) và chạy hồi quy OLS cơ bản (regress).

Mục tiêu học tập

Sau khi hoàn thành chuỗi bài viết này, các bạn sẽ có khả năng:

Hiểu sâu lý thuyết: Nắm vững bản chất, giả định và cách diễn giải của các mô hình sử dụng biến giả, khác biệt kép, hồi quy gián đoạn và các dạng hàm phi tuyến.
Thực hành thành thạo: Sử dụng Stata một cách tự tin để ước lượng, kiểm định và diễn giải kết quả từ các mô hình phức tạp này.
Phân tích thực tế: Áp dụng các kỹ thuật đã học để phân tích các vấn đề thực tế, đặc biệt là trong lĩnh vực đánh giá tác động chính sách.
Tư duy phản biện: Nhận biết được những ưu điểm, nhược điểm và các vấn đề tiềm ẩn khi áp dụng từng phương pháp vào các bối cảnh khác nhau.

Tài liệu tham khảo

Nội dung của chuỗi bài viết này chủ yếu dựa trên các tài liệu kinh điển và uy tín trong lĩnh vực kinh tế lượng:

Chính: Greene, W. H. (2019). Econometric Analysis (8th ed.). Pearson. – Đây là tài liệu cốt lõi cho toàn bộ chuỗi bài viết.
Bổ sung: Wooldridge, J. M. (2019). Introductory Econometrics: A Modern Approach (7th ed.). Cengage Learning. – Một tài liệu tuyệt vời với nhiều ví dụ ứng dụng trực quan, rất phù hợp cho sinh viên.
Thực hành: Angrist, J. D., & Pischke, J. S. (2009). Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton University Press. – Cuốn sách tập trung vào các phương pháp xác định quan hệ nhân quả, đặc biệt hữu ích cho các bài về khác biệt kép và hồi quy gián đoạn.
Stata: Cameron, A. C., & Trivedi, P. K. (2010). Microeconometrics Using Stata, Revised Edition. Stata Press. – Nguồn tài liệu tham khảo không thể thiếu cho việc thực hành trên Stata.

PHỤ LỤC: Dữ liệu mô phỏng cho chuỗi bài viết

Để giúp việc học và thực hành trở nên dễ dàng, chúng ta sẽ sử dụng một bộ dữ liệu mô phỏng xuyên suốt các bài học. Bộ dữ liệu này được thiết kế đơn giản, dễ hiểu, tập trung vào việc minh họa các kỹ thuật kinh tế lượng thay vì các vấn đề phức tạp về dữ liệu.

Bối cảnh dữ liệu: Chúng ta sẽ phân tích tác động của một chương trình đào tạo kỹ năng (treatment) lên tiền lương (wage) của người lao động, có kiểm soát các yếu tố như trình độ học vấn (education) và giới tính (female). Dữ liệu được thu thập trước và sau khi chương trình diễn ra.

Các bạn có thể tạo ra bộ dữ liệu này bằng cách chạy đoạn code Stata dưới đây. Hãy lưu nó lại với tên “training_impact_data.dta” để sử dụng cho các bài học tiếp theo.

Stata

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu bảng đơn giản để thực hành
* các kỹ thuật về biến giả, khác biệt kép, và tương tác.
* ==================================================

* --- Bước 1: Thiết lập cơ bản ---
clear all                   // Xóa mọi dữ liệu đang có trong bộ nhớ
set obs 1000                // Tạo 1000 quan sát (người lao động)
set seed 12345              // Đặt seed để kết quả có thể tái lập

* --- Bước 2: Tạo các biến đặc điểm cá nhân (không đổi theo thời gian) ---
* Tạo ID cho mỗi người
gen id = _n

* Tạo biến trình độ học vấn (số năm đi học)
gen education = 10 + rnormal(2, 2)
replace education = round(education)
replace education = 18 if education > 18
replace education = 9 if education < 9
label var education "Số năm đi học"

* Tạo biến giới tính (1 = Nữ, 0 = Nam)
gen female = rbinomial(1, 0.5)
label var female "Giới tính (1=Nữ)"

* Tạo biến nhóm (1 = tham gia chương trình, 0 = nhóm đối chứng)
gen treated_group = rbinomial(1, 0.4)
label var treated_group "Nhóm tham gia chương trình (1=Có)"

* --- Bước 3: Chuyển dữ liệu từ dạng ngang sang dạng dọc (dữ liệu bảng) ---
* Mỗi người sẽ có 2 quan sát: trước và sau chương trình
expand 2
bysort id: gen time = _n - 1 // 0 = trước, 1 = sau
label var time "Thời gian (1=Sau chương trình)"

* --- Bước 4: Tạo biến tiền lương (wage) ---
* Tạo thành phần ngẫu nhiên (sai số)
gen error = rnormal(0, 1.5)

* Tạo mức lương cơ bản phụ thuộc vào các đặc điểm
* Giả định: lương tăng theo học vấn, nữ có lương thấp hơn
* Có một xu hướng tăng lương chung theo thời gian (biến time)
* Chương trình đào tạo (treated_group * time) có tác động tích cực
gen wage = 10 + 0.8*education - 2*female + 1.5*time + 2.5*treated_group*time + error
replace wage = 5 if wage < 5 // Đảm bảo lương không quá thấp
label var wage "Tiền lương theo giờ"

* --- Bước 5: Hoàn thiện và lưu dữ liệu ---
order id time treated_group wage education female
compress // Nén dữ liệu để tiết kiệm dung lượng
save "training_impact_data.dta", replace // Lưu lại file dữ liệu

* Xem qua một vài quan sát để kiểm tra
list in 1/10

* ==================================================
* TẠO DỮ LIỆU MÔ PHỎNG CHO CHUỖI BÀI HỌC
* Mục đích: Tạo một bộ dữ liệu bảng đơn giản để thực hành
* các kỹ thuật về biến giả, khác biệt kép, và tương tác.
* ==================================================

* --- Bước 1: Thiết lập cơ bản ---
clear all                   // Xóa mọi dữ liệu đang có trong bộ nhớ
set obs 1000                // Tạo 1000 quan sát (người lao động)
set seed 12345              // Đặt seed để kết quả có thể tái lập

* --- Bước 2: Tạo các biến đặc điểm cá nhân (không đổi theo thời gian) ---
* Tạo ID cho mỗi người
gen id = _n

* Tạo biến trình độ học vấn (số năm đi học)
gen education = 10 + rnormal(2, 2)
replace education = round(education)
replace education = 18 if education > 18
replace education = 9 if education < 9
label var education "Số năm đi học"

* Tạo biến giới tính (1 = Nữ, 0 = Nam)
gen female = rbinomial(1, 0.5)
label var female "Giới tính (1=Nữ)"

* Tạo biến nhóm (1 = tham gia chương trình, 0 = nhóm đối chứng)
gen treated_group = rbinomial(1, 0.4)
label var treated_group "Nhóm tham gia chương trình (1=Có)"

* --- Bước 3: Chuyển dữ liệu từ dạng ngang sang dạng dọc (dữ liệu bảng) ---
* Mỗi người sẽ có 2 quan sát: trước và sau chương trình
expand 2
bysort id: gen time = _n - 1 // 0 = trước, 1 = sau
label var time "Thời gian (1=Sau chương trình)"

* --- Bước 4: Tạo biến tiền lương (wage) ---
* Tạo thành phần ngẫu nhiên (sai số)
gen error = rnormal(0, 1.5)

* Tạo mức lương cơ bản phụ thuộc vào các đặc điểm
* Giả định: lương tăng theo học vấn, nữ có lương thấp hơn
* Có một xu hướng tăng lương chung theo thời gian (biến time)
* Chương trình đào tạo (treated_group * time) có tác động tích cực
gen wage = 10 + 0.8*education - 2*female + 1.5*time + 2.5*treated_group*time + error
replace wage = 5 if wage < 5 // Đảm bảo lương không quá thấp
label var wage "Tiền lương theo giờ"

* --- Bước 5: Hoàn thiện và lưu dữ liệu ---
order id time treated_group wage education female
compress // Nén dữ liệu để tiết kiệm dung lượng
save "training_impact_data.dta", replace // Lưu lại file dữ liệu

* Xem qua một vài quan sát để kiểm tra
list in 1/10

Hướng dẫn thực hành:

Mở Stata.
Mở một cửa sổ Do-file Editor mới (File > New > Do-file).
Sao chép toàn bộ đoạn code trên và dán vào cửa sổ Do-file.
Chạy toàn bộ code (bằng cách nhấn nút “Execute (Do)”).
Một file có tên training_impact_data.dta sẽ được tạo trong thư mục làm việc hiện tại của Stata. Chúng ta sẽ sử dụng file này trong các bài học sau.

📚 Bài tiếp theo: Sức mạnh của biến nhị phân trong mô hình hồi quy

💡 Lưu ý: Hãy đảm bảo bạn đã đọc kỹ phần giới thiệu và chạy code tạo dữ liệu thành công trước khi bắt đầu bài học đầu tiên. Việc chuẩn bị tốt sẽ giúp hành trình học tập của chúng ta hiệu quả hơn!