Giới thiệu các mô hình cho biến đếm, phân số và các biến không âm khác

Chào mừng các bạn sinh viên đã quay trở lại với chuỗi bài học về kinh tế lượng ứng dụng! Trong thực tế nghiên cứu, chúng ta thường xuyên gặp phải những biến phụ thuộc không “hoàn hảo” như trong sách giáo khoa. Chúng không phải lúc nào cũng là những con số liên tục, tuân theo phân phối chuẩn. Thay vào đó, chúng có thể là số lần một sự kiện xảy ra, một tỷ lệ phần trăm, hay một đại lượng không thể nhận giá trị âm. Ví dụ, một nhà kinh tế học có thể muốn mô hình hóa số bằng sáng chế một công ty đăng ký mỗi năm, tỷ lệ tham gia bảo hiểm của nhân viên, hoặc chi phí y tế của một cá nhân. Các mô hình hồi quy tuyến tính cổ điển (OLS) thường không phù hợp cho những trường hợp này, vì chúng có thể đưa ra những dự báo vô lý, chẳng hạn như số con là -0.5 hoặc tỷ lệ tham gia là 120%.

Đây chính là lúc các mô hình chuyên biệt cho các loại biến phản hồi này phát huy tác dụng. Chuỗi bài học này sẽ trang bị cho các bạn một bộ công cụ mạnh mẽ để phân tích các loại dữ liệu đặc biệt này một cách chính xác và khoa học. Chúng ta sẽ bắt đầu với biến đếm (count variables), là các biến chỉ nhận giá trị nguyên không âm (0, 1, 2,…). Tiếp theo, chúng ta sẽ khám phá các biến phản hồi phân số (fractional responses), là các biến có giá trị nằm trong khoảng từ 0 đến 1. Cuối cùng, chúng ta sẽ mở rộng các phương pháp này cho dữ liệu bảng, cho phép kiểm soát các yếu tố không quan sát được không đổi theo thời gian. Mục tiêu cuối cùng là giúp các bạn tự tin xử lý các dạng dữ liệu phức tạp, một kỹ năng cực kỳ quan trọng trong nghiên cứu kinh tế hiện đại.

CẤU TRÚC CHUỖI BÀI HỌC

Nền tảng hồi quy Poisson và QMLE
Hiểu rõ mô hình Poisson, tại sao ước lượng QMLE lại mạnh mẽ và cách diễn giải các hệ số một cách chính xác.
Các mô hình dữ liệu đếm nâng cao
Khám phá các lựa chọn thay thế cho mô hình Poisson như Nhị thức âm và Nhị thức khi dữ liệu có những đặc điểm riêng.
Xử lý tính nội sinh trong mô hình mũ
Học các kỹ thuật nâng cao như phương pháp hàm kiểm soát để giải quyết vấn đề biến giải thích nội sinh trong các mô hình phi tuyến.
Phân tích biến phản hồi phân số
Nắm vững cách mô hình hóa các biến có giá trị từ 0 đến 1, chẳng hạn như tỷ lệ hoặc thị phần, một cách hợp lý.
Phương pháp dữ liệu bảng phi tuyến
Áp dụng các mô hình hiệu ứng cố định và ngẫu nhiên cho dữ liệu đếm để kiểm soát các yếu tố không quan sát được.
Bài thực hành tổng hợp trên Stata
Vận dụng tất cả kiến thức đã học vào một bộ dữ liệu thực tế, từ khâu xử lý đến phân tích và diễn giải kết quả.
Tổng hợp và định hướng nâng cao
Kết nối các khái niệm, so sánh ưu nhược điểm của từng phương pháp và khám phá các hướng nghiên cứu sâu hơn.

KIẾN THỨC TIÊN QUYẾT

Để tiếp thu tốt nhất chuỗi bài học này, các bạn cần có nền tảng vững chắc về các chủ đề sau:

Toán học cơ bản: Các phép toán về ma trận, đạo hàm và các khái niệm về tối ưu hóa.
Thống kê căn bản: Phân phối xác suất, các khái niệm về ước lượng điểm, kiểm định giả thuyết và khoảng tin cậy.
Kinh tế lượng nhập môn: Mô hình hồi quy tuyến tính cổ điển (OLS), các giả định và cách diễn giải kết quả.
Stata cơ bản: Các lệnh quản lý dữ liệu, thống kê mô tả và thực hiện hồi quy OLS.

MỤC TIÊU HỌC TẬP

Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng:

Nhận diện và lựa chọn mô hình phù hợp cho các loại biến phụ thuộc là biến đếm, biến phân số và các biến không âm khác.
Vận dụng thành thạo phần mềm Stata để ước lượng, kiểm định và diễn giải kết quả từ các mô hình Hồi quy Poisson, Nhị thức âm, và Probit/Logit phân số.
Hiểu và áp dụng các phương pháp nâng cao để xử lý các vấn đề phức tạp như tính nội sinh và các hiệu ứng không quan sát được trong dữ liệu bảng.
Phân tích và trình bày kết quả nghiên cứu một cách chuyên nghiệp, có cơ sở khoa học vững chắc.

TÀI LIỆU THAM KHẢO

Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data (2nd ed.). MIT press. (Đây là tài liệu gốc cho chuỗi bài viết này).
Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics: Methods and applications. Cambridge university press. (Một tài liệu tham khảo tuyệt vời cho các mô hình ứng dụng).
Baltagi, B. H. (2021). Econometric analysis of panel data (6th ed.). Springer. (Tài liệu chuyên sâu về các phương pháp dữ liệu bảng).

PHỤ LỤC: Dữ liệu mô phỏng cho series

Để giúp các bạn thực hành, tôi đã tạo một bộ dữ liệu mô phỏng đơn giản về số lượng bằng sáng chế của các công ty. Các bạn có thể sử dụng bộ dữ liệu này để chạy các lệnh Stata được giới thiệu trong suốt chuỗi bài học.

Mô tả dữ liệu:

firm_id: Mã định danh duy nhất cho mỗi công ty.
year: Năm quan sát.
patents: Số bằng sáng chế được cấp (biến đếm).
log_rd: Logarit của chi tiêu cho Nghiên cứu & Phát triển (R&D).
log_sales: Logarit của doanh thu.
foreign_own: Biến giả, bằng 1 nếu công ty có vốn đầu tư nước ngoài.

Code Stata để tạo dữ liệu:

Stata

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* SỐ QUAN SÁT: 100 công ty trong 5 năm (dữ liệu bảng)
* ==================================================

clear
set obs 500

* Tạo mã công ty và năm
gen firm_id = ceil(_n/5)
gen year = 1995 + mod(_n-1, 5)

* Tạo các biến giải thích
set seed 12345
gen log_rd = rnormal(5, 1.5)
gen log_sales = log_rd + rnormal(3, 2)
gen foreign_own = (runiform() > 0.7)

* Tạo hiệu ứng cố định không quan sát được cho mỗi công ty
bysort firm_id: gen firm_effect = rnormal(0, 0.5) if _n == 1
bysort firm_id: replace firm_effect = firm_effect[_n-1] if _n > 1

* Tạo biến đếm patents từ phân phối Poisson
* E(patents) = exp(1.2*log_rd + 0.5*foreign_own + firm_effect)
gen lambda = exp(0.5 + 1.2*log_rd + 0.5*foreign_own + firm_effect)
gen patents = rpoisson(lambda)

* Lưu dữ liệu
save "wooldridge_c18_patents.dta", replace
describe
summarize

* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* SỐ QUAN SÁT: 100 công ty trong 5 năm (dữ liệu bảng)
* ==================================================

clear
set obs 500

* Tạo mã công ty và năm
gen firm_id = ceil(_n/5)
gen year = 1995 + mod(_n-1, 5)

* Tạo các biến giải thích
set seed 12345
gen log_rd = rnormal(5, 1.5)
gen log_sales = log_rd + rnormal(3, 2)
gen foreign_own = (runiform() > 0.7)

* Tạo hiệu ứng cố định không quan sát được cho mỗi công ty
bysort firm_id: gen firm_effect = rnormal(0, 0.5) if _n == 1
bysort firm_id: replace firm_effect = firm_effect[_n-1] if _n > 1

* Tạo biến đếm patents từ phân phối Poisson
* E(patents) = exp(1.2*log_rd + 0.5*foreign_own + firm_effect)
gen lambda = exp(0.5 + 1.2*log_rd + 0.5*foreign_own + firm_effect)
gen patents = rpoisson(lambda)

* Lưu dữ liệu
save "wooldridge_c18_patents.dta", replace
describe
summarize