Giới thiệu các mô hình cho biến đếm, phân số và các biến không âm khác
Chào mừng các bạn sinh viên đã quay trở lại với chuỗi bài học về kinh tế lượng ứng dụng! Trong thực tế nghiên cứu, chúng ta thường xuyên gặp phải những biến phụ thuộc không “hoàn hảo” như trong sách giáo khoa. Chúng không phải lúc nào cũng là những con số liên tục, tuân theo phân phối chuẩn. Thay vào đó, chúng có thể là số lần một sự kiện xảy ra, một tỷ lệ phần trăm, hay một đại lượng không thể nhận giá trị âm. Ví dụ, một nhà kinh tế học có thể muốn mô hình hóa số bằng sáng chế một công ty đăng ký mỗi năm, tỷ lệ tham gia bảo hiểm của nhân viên, hoặc chi phí y tế của một cá nhân. Các mô hình hồi quy tuyến tính cổ điển (OLS) thường không phù hợp cho những trường hợp này, vì chúng có thể đưa ra những dự báo vô lý, chẳng hạn như số con là -0.5 hoặc tỷ lệ tham gia là 120%.
Đây chính là lúc các mô hình chuyên biệt cho các loại biến phản hồi này phát huy tác dụng. Chuỗi bài học này sẽ trang bị cho các bạn một bộ công cụ mạnh mẽ để phân tích các loại dữ liệu đặc biệt này một cách chính xác và khoa học. Chúng ta sẽ bắt đầu với biến đếm (count variables), là các biến chỉ nhận giá trị nguyên không âm (0, 1, 2,…). Tiếp theo, chúng ta sẽ khám phá các biến phản hồi phân số (fractional responses), là các biến có giá trị nằm trong khoảng từ 0 đến 1. Cuối cùng, chúng ta sẽ mở rộng các phương pháp này cho dữ liệu bảng, cho phép kiểm soát các yếu tố không quan sát được không đổi theo thời gian. Mục tiêu cuối cùng là giúp các bạn tự tin xử lý các dạng dữ liệu phức tạp, một kỹ năng cực kỳ quan trọng trong nghiên cứu kinh tế hiện đại.
CẤU TRÚC CHUỖI BÀI HỌC
- Nền tảng hồi quy Poisson và QMLEHiểu rõ mô hình Poisson, tại sao ước lượng QMLE lại mạnh mẽ và cách diễn giải các hệ số một cách chính xác.
- Các mô hình dữ liệu đếm nâng caoKhám phá các lựa chọn thay thế cho mô hình Poisson như Nhị thức âm và Nhị thức khi dữ liệu có những đặc điểm riêng.
- Xử lý tính nội sinh trong mô hình mũHọc các kỹ thuật nâng cao như phương pháp hàm kiểm soát để giải quyết vấn đề biến giải thích nội sinh trong các mô hình phi tuyến.
- Phân tích biến phản hồi phân sốNắm vững cách mô hình hóa các biến có giá trị từ 0 đến 1, chẳng hạn như tỷ lệ hoặc thị phần, một cách hợp lý.
- Phương pháp dữ liệu bảng phi tuyếnÁp dụng các mô hình hiệu ứng cố định và ngẫu nhiên cho dữ liệu đếm để kiểm soát các yếu tố không quan sát được.
- Bài thực hành tổng hợp trên StataVận dụng tất cả kiến thức đã học vào một bộ dữ liệu thực tế, từ khâu xử lý đến phân tích và diễn giải kết quả.
- Tổng hợp và định hướng nâng caoKết nối các khái niệm, so sánh ưu nhược điểm của từng phương pháp và khám phá các hướng nghiên cứu sâu hơn.
MỤC TIÊU HỌC TẬP
Sau khi hoàn thành chuỗi bài học này, các bạn sẽ có khả năng:
- Nhận diện và lựa chọn mô hình phù hợp cho các loại biến phụ thuộc là biến đếm, biến phân số và các biến không âm khác.
- Vận dụng thành thạo phần mềm Stata để ước lượng, kiểm định và diễn giải kết quả từ các mô hình Hồi quy Poisson, Nhị thức âm, và Probit/Logit phân số.
- Hiểu và áp dụng các phương pháp nâng cao để xử lý các vấn đề phức tạp như tính nội sinh và các hiệu ứng không quan sát được trong dữ liệu bảng.
- Phân tích và trình bày kết quả nghiên cứu một cách chuyên nghiệp, có cơ sở khoa học vững chắc.
TÀI LIỆU THAM KHẢO
- Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data (2nd ed.). MIT press. (Đây là tài liệu gốc cho chuỗi bài viết này).
- Cameron, A. C., & Trivedi, P. K. (2005). Microeconometrics: Methods and applications. Cambridge university press. (Một tài liệu tham khảo tuyệt vời cho các mô hình ứng dụng).
- Baltagi, B. H. (2021). Econometric analysis of panel data (6th ed.). Springer. (Tài liệu chuyên sâu về các phương pháp dữ liệu bảng).
Mô tả dữ liệu:
firm_id: Mã định danh duy nhất cho mỗi công ty.year: Năm quan sát.patents: Số bằng sáng chế được cấp (biến đếm).log_rd: Logarit của chi tiêu cho Nghiên cứu & Phát triển (R&D).log_sales: Logarit của doanh thu.foreign_own: Biến giả, bằng 1 nếu công ty có vốn đầu tư nước ngoài.
Code Stata để tạo dữ liệu:
* ==================================================
* MỤC ĐÍCH: Tạo dữ liệu mô phỏng cho chuỗi bài học
* SỐ QUAN SÁT: 100 công ty trong 5 năm (dữ liệu bảng)
* ==================================================
clear
set obs 500
* Tạo mã công ty và năm
gen firm_id = ceil(_n/5)
gen year = 1995 + mod(_n-1, 5)
* Tạo các biến giải thích
set seed 12345
gen log_rd = rnormal(5, 1.5)
gen log_sales = log_rd + rnormal(3, 2)
gen foreign_own = (runiform() > 0.7)
* Tạo hiệu ứng cố định không quan sát được cho mỗi công ty
bysort firm_id: gen firm_effect = rnormal(0, 0.5) if _n == 1
bysort firm_id: replace firm_effect = firm_effect[_n-1] if _n > 1
* Tạo biến đếm patents từ phân phối Poisson
* E(patents) = exp(1.2*log_rd + 0.5*foreign_own + firm_effect)
gen lambda = exp(0.5 + 1.2*log_rd + 0.5*foreign_own + firm_effect)
gen patents = rpoisson(lambda)
* Lưu dữ liệu
save "wooldridge_c18_patents.dta", replace
describe
summarize
Hãy chạy đoạn code trên trong Stata để tạo file wooldridge_c18_patents.dta và chuẩn bị cho bài học đầu tiên của chúng ta!
📚 Bài tiếp theo: Nền tảng hồi quy Poisson và QMLE
💡 Lưu ý: Hãy đảm bảo bạn đã đọc kỹ phần giới thiệu và chuẩn bị sẵn sàng môi trường làm việc Stata.
🎯 Self-check: Bạn có thể nghĩ ra 3 ví dụ trong thực tế về biến đếm và biến phân số không?