Chào mừng các bạn đến với bài học thứ tư! Trong các bài học trước, chúng ta đã tập trung vào vấn đề dữ liệu bị kiểm duyệt, ví dụ như chi tiêu bằng 0 hoặc lương bằng 0. Trong những trường hợp đó, chúng ta vẫn có thông tin về các biến độc lập (như thu nhập, học vấn) của tất cả mọi người, kể cả những người có giá trị biến phụ thuộc bằng 0. Hôm nay, chúng ta sẽ đối mặt với một thách thức khác, thường khó nhận biết hơn: sai lệch chọn mẫu (sample selection bias). Vấn đề này xảy ra khi mẫu dữ liệu của chúng ta không phải là một đại diện ngẫu nhiên của tổng thể mà chúng ta muốn nghiên cứu. Thay vào đó, việc một cá nhân có mặt trong mẫu hay không lại phụ thuộc vào chính những yếu tố mà chúng ta đang phân tích. Ví dụ kinh điển nhất là hồi quy tiền lương: chúng ta chỉ có thể quan sát được mức lương của những người …

🔔 Khu vực THÀNH VIÊN
Bạn cần đăng ký một gói Thành viên để truy cập nội dung này.
Các gói hiện có:
Bạn đã có tài khoản → đăng nhập
Back to top button