Giới thiệu Chào các bạn sinh viên, trong các bài học trước, chúng ta đã xử lý các vấn đề phát sinh khi biến phụ thuộc bị cắt cụt hoặc kiểm duyệt. Hôm nay, chúng ta sẽ đối mặt với một thách thức khác, có lẽ là tinh vi nhất: thiên lệch do lựa chọn mẫu (sample selection bias). Vấn đề này xảy ra khi mẫu dữ liệu chúng ta có trong tay không phải là một mẫu ngẫu nhiên từ tổng thể mà chúng ta muốn nghiên cứu, và quá trình “lựa chọn” này lại không hề ngẫu nhiên. Hãy xem xét một ví dụ kinh điển trong kinh tế học lao động: ước lượng phương trình tiền lương cho phụ nữ. Chúng ta chỉ có thể quan sát được mức lương của những phụ nữ quyết định đi làm. Quyết định đi làm này có ngẫu nhiên không? Chắc chắn là không. Những người phụ nữ có năng lực cao, tham vọng, hoặc có những kỹ năng không quan sát được khác có thể vừa có khả năng …