Bài 1: Nền tảng về dữ liệu bị kiểm duyệt Censored data fundamentals GIỚI THIỆU Chào mừng các bạn đã quay trở lại chuỗi bài học của chúng ta. Trong bài học đầu tiên này, chúng ta sẽ cùng nhau xây dựng một nền tảng vững chắc về một trong những vấn đề phổ biến nhất khi làm việc với dữ liệu thực tế: dữ liệu bị kiểm duyệt (censored data). Hãy tưởng tượng bạn đang thực hiện một cuộc khảo sát về thu nhập. Một số người có thu nhập rất cao có thể không muốn tiết lộ con số chính xác, họ chỉ cho biết “thu nhập của tôi trên 50 triệu đồng/tháng”. Trong trường hợp này, bạn có thông tin, nhưng nó không hoàn chỉnh. Bạn biết thu nhập của họ vượt qua một ngưỡng nhất định, nhưng không biết giá trị thực sự là bao nhiêu. Đó chính là bản chất của dữ liệu bị kiểm duyệt. Vấn đề này khác biệt một cách tinh tế nhưng quan trọng so với “chọn mẫu” (sample selection) …