Dữ liệu thiếu: Chẩn đoán vấn đề như một nhà khoa học dữ liệu Missing data: Diagnosing the problem like a data scientist Kẻ phá hoại thầm lặng trong nghiên cứu Trong mọi bộ dữ liệu, những ô trống hay giá trị thiếu (missing values) thường xuất hiện như một điều phiền toái không thể tránh khỏi. Tuy nhiên, coi chúng chỉ là sự bất tiện là một sai lầm nghiêm trọng. Dữ liệu thiếu chính là một “kẻ phá hoại thầm lặng”, có khả năng làm suy yếu và thậm chí vô hiệu hóa những kết quả nghiên cứu của bạn nếu không được xử lý đúng cách. Tác động của chúng diễn ra trên hai phương diện. Về mặt thực tế, chúng làm giảm kích thước mẫu hiệu dụng, đôi khi đến mức không thể thực hiện được các phân tích đa biến. Nhưng nguy hiểm hơn là tác động về mặt nội dung: nếu dữ liệu bị thiếu một cách có hệ thống, nó sẽ tạo ra một (selection bias) ẩn, khiến cho các ước lượng …