Bài 5: Xử lý dữ liệu thiếu, mẫu không ngẫu nhiên và outliers Handling missing data, nonrandom samples, and outliers GIỚI THIỆU Chào mừng các bạn đến với bài học cuối cùng trong phần lý thuyết của chuỗi bài học này. Trong các bài trước, chúng ta đã học cách đối phó với các mô hình được đặc tả sai và dữ liệu bị đo lường với sai số. Hôm nay, chúng ta sẽ giải quyết những thách thức cuối cùng nhưng không kém phần quan trọng, những vấn đề phát sinh từ chính quá trình thu thập dữ liệu: những ô trống trong bảng tính, những mẫu khảo sát không hoàn toàn ngẫu nhiên, và những quan sát cá biệt có thể làm sai lệch toàn bộ phân tích của chúng ta. Hãy tưởng tượng bạn đang lắp một bức tranh ghép hình (puzzle) nhưng lại thiếu mất vài mảnh, đó chính là vấn đề dữ liệu bị thiếu. Hoặc, bạn muốn tìm hiểu về thói quen chi tiêu của cả thành phố nhưng chỉ khảo sát những …