Trong ba bài học vừa qua, chúng ta đã mổ xẻ từng vấn đề dữ liệu một cách riêng lẻ: các ngoại lệ, dữ liệu thiếu, và sai số đo lường. Tuy nhiên, trong thực tế, một nhà nghiên cứu hiếm khi chỉ đối mặt với một vấn đề duy nhất. Một bộ dữ liệu thô điển hình thường là một mớ hỗn độn, chứa đựng đồng thời tất cả những thách thức này. Do đó, một quy trình làm việc có hệ thống, một “checklist” từ khâu khám phá dữ liệu ban đầu đến khi ra được kết quả ước lượng cuối cùng, là kỹ năng không thể thiếu. Bài học tổng hợp này chính là quy trình đó. Chúng ta sẽ đóng vai một nhà nghiên cứu thực thụ, nhận một bộ dữ liệu “không hoàn hảo” và áp dụng tuần tự các kỹ năng đã học để “làm sạch” và phân tích nó. Mục tiêu của chúng ta không chỉ là chạy các lệnh một cách máy móc, mà là xây dựng một câu chuyện phân tích …