Bài 2: Tổng quan về vấn đề chọn mẫu An overview of sample selection GIỚI THIỆU Chào mừng các bạn đến với bài học thứ hai. Sau khi đã tìm hiểu về dữ liệu bị kiểm duyệt ở bài trước, hôm nay chúng ta sẽ khám phá một vấn đề “dữ liệu thiếu” khác, có lẽ còn phổ biến và tinh vi hơn: chọn mẫu (sample selection). Nếu dữ liệu bị kiểm duyệt giống như việc bạn nhìn một vật qua một tấm kính mờ, bạn biết vật đó ở đó nhưng không thấy rõ hình dạng, thì vấn đề chọn mẫu lại giống như việc bạn chỉ được phép nhìn vào một góc của căn phòng. Bạn sẽ không bao giờ biết được những gì đang diễn ra ở các góc còn lại, và việc cố gắng mô tả cả căn phòng chỉ dựa trên những gì bạn thấy có thể dẫn đến những kết luận hoàn toàn sai lệch. Vấn đề chọn mẫu xảy ra khi mẫu dữ liệu chúng ta có trong tay không phải là …