Chào mừng các bạn đến với bài học thứ bảy và cũng là bài học lý thuyết cuối cùng trong chuỗi bài về Học máy! Ở bài trước, chúng ta đã học được hai phương pháp rất mạnh mẽ là Lựa chọn kép (DS) và Hậu điều chỉnh (PR) để thực hiện suy luận thống kê hợp lệ sau khi lựa chọn biến. Các phương pháp này đã giải quyết được một vấn đề lớn: làm thế nào để có được p-value và khoảng tin cậy đáng tin cậy cho một biến quan tâm trong môi trường đa chiều. Tuy nhiên, ngay cả những phương pháp tiên tiến này vẫn còn một điểm yếu tinh vi. Chúng thường sử dụng toàn bộ bộ dữ liệu để vừa ước lượng các mối quan hệ phụ trợ (ví dụ: mối quan hệ giữa các biến kiểm soát $X$ với $Y$ và $D$) vừa để ước lượng hệ số chính $\theta$. Việc “tái sử dụng” dữ liệu theo cách này có thể dẫn đến một loại thiên vị trong mẫu hữu hạn, một …

🔔 Khu vực THÀNH VIÊN
Bạn cần đăng ký một gói Thành viên để truy cập nội dung này.
Các gói hiện có:
Bạn đã có tài khoản → đăng nhập
Back to top button