Chào mừng các bạn đã quay trở lại! Trong các bài học trước, chúng ta đã thấy Lasso là một công cụ tuyệt vời để lựa chọn biến trong môi trường đa chiều. Tuy nhiên, chúng ta đã bỏ qua một câu hỏi cực kỳ quan trọng: Sau khi Lasso đã chọn ra một tập hợp các biến, làm thế nào chúng ta có thể thực hiện suy luận thống kê một cách hợp lệ? Tức là, làm thế nào để tính toán sai số chuẩn, khoảng tin cậy và p-value cho các hệ số mà chúng ta quan tâm? Đây là một vấn đề rất hóc búa. Nếu chúng ta chỉ đơn giản là chạy một hồi quy OLS trên các biến được Lasso chọn (như trong phương pháp Post-Lasso) và sử dụng các sai số chuẩn thông thường, kết quả sẽ bị sai lệch nghiêm trọng. Lý do là quá trình lựa chọn biến đã “nhìn” vào dữ liệu, và điều này làm vô hiệu các giả định tiêu chuẩn của OLS. Các khoảng tin cậy sẽ quá …

🔔 Khu vực THÀNH VIÊN
Bạn cần đăng ký một gói Thành viên để truy cập nội dung này.
Các gói hiện có:
Bạn đã có tài khoản → đăng nhập
Back to top button