Trong thế giới lý tưởng của sách giáo khoa, dữ liệu của chúng ta luôn “đẹp” và các giả định được thỏa mãn. Tuy nhiên, trong thực tế, dữ liệu thường lộn xộn và ẩn chứa nhiều thách thức. Ở bài học trước, chúng ta đã học cách tính sai số chuẩn để đo lường độ chính xác của các ước lượng. Nhưng điều gì sẽ xảy ra nếu chính các sai số chuẩn đó bị thổi phồng lên một cách giả tạo, hoặc tệ hơn, bị thu nhỏ lại một cách sai lầm, khiến chúng ta quá tự tin vào những kết quả không đáng tin cậy? Bài học này sẽ tập trung vào hai “cạm bẫy” phổ biến trong hồi quy OLS: đa cộng tuyến (multicollinearity) và biến giả rời rạc (sparse dummy variables). Đa cộng tuyến xảy ra khi các biến giải thích của bạn có tương quan mạnh với nhau, gây khó khăn cho việc tách bạch tác động riêng lẻ của chúng. biến giả rời rạc xảy ra khi một nhóm nào đó trong dữ …