Trong bài học trước, chúng ta đã trang bị các công cụ toán học cần thiết để mô tả dữ liệu đa biến, từ vector trung bình đến ma trận hiệp phương sai. Giờ đây, với nền tảng vững chắc đó, chúng ta đã sẵn sàng khám phá kỹ thuật giảm chiều dữ liệu đầu tiên và quan trọng nhất: Phân tích Thành phần chính, hay PCA (Principal Component Analysis). Đây là một kỹ thuật được Pearson khởi xướng vào năm 1901 và sau đó được Hotelling phát triển, đã trở thành một công cụ không thể thiếu trong kho tàng của các nhà kinh tế lượng và khoa học dữ liệu. Hãy tưởng tượng bạn đang đối mặt với một bộ dữ liệu có hàng chục, thậm chí hàng trăm biến tương quan với nhau. Việc đưa tất cả các biến này vào một mô hình hồi quy không chỉ gây ra vấn đề đa cộng tuyến nghiêm trọng mà còn làm cho việc diễn giải trở nên vô cùng phức tạp. PCA giải quyết vấn đề này bằng …

🔔 Khu vực THÀNH VIÊN
Bạn cần đăng ký một gói Thành viên để truy cập nội dung này.
Các gói hiện có:
Bạn đã có tài khoản → đăng nhập
Back to top button