1. Giới thiệu
Với thời đại tài liệu nở rộ nlỗi ngày nay, tài liệu ta thu thập được rất cao. Trong thực tiễn, cácvector quánh trưng(feature vectors) hoàn toàn có thể có số chiều rất lớn, cho tới vài ngàn. Đồng thời, lượng điểm tài liệu cũng tương đối phệ. Điều kia sẽ gây khó khăn mang đến câu hỏi tàng trữ cùng tính tân oán. Vì vậy, một trong số những bước quan trọng đặc biệt trong tương đối nhiều bài tân oán học máy là ta phảibớt chiều dữ liệu(dimentionality reduction).
Bạn đang xem: Principal component analysis là gì
Giảm chiều dữ liệucòn là phương pháp được sử dụng để bớt vấn đềvượt khớp(overfitting),nó gồm nhị phía là hướngchọn lọc quánh trưng(feature selection) với hướngtrích xuất quánh trưng(feature extraction). Hôm ni ta đang khám phá về một thuật tân oán theo hướngtrích xuất sệt trưnglà Principal Component Analysis (PCA).
Xem thêm: Đánh Giá Camera A9 Pro Từ Người Đã Mua, Đánh Giá Galaxy A9 Pro: Tạm Quên Nỗi Lo Hết Pin
1.1 Giới thiệu về PCA

1.2 Csinh hoạt snghỉ ngơi tân oán học
Kỳ vọng (mean)
Là quý hiếm ước muốn, nó đơn giản dễ dàng là trung bình cùng của toàn thể những giá trịChoNgiá trị





















3. Demo solo giản








Dữ liệu được trải rộng lớn hơn nghỉ ngơi trục PC 1 – thành phần thiết yếu thứ nhất (the first principal component)Dữ liệu được trải rộng it rộng sinh sống trục PC 2 – nguyên tố chính đồ vật hai (the second principal component)Phần này ta áp dụng thỏng viện sklearn để bớt chiều tài liệu và training
from matplotlib.colors import ListedColormapdef plot_decision_regions(X, y, classifier, resolution=0.02): # thiết lập marker generator and color map markers = ("s", "x", "o", "^", "v") colors = ("red", "blue", "lightgreen", "gray", "cyan") cmaps = ListedColormap(colors<:len(np.unique(y))>) # plot the decision surface x1_min, x1_max = X<:, 0>.min() - 1, X<:, 0>.max() + 1 x2_min, x2_max = X<:, 1>.min() - 1, X<:, 1>.max() + 1 xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution), np.arange(x2_min, x2_max, resolution)) Z = classifier.predict(np.array(
plot_decision_regions(X_train_pca, y_train, classifier=lr)plt.xlabel("PC 1")plt.ylabel("PC 2")plt.legend(loc="lower left")plt.tight_layout()plt.show()
Phân nhiều loại tài liệu bên trên tập test chưa đến tài liệu 2 chiều
plot_decision_regions(X_test_pca, y_kiểm tra, classifier=lr)plt.xlabel("PC1")plt.ylabel("PC2")plt.legend(loc="lower left")plt.tight_layout()plt.show()
Ta hoàn toàn có thể thấy chỉ có một vài ba điểm bị phân các loại không đúng, logistic regression hoạt động hơi xuất sắc bên trên không gian hai phía này.
4. Kết luận
4.1 Ưu điểm của PCA
Loại bỏ các đặc thù tương quan (bớt những quánh trưng)Cải thiện tại hiệu suất thuật toánGiảm thừa khớp (overfitting)Cải thiện nay trực quan liêu hóa dữ liệu (dễ trực quan hóa lúc có không nhiều chiều)4.2 Nhược điểm của PCA
Các phát triển thành tự do trnghỉ ngơi phải khó gọi hơn (những đặc thù bắt đầu rất khó phát âm và dễ hiểu nlỗi những đặc thù ban đầu).Chuẩn hóa dữ liệu trước lúc áp dụng PCA.Mất lên tiếng.5. Tài liệu tđắm đuối khảo
<1>Pynhỏ bé machine learning book