Tìm kiếm |
balkanpoliticalclub.net » Data Mining & Business Intelligence » Data Mining & Business Intelligence » Vấn đề xử trí không bình thường (outlier) vào dữ liệu
![]() ![]() ![]() Trong quá trình thu thập,phân tích dữ liệu, ta thường xuyên gặp những quan gần cạnh mà lại cực hiếm của nó vô cùng không giống biệtso với mức giá trị của những quan liêu sát khác, phía trên điện thoại tư vấn là các phi lý (hay ngoại lai– Outlier). Outlierlà gì? Outlier là những quý giá cực(extreme values) so với những quý hiếm khác được quan lại liền kề vào và một điều kiện.Outlier hoàn toàn có thể là 1 trong cực hiếm hiếm hoi, nhưng cũng hoàn toàn có thể là quý giá từ nhì haynhiều đổi thay số. (Outliers are observations that have sầu extreme values relative toother observations observed under the same conditions. Observations may beoutliers because of a single large or small value of one variable or because ofan unusual combination of values of two or more variables) Vấn đề sống đây là cố gắng nàolà “giá trị cực” giỏi outlier? Đây là thắc mắc cực nhọc trả lời và thường xuyên phụ thuộcvào trải đời so với của bài toán đề ra. Bạn đang xem: Outlier là gì ![]() Phát hiện tại outlier có khá nhiều ýnghĩa với ứng dụng trong tương đối nhiều nghành như phát hiện tại ăn gian vào giao dịchtài chủ yếu, viễn thông…; phân tích hành động quý khách, tín đồ tiêu dùng; phạt hiệnmắc bệnh (những phi lý thường xuyên được quan tâm trong y học tập bởi vì có tác dụng bị bệnhcao);… Mộtsố phương pháp phạt hiện bất thường Có tương đối nhiều phương pháp để pháthiện nay bất thường trong tài liệu tùy trực thuộc vào tài liệu mối cung cấp, trải đời so sánh củabài xích toán đưa ra xuất xắc tay nghề của bạn so sánh. Dựavào phân phối chuẩn (trường hợp dữ liệu tuân thủ theo đúng lao lý phân phối hận chuẩn): Ta biết rằng trường hợp vươn lên là sốX theo đúng vẻ ngoài phân pân hận chuẩn với mức độ vừa phải m cùng độ lệch chuẩn chỉnh s thì 99%những quý giá của X bắt buộc nằm trong tầm m – 3*s cho m + 3*s. Do đó, trường hợp gồm xilàm sao có mức giá trị nằm kế bên khoảng tầm này thì hoàn toàn có thể nghi ngờ là outlier Dựavào đồ thị (histogram, scatter, Plot box…) Dựavào các chuyên môn phân các (clustering technique) Dựavào phương pháp tỷ lệ (Density-based Approaches) Khiphạt hiện những outlier trong tài liệu thìgiải pháp xử lý như thế nào? Có tương đối nhiều cách để xửlý outlier Khi phát hiện nay, mỗi phương pháp có ưu với điểm yếu kém riêng. Việc lựa chọn cáchnào tùy thuộc vào đề nghị so với dữ liệu của bài toán thù đề ra. Sau đấy là một số biện pháp xửlý outliers: ·Deleterows containing outlier: Xóa chiếc tài liệu cất outlier ra khỏitài liệu so sánh. Việc này đã làm mất một số trong những thông báo trên những cột không giống nếunhững cột này nên đến so với. Xem thêm: Figure Out Là Gì - And What About Point Out ·Changevalue to lớn mean: Các cực hiếm outlier sẽ tiến hành cố kỉnh bằng giátrị trung bình ·Changevalue to lớn null: Xóa giá trị oulier đặt lại là null(empty) ·Change value khổng lồ specific value: Đổioutlier thành một quý giá rõ ràng (vị fan phân tích, Chuyên Viên đề xuất) Giớithiệu phương tiện xử lý outlier Phần này giới thiếu hụt côngcầm cố Data mining của Microsoft add-ins vào Excel nhằm vạc hiện tại với xử trí outliervô cùng nhanh lẹ và dễ dàng. Sau Lúc cài Data Mining Add-ins - Excel, vào thực đơn Clean Data=> Outliers![]() Chọnvùng dữ liệu, cùng chọn cột phải phân phát hiện outlier ![]() Trongví dụ này lựa chọn cột các khoản thu nhập hằng tháng (Yearly Income) buộc phải phân tích ![]() Chọn phương pháp cách xử trí khiphạt hiện tại outlier. Ở trên đây lựa chọn là sửa chữa outlier bằng giá trị trung bình ![]() Trong ví dụ này toàn bộ nhữngngười có thu nhập hằng mon bên trên 150000 được xem là các outliers cùng được thaynỗ lực bằng quý hiếm trung bình thu nhập cá nhân của những quan liêu gần cạnh không giống. Chọn thêm cột bắt đầu vào dữliệu mối cung cấp (worksheet đã làm cho việc), copy tài liệu đã cách xử trí outlier ra sheetkhông giống hoặc sửa chữa trực tiếp lên dữ liệu đã thao tác (ko hãy lựa chọn vì đã mấtdữ liệu gốc). Trong ví dụ này chọn thêm cột mới |