Luận văn Phát hiện dữ liệu bất thường với rừng cô lập

  • Người chia sẻ :
  • Số trang : 119 trang
  • Lượt xem : 6
  • Lượt tải : 500
  • Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Luận văn Phát hiện dữ liệu bất thường với rừng cô lập, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Hầu hết các tiếp cận dựa trên những mô hình đang tồn tại vềphát hiện bất thường đi xây dựng các tiểu sửcủa các thểhiện bình thường, kế đến là nhận dạng ra những thể hiện nào không phù hợp với những tiểu sử bình thường thì cho là bất thường. Đề tài “Phát hiện dữ liệu bất thường với Rừng cô lập” đề cập đến một phương pháp tiếp cận khác biệt vềcơbản đó là cô lập trực tiếp các bất thường thay vì dựa trên mô tảcủa các thểhiện bình thường. Cách tiếp cận này được đềcập trong một bài báo của các tác giảFei Tony Liu, Kai Ming Ting and Zhi-Hua Zhou được đăng vào cuối năm 2008 [27]. Đềtài đã nghiên cứu tổng quan vềdữliệu bất thường và các kỹthuật phát hiện bất thường hiện tại, triển khai thành công kỹthuật rừng cô lập theo ý tưởng giải thuật được các tác giả đềxuất [27], lựa chọn những tập dữliệu có những tính chất đặc trưng để tiến hành thực nghiệm trên mô hình và đánh giá hiệu quả phát hiện của mô hình. Các thực nghiệm đã chứng tỏ được việc sửdụng ít bộnhớlà ưu điểm nổi bật của mô hình bởi vì bộnhớ đòi hỏi cho mô hình chỉ tăng tuyến tính theo sốlượng cây và kích thước mẫu (không bị ảnh hưởng bởi kích thước toàn tập dữliệu). Ngoài ra, từthực nghiệm đã khẳng định rằng mô hình sẽ đáp ứng tốt về hiệu quảphát hiện bất thường cho các tập dữliệu thoảmãn được hai tính chất “ít và khác” ngay cảkhi không có thểhiện bất thường nào trong tập kiểm tra. Bên cạnh đó, mô hình đã bộc lộmột số điểm yếu đó là: đối với những tập dữliệu không thoả mãn tốt hai giả định “ít và khác” thì mô hình cho kết quảkhông tốt, thậm chí là rất tệ, điều này hạn chếkhảnăng ứng dụng của mô hình trên các tập dữliệu được thu thập tựnhiên.