Luận án Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô
- Người chia sẻ : vtlong
- Số trang : 107 trang
- Lượt xem : 11
- Lượt tải : 500
Các file đính kèm theo tài liệu này
luan_an_phuong_phap_lua_chon_thuoc_tinh_va_ky_thuat_gom_cum.pdf
- Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
Bạn đang xem trước 20 trang tài liệu Luận án Phương pháp lựa chọn thuộc tính và kỹ thuật gom cụm dữ liệu phân loại sử dụng tập thô, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên
Khai phá dữ liệu. Trong công đoạn khai phá dữ liệu, lý thuyết tập thô có thể được sử dụng giải quyết các vấn đề sau [9, 10, 11, 13, 28]:
– Phân lớp dữ liệu. Là mục đích đầu tiên lý thuyết tập thô hướng tới. Hiện nay, các công cụ tập thô có khả năng giải quyết bài toán phân lớp trong cả hai trường hợp, bảng thông tin nhất quán và không nhất quán.
– Gom cụm dữ liệu. Ngoài khả năng giải quyết hiệu quả bài toán phân lớp, gần đây một số nghiên cứu ứng dụng lý thuyết tập thô vào vấn đề gom cụm cũng đã được thực hiện
– Phát hiện luật kết hợp. Phép phân tích sự phụ thuộc giữa các thuộc tính trong lý thuyết tập thô có thể được sử dụng để phát hiện luật kết hợp, lượng hóa mức độ kết hợp giữa các tập thuộc tính.
Có thể nói lý thuyết tập thô là công cụ hữu hiệu cho quá trình khám phá tri thức từ cơ sở dữ liệu. Tuy vậy, các kết quả nghiên lý thuyết và ứng dụng đến nay vẫn còn những hạn chế. Những hạn chế nổi bật của lý thuyết tập thô kinh điển là [9, 10, 11, 13]:
– Dữ liệu khai phá phải là rời rạc, trong khi phần lớn các cơ sở dữ liệu thực tiễn thường chứa cả các thuộc tính liên tục.
– Dữ liệu khai phá phải đầy đủ, không bị nhiễu trong khi dữ liệu của phần lớn các cơ sở dữ liệu thực tiễn thường bị thiếu và/hoặc chứa nhiễu.
– Tri thức khám phá được dựa trên lý thuyết tập thô thường nhạy cảm với sự biến động của dữ liệu.
– Các thuật toán khai phá dữ liệu dựa vào lý thuyết tập thô thường có độ phức tạp cao.
Có thể thấy, lý thuyết tập thô đã được ứng dụng vào hầu hết các công đoạn của quá trình khám phá tri thức từ dữ liệu. Trong đó, rút gọn thuộc tính được xem là ứng dụng quan trọng nhất của lý thuyết tập thô trong khai phá dữ liệu. Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để tìm ra tập con các thuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu. Đối với một bảng quyết định (tập dữ liệu dành cho bài toán phân lớp, có các thuộc tính điều kiện và thuộc tính quyết định), rút gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo toàn thông tin cho mục đích phân lớp các đối tượng như tập tất cả các thuộc tính điều kiện ban đầu. Các tập hợp con thuộc tính như vậy được gọi là các tập rút gọn. Nói chung, trong một bảng quyết định có thể tồn tại nhiều tập rút gọn. Trong những năm qua, nhiều phương pháp tính toán tập rút gọn đã được nghiên cứu và đề xuất trong cộng đồng các nhà nghiên cứu lý thuyết tập thô. Các phương pháp chính bao gồm: phương pháp sử dụng ma trận phân biệt, phương pháp dựa trên miền dương, phương pháp sử dụng các phép toán trong đại số quan hệ, phương pháp sử dụng entropy thông tin.