Khóa luận Sử dụng phương pháp xếp hạng trong bài toán phân cụm Tiếng Việt

  • Người chia sẻ :
  • Số trang : 55 trang
  • Lượt xem : 12
  • Lượt tải : 500
  • Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Khóa luận Sử dụng phương pháp xếp hạng trong bài toán phân cụm Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Cùng với sựgia tăng nhanh chóng vềsốlượng các trang Web thì nhu cầu vềkhai phá dữliệu Web ngày càng nhận được sựquan tâm của các nhà khoa học và các nhóm nghiên cứu. Trong lĩnh vực khai phá Web thì phân cụm Web là một trong những bài toán cơbản và quan trọng. Đây cũng là thành phần chịu nhiều ảnh hưởng của các đặc trưng ngôn ngữ. Khóa luận này tập trung nghiên cứu vềbài toán phân cụm Web sửdụng phương pháp xếp hạng. Trên cơsởlý thuyết phân cụm Web và lựa chọn các đặc trưng của tiếng Việt, khóa luận đã sửdụng phương pháp xếp hạng các cụm từquan trọng vào phân cụm các tài liệu Web tiếng Việt và tiến hành thực nghiệm. Kết quảthực nghiệm đánh giá theo các đặc trưng TFDF, độdài (LEN), tương tựnội tại (ICS), entropy nội tại cụm văn bản (CE) cho thấy đặc trưng TFIDF và LEN có ảnh hưởng lớn hơn so với các đặc trưng khác.