Khóa luận Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức

  • Người chia sẻ :
  • Số trang : 45 trang
  • Lượt xem : 12
  • Lượt tải : 500
  • Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Khóa luận Phương pháp học gần không giám sát để trích chọn thực thể tên tổ chức, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Trích chọn thông tin là lĩnh vực quan trọng trong khai phá dữliệu, trong đó trích chọn thực thểlà một bài toán con, cơbản nhưng đóng vai trò hết sức quan trọng. Nó có thể được sửdụng đểhỗtrợcho phương pháp tìm kiếm mới – tìm kiếm hướng thực thể, và góp phần quan trọng cho việc xây dựng web ngữnghĩa. Có nhiều phương pháp tiếp cận khác nhau cho bài toán trích chọn thực thểnhư phương pháp học máy HMM, Trong khóa luận này em trình bày một phương pháp đểtrích chọn thực thểtên tổchức tiếng Việttrong văn bản tiếng Việt trên môi trường Web. Phương pháp này dựa trên ý tưởng của Sergey Brin mà cụthểhơn là thuật toán DIPRE trong việc trích chọn cặp quan hệ tên sách và tác giảcủa những cuốn sách tiếng Anh trên môi trường Web. Ưu điểm của phương pháp này là cần ít sựcan thiệp của con người, không cần sựhỗtrợcủa các ứng dụng phụnhưxác định từloại (POS – tag). Kết quảthực nghiệm trên các văn bản tiếng Việt cho thấy phương pháp này tương đối khảquan.