Báo cáo Kỹ thuật tách từ trong câu tiếng Việt và ứng dụng tìm kiếm thông tin trên website

  • Người chia sẻ :
  • Số trang : 62 trang
  • Lượt xem : 8
  • Lượt tải : 500
  • Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Báo cáo Kỹ thuật tách từ trong câu tiếng Việt và ứng dụng tìm kiếm thông tin trên website, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

 Mô hình không gian vector tính toán độ tương quan giữa câu hỏi và tài liệu bằng cách định nghĩa một vector biểu diễn cho mỗi tài liệu, và một vector biểu diễn cho câu hỏi [Salton, 1875].  Trong đó, tài liệu và câu truy vấn được biểu diễn dưới dạng các vector. Một văn bản d được biểu diễn như một vector của các từ chỉ mục d = (t1,t2,.,tn) với ti là từ chỉ mục thứ i (1≤ i ≤ n) ( các giá trị có thể là số lần xuất hiện của term ti trong văn bản d). Mỗi từ chỉ mục trong văn bản biểu diễn một chiều (dimension) trong không gian. Tương tự, câu truy vấn cũng được biểu diễn như một vector q = (t1,t2,.,tn).  Sau khi đã biểu diễn tập văn bản và câu truy vấn thành các vector trong không gian vector, sử dụng độ đo cosin để tính độ đo tương tự giữa các vector văn bản và vector truy vấn, kết quả sau khi tính toán có thể được xếp hạng theo độ đo tương tự với vector truy vấn.