Khóa luận So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại Tiếng Việt

  • Người chia sẻ :
  • Số trang : 68 trang
  • Lượt xem : 11
  • Lượt tải : 500
  • Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Khóa luận So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Gán nhãn từloại (Part-of-Speech Tagging) là một trong hai bài toán nền tảng, đóng vai trò quan trọng trong các hệthống xửlý ngôn ngữtựnhiên. ỞViệt Nam đã có một sốnghiên cứu vềbài toán này, tuy nhiên kết quả đạt được vẫn còn ởmức khiêm tốn so với nhiều ngôn ngữkhác. Việc tìm hiểu các phương pháp gán nhãn từloại trong tiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết quảtốt hơn cảtrong các phương pháp đã được công bố. Nội dung khóa luận tập trung so sánh ba phương pháp học máy cho bài toán gán nhãn từloại tiếng Việt, đó là mô hình cực đại hóa Entropy (MEM- Jaynes, 1957); mô hình miền ngẫu nhiên điều kiện (CRF- Laferty, 2001) và mô hình máy véc tơhỗtrợ (SVM- Vapnik & Chervonekis, 1995). Đây là ba phương pháp học máy đã được ứng dụng thành công trong rất nhiều bài toán xửlý ngôn ngữtựnhiên. Thực nghiệm áp dụng ba mô hình học máy này được tiến hành trên cùng môi trường phần cứng và sử dụng cùng một tập đặc trưng để đảm bảo tính khách quan. Kết quảthu được trên các dữliệu thực nghiệm cho thấy mô hình CRF có độchính xác cao nhất và thời gian gán nhãn tốt nhất, trong khi đó SVM và MEM có ưu thếhơn vềthời gian huấn luyện. Kết quảnày khá tương đồng với kết quảcủa một vài nghiên cứu tương đương trong các ngôn ngữkhác và đã khẳng định được tính khảthi của ba mô hình này cho tiếng Việt.