Khóa luận Phân tích cú pháp tiếng Việt theo tiếp cận thống kê

  • Người chia sẻ :
  • Số trang : 78 trang
  • Lượt xem : 12
  • Lượt tải : 500
  • Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Khóa luận Phân tích cú pháp tiếng Việt theo tiếp cận thống kê, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Phân tích cú pháp là một trongnhững bài toán cơ bản và quan trọng nhất trong xửlý ngôn ngữtựnhiên(XLNNTN). Kết quảcủa phân tích cú pháp được sửdụng trong rất nhiều ứng dụng XLNNTN khác như dịch máy, hỏi đáp, trích chọn thông tin Xây dựng một bộphân tích cú pháp cho tiếng Việt có độchính xác cao là một công việc rất có ý nghĩa. Mục tiêu đềra của luận văn là xây dựng bộphân tích cú pháp tiếng Việt theo tiếp cận thống kê. Đây là một hướng tiếp cận khá mới mẻtrong cách xây dựng bộphân tích cú pháp tiếng Việt. Luận văn sẽtrìnhbày khái quát vềcác cách tiếp cận trong việc xây dựng bộphân tích cú pháp, và đi sâu tìm hiều vềvăn phạm phi ngữcảnh xác suất từvựng(Lexicalized Probabilistic Context Free Grammar). Cụthể hơn, tôi tìm hiểu, nghiên cứu 3 mô hình xác suất của Collins [11], và áp dụng công cụ phân tích của Bikel’s[9]đểthửnghiệm cho phân tích cú pháp tiếng Việt. Phân tích cú pháp dựa theo thống kê cần có dữliệu đểhuấn luyện mô hình. Trong luận văn, tôisẽ sử dụng ngữ liệu Viet Treebank. Kết quả thực nghiệm cho thấy độ chính xác (precision) là trên80%với hơn 9000 câu huấn luyện và 500 câu kiểm tra. Những kết quảcủa luận văn cho thấy rằng, đối với tiếng Việt, mô hình 1 của Collin có độchính xác thấp hơn so với mô hình 2, và mô hình 3 chưa thực sựhiệu quả. Ngoài ra, kết quả thực nghiệm còn chỉra một sốtham sốcủa mô hình 2 của Collins có ảnh hưởng tới độ chính xác của bộphân tích cú pháp.