Đồ án Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản tiếng Việt
- Người chia sẻ :
- Số trang : 44 trang
- Lượt xem : 10
- Lượt tải : 500
- Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
Bạn đang xem trước 20 trang tài liệu Đồ án Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên
Chữ viết tiếng Việt của chúng ta có một đặc trưng rất riêng biệt đó là có sự xuất hiện của các dấu thanh và dấu của các ký tự. Điều này giúp cho tiếng Việt thêm thanh, thêm điệu. Tuy nhiên, chính việc thêm thanh, thêm điệu này làm cho việc gõ tiếng Việt trở nên tốn nhiều thời gian hơn. Trong cuộc sống hiện đại ngày nay, việc sử dụng các ứng dụng công nghệ thông tin để trao đổi và truyền thông tin ngày càng trở lên phổ biến. Hàng ngày, chúng ta đọc và nhận được rất nhiều email, blog, những tin nhắn messenger. nhưng một số trong đó lại được truyền bởi chữ tiếng Việt không dấu. Chúng ta thật là vất vả khi phải vừa đọc vừa đoán nội dung. Chính vì vậy phát triển một công cụ giúp thêm dấu tiếng Việt vào văn bản không dấu là việc rất cần thiết và thú vị. Luận văn được tổ chức thành 3 chương với nội dung như sau: Chương 1: Tổng quan về bài toán thêm dấu cho văn bản tiếng Việt: trong đó trình bày về bài toán và giới thiệu các hệ thống đã có cho bài toán này. Chương 2: Giới thiệu mô hình dịch máy thống kê cho bài toán thêm dấu cho văn bản tiếng Việt. Chương 3: Thực nghiệm là các giới thiệu về việc sử dụng các hệ mã nguồn mở SRILM, GIZA++, MOSES phục vụ cho hệ dịch máy thống kê và các kết quả khi sử dụng hệ này để thêm dấu cho văn bản tiếng Việt. Và cuối cùng là phần kết luận.
