Luận văn Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản Tiếng Việt

Người chia sẻ :
Số trang : 45 trang
Lượt xem : 11
Lượt tải : 500

Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Luận văn Ứng dụng mô hình dịch máy thống kê cho bài toán bỏ dấu cho văn bản Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Dấu thanh là phần “bất khả phân” trong âm tiết tiếng Việt. Khi loại bỏ dấu thanh, việc hiểu nghĩa từ, gồm một hay nhiều âm tiết kết hợp với nhau, trở nên khó khăn và dễ gây hiểu lầm. Để thêm dấu, trƣớc tiên, ta cần phải xác định ranh giới từ. Bài toán xác định ranh giới từ đối với văn bản tiếng Việt có dấu đã là một việc thử thách, thì khi không có dấu, việc nhận diện ranh giới từ trong tiếng Việt cũng nhƣ một số ngôn ngữ Châu Á khác, một từ chính tả có thể không tƣơng ứng với một “từ” trên văn bản. Đối với các thứ tiếng Châu Âu, ta có thể dễ dàng nhận ra một từ, do các từ đƣợc phân cách bởi khoảng trắng. Điều này lại không đúng với tiếng Việt. Trong tiếng Việt, các tiếng_hay còn gọi là âm tiết_đƣợc phân cách bởi khoảng trắng, chứ không phải từ. Sau khi đã nhận diện đƣợc ranh giới từ, ta cần phải xác định cho đúng từ có dấu nào có dạng thể hiện không dấu nhƣ vậy. Việc xác định này cũng gây nhiều khó khăn, khi từ một từ không dấu có thể có nhiều từ có dấu tƣơng ứng với nó.

NHỮNG LUẬN VĂN LIÊN QUAN

Công Nghệ Thông Tin

Thuật toán tô màu đồ thị và ứng dụng xếp lịch thi

Với hình thức học chế tín chỉ, sinh viên có thể chủ động chọn đăng kí môn học theo kế hoạch học tập của mình. Điều này làm cho việc xếp lịch thi trở nên khó khăn hơn. Phòng đào [...]

Download

Công Nghệ Thông Tin

Nghiên cứu xây dựng Website bằng Flash và WebService

Đề tài này trình bày phương pháp lập trình để xây dựng hệ thống website bằng flash và webservice. Với phương pháp này, chúng ta có thể dễ dàng xây dựng được những web site có giao diện đẹp với [...]

Download

Công Nghệ Thông Tin

Thời gian Logic Vector và vấn đề đồng bộ hóa các tiến trình trong bài toán bãi đỗ xe nhiều cổng

Ngày nay, một trong những hướng nghiên cứu quan trọng trong hệ thống phân tán đó là vấn đề đồng bộ hóa các tiến trình sử dụng tài nguyên dùng chung. Để đạt được điều đó thì chúng ta phải [...]

Download

Công Nghệ Thông Tin

Thư viện học liệu trực tuyến

Trong quá trình học tập, việc tìm kiếm tài liệu, trao đổi kiến thức và áp dụng các kiến thức đã học được là một điều rất quan trọng. Tuy nhiên, không phải sinh viên nào cũng có điều kiện [...]

Download