Luận văn Nghiên cứu phương pháp thu thập tập dữ liệu song song (parallel corpus) Việt – Anh, Việt – Pháp từ các nguồn tài liệu đa ngữ

  • Người chia sẻ :
  • Số trang : 12 trang
  • Lượt xem : 7
  • Lượt tải : 500
  • Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu phương pháp thu thập tập dữ liệu song song (parallel corpus) Việt – Anh, Việt – Pháp từ các nguồn tài liệu đa ngữ, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Trước sự bùng nổ của thông tin như hiện nay, nhu cầu dịch tự động ngày càng lớn. Việc dịch tự động các văn bản, bài báo, tạp chí, (từngôn ngữA sang ngôn ngữB hoặc nhiều ngôn ngữkhác) để phục vụcông việc học tập, nghiên cứu một cách kịp thời, nhanh chóng là một trong những vấn đềhết sức cấp bách. Chính vì vậy, bài toán dịch tự động song song giữa các ngôn ngữcàng có ý nghĩa thiết thực hơn bao giờhết. Ngày nay, với sự phát triển của CNTT, Internet phát triển mạnh và được sử dụng rộng rãi. Các dịch vụ dịch thuật ngày càng trở nên phổ biến và không thể thiếu của con ngườithì việc xây dựng kho dữ liệu song song (Parallel Corpus) là điều cần làm đểlàm cơsở, nền tảng cho hệ thống dịch tự động thông minh hơn nhằm phục vụ cho việc dịch các đoạn văn bản, các bài báo, Ngoài ra kho dữliệu song song cũng rất quan trọng đối với mục đích nghiên cứu và học tập nhưlà tạo hệthống mẫu để đánh giá chất lượng dịch, phục vụcho việc học ngoại ngữ, Ngày nay, việc đánh giá và phát triển các hệthống ngôn ngữkhác như: Tiếng Anh, tiếng Ý, tiếng Pháp, dễ dàng và đạt được chất lượng cao. Bởi vì, các ngôn ngữnày có hệthống kho ngữliệu song song lớn và có chất lượng rất cao. Nhưng đối với tiếng Việt rất khó khăn đểxây dựng một hệthống kho ngữliệu song song chất lượng tốt và hiện nay chưa tồn tại dịch tự động có chất lượng cao. Ví dụnhư GoogleTranslater có hỗtrợtiếng Việt nhưng có chất lượng cũng chỉ khoảng 20% so với chất lượng của con người dịch mà thôi. Nguyên -2-nhân cơbản là các hệthống này vẫn còn thiếu tập dữliệu dịch tự động song song có chất lượng tốt, đủlớn. Hiện nay, tồn tại nhiều phương pháp để thu thập kho ngữ liệu song song cho nhiều ngôn ngữkhác trên thếgiới. Tuy nhiên, đối với tiếng Việt gặp nhiều khó khăn trong việc xây dựng kho ngữliệu song song. Ví dụnhư: Tính nhập nhằng của tiếng Việt, sựphức tạp của từ nhiều âm tiết, Như vậy, chúng tôi có thể áp sử dụng các phương pháp có sẵn và cái tiến đểthu thập được kho ngữliệu song song cho tiếng Việt. Đó là chọn lựa phương pháp thu thập từnguồn tài nguyên sẵn có: Từ các Website đa ngữ trên Internet. Bởi vì, Internet có rất nhiều các Website đa ngữchứa tiếng Việt, tiếng Anh, tiếng Pháp, Và trong thời gian giới hạn đềtài, chúng tôi chỉchọn các cặp ngôn ngữ Việt – Anh, Việt – Pháp vì đây là hai ngôn ngữchủ đạo trong cộng đồng người Việt và tính cấp bách của nó đối với người Việt. Trong tương lai, chúng tôi sẽphát triển cho các cặp ngôn ngữkhác