Luận án Nghiên cứu phương pháp chuẩn hóa văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói Tiếng Việt

  • Người chia sẻ : vtlong
  • Số trang : 124 trang
  • Lượt xem : 16
  • Lượt tải : 500

Các file đính kèm theo tài liệu này

  • luan_an_nghien_cuu_phuong_phap_chuan_hoa_van_ban_va_nhan_dan.pdf
  • Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu phương pháp chuẩn hóa văn bản và nhận dạng thực thể định danh trong nhận dạng tiếng nói Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Trong xã hội hiện đại, thông tin có thể dễ dàng được tiếp cận trên phạm
vi toàn cầu nhờ hệ thống Internet rộng khắp. Bên cạnh thông tin dạng văn bản
thì thông tin dạng âm thanh, phim ảnh ngày càng trở nên phổ biến và thu hút
sự quan tâm của người sử dụng Internet nhờ hệ thống băng thông mạng ngày
càng được mở rộng. Mặc dù vậy, thông tin dưới dạng văn bản vẫn có giá trị
riêng biệt mà khó có dạng thức thông tin nào có thể thay thế được – nhất là
trong các hoạt động giao tiếp thuộc các lĩnh vực như: kinh tế, chính trị, ngoại
giao, khoa học. Kết quả các cuộc đàm phán, đối thoại song phương, đa
phương bao giờ cũng được hiện thực hóa bằng các văn bản ghi nhớ của các
bên liên quan.
Xử lý ngôn ngữ tự nhiên (XLNNTN) là lĩnh vực khoa học máy tính kết
hợp giữa trí tuệ nhân tạo và ngôn ngữ học tính toán, nhằm xử lý tương tác
giữa con người và máy tính sao cho máy tính có thể hiểu hay bắt chước được
ngôn ngữ của con người. XLNNTN bao gồm hai nhánh lớn là xử lý tiếng nói
(Speech processing) và xử lý văn bản (Text processing).
Một trong những bài toán quan trọng trong hiểu ngữ nghĩa văn bản viết
hay nói là nhận dạng thực thể định danh (Named Entity Recognition – NER).
Có thể nói, đây là một bài toán tiền đề cho các hệ thống về hiểu ngôn ngữ hay
khai phá văn bản như trích xuất sự kiện, hỏi đáp tự động hay tìm kiếm ngữ
nghĩa. Đã có nhiều nghiên cứu đạt được những kết quả rất khả quan cho bài
toán NER với dữ liệu văn bản viết thông thường trong nhiều ngôn ngữ trên
thế giới cũng như tiếng Việt. Trong khi đó, các nghiên cứu về nhận dạng thực
thể định danh cho văn bản đầu ra của nhận dạng tiếng nói (Automatic Speech
Recognition – ASR) có những khó khăn riêng so với văn bản viết, và có ít
công trình nghiên cứu cho tiếng Việt.