Luận văn Xây dựng mục lục cho văn bản

  • Người chia sẻ :
  • Số trang : 47 trang
  • Lượt xem : 7
  • Lượt tải : 500
  • Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Luận văn Xây dựng mục lục cho văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Trong vài thập kỉ qua, lượng thông tin được số hoá ngày càng nhiều. Ban đầu là các thư viện với các cuốn sách được lưu trữ số hoá, tiếp đến là các nội dung thông tin được đưa lên Internet dưới nhiều hình thức khác nhau. Hơn thế nữa, với sự ra đời của World Wide Web thì thông tin đã thực sựbùng nổ, con người ngày càng muốn có nhiều thông tin hơn và muốn tìm cách đểcó thểnắm bắt được thông tin nhanh, chính xác và cô đọng. Rất nhiều bài toán trong xửlí ngôn ngữtựnhiên đã được đặt ra và giải quyết nhằm giúp máy tính có thểhiểu được phần nào các văn bản sốhoá rồi từ đó trình bày lại theo một hình thức nào đó đểgiúp con người tìm kiếm và thu thập thông tin nhanh hơn. Các bài toán có thểkể đến như: thu nhận thông tin, phân cụm văn bản, phân lớp văn bản, rút trích thông tin, hệthống hỏi đáp, tóm tắt văn bản, Những bài toán này đã phần nào được giải quyết và đã thểhiện phần nào ý nghĩa đối với người sửdụng. Ví dụnhưcác hệthống máy tìm kiếm Yahoo!, Google, đã có thểgiúp người dùng thu thập thông tin theo truy vấn, trảlại trang thông tin và tóm tắt nội dung của trang thông tin đểgiúp con người có thểnhanh chóng tìm ra được thông tin mình cần. Bài toán tóm tắt văn bản ra đời với vai trò giúp người truy cập thông tin có thểdễdàng nắm bắt được những nội dung chính của văn bản ởmột dạng cô đọng hơn. Một ví dụ điển hình là tủchứa các thẻtrình bày tóm tắt thông tin về cuốn sách ởcác thưviện, nó giúp người đọc có thểtìm kiếm nhanh tới cuốn sách mình cần. Hay trong thời đại thông tin được sốhoá hiện nay, ở đầu mỗi bài báo hay một bài trình bày hoặc một bài viết dài vềmột vấn đềnào đó, người ta thường đưa thêm vào một đoạn tóm tắt ngắn của toàn bộnội dung. Tuy nhiên, không phải lúc nào thông tin tóm tắt đó cũng có sẵn, một phần vì các tóm tắt đó được thực hiện theo phương pháp thủcông và đôi khi không phải do chính tác giảviết ra. Từ đó đặt ra vấn đềlà làm sao đểcó thểtự động hoá quá trình tóm tắt văn bản dựa trên nội dung sẵn có. Trên thếgiới đã có rất nhiều công trình nghiên cứu vềvấn đềnày và cũng nghiên cứu cách thức tóm tắt theo nhiều hướng khác nhau, từrút trích một đoạn văn, rút trích một vài câu quan trọng cho tới rút trích các cụm từcó ý nghĩa; rồi từtóm tắt trên một văn bản tới tóm tắt trên phạm vi nhiều văn bản; Tuy nhiên hầu hết các phương pháp hiện tại đều áp dụng cho các văn bản tương đối ngắn nhưtin tức, bài hướng dẫn, bài trình bày, và không có tính chất định vịthông tin. Đối với các văn bản cỡlớn hơn nhưtài liệu nghiên cứu, sách, thì có rất ít 2 các công trình nghiên cứu. Trong số đó có một bài toán được quan tâm đặc biệt trong thời gian gần đây, đó là bài toán xây dựng mục lục cho văn bản. Cơsởcủa bài toán này là bản thân mục lục của một tài liệu dài không những chứa một lượng lớn thông tin vềnội dung của văn bản mà còn có khảnăng định vịthông tin bên trong văn bản. Ngoài ra các tiêu đềnằm ởmục lục còn manh tính súc tích cao. Với thực tếnhư đã trình bày ởtrên, luận văn tiến hành nghiên cứu và đề xuất phương pháp xây dựng mục lục cho văn bản thông qua đềtài “Xây dựng mục lục cho văn bản”. Mục tiêu của luận văn là nghiên cứu, giải quyết và đề xuất phương pháp giải quyết bài toán xây dựng mục lục cho văn bản cỡtrung bình và lớn thông qua các công trình nghiên cứu hiện tại trên thếgiới. Cơsởcủa đềtài là các kết quảnghiên cứu đã được công bốtrên thếgiới vềbài toán phân đoạn văn bản và bài toán sinh tiêu đềcho văn bản. Luận văn cũng tiến hành thử nghiệm trên một vài văn bản với sự đánh giá của các chuyên gia là các nhà ngôn ngữhọc để đánh giá vềtính chính xác của kết quả đạt được. Các kết quảbước đầu đạt được cho thấy hướng nghiên cứu của luận văn là có triển vọng và có khả năng phát triển tiếp thành một bài toán tổng thểcỡlớn hơn. Ngoài phần mở đầu và kết luận, kết cấu của luận văn bao gồm 4 chương: – Chương 1 “Giới thiệu bài toán” tóm tắt một sốbài toán trong lĩnh vực tóm tắt văn bản, phát biểu bài toán xây dựng mục cho văn bản, đồng thời phần tích các công trình có liên quan và đưa ra phương hướng giải quyết. – Chương 2 “Các phương pháp giải quyết bài toán” trình bày các phương pháp dùng trong quá trình xây dựng mục lục, phân tích điểm mạnh và yếu của mỗi phương pháp. – Chương 3 “Xây dựng mục lục cho văn bản” sẽ đi sâu vào việc tích hợp các thuật toán đểgiải quyết bài toán chính của luận văn, đồng thời đềxuất một sốhướng cải tiến và cơsởlí luận của các cải tiến đó. – Chương 4 “Thửnghiệm và đánh giá” sẽtrình bày quá trình thử nghiệm của luận văn và các kết quả đạt được trong quá trình thử nghiệm. Đồng thời cũng đưa ra các phân tích và đánh giá vềkết quả đạt được.