Luận văn Tóm tắt đa văn bản dựa vào trích xuất câu
- Người chia sẻ :
- Số trang : 65 trang
- Lượt xem : 9
- Lượt tải : 500
- Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
Bạn đang xem trước 20 trang tài liệu Luận văn Tóm tắt đa văn bản dựa vào trích xuất câu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên
Sựphát triển nhanh chóng của mạng Internet cùng với những bước tiến mạnh mẽ của công nghệlưu trữ, lượng thông tin lưu trữhiện nay đang trởnên vô cùng lớn. Thông tin được sinh ra liên tục mỗi ngày trên mạng Internet, lượng thông tin văn bản khổng lồtrong đó đó đã và đang mang lại lợi ích không nhỏcho con người, tuy nhiên, nó cũng khiến chúng ta khó khăn trong việc tìm kiếm và tổng hợp thông tin. Giải pháp cho vấn đềnày là tóm tắt văn bản tự động. Tóm tắt văn bản tự động được xác định là một bài toán thuộc lĩnh vực khái phá dữliệu văn bản; việc áp dụng tóm tắt văn bản sẽ giúp người dùng tiết kiệm thời gian đọc, cải thiện tìm kiếm cũng nhưtăng hiệu quả đánh chỉmục cho máy tìm kiếm. Từnhu cầu thực tếnhưthế, bài toán tóm tắt văn bản tự động nhận được sựquan tâm nghiên cứu của nhiều nhà khoa học, nhóm nghiên cứu cũng nhưcác công ty lớn trên thếgiới. Các bài báo liên quan đến tóm tắt văn bản xuất hiện nhiều trong các hội nghịnổi tiếng như: DUC12001-2007, TAC22008, ACL32001-2007 bên cạnh đó cũng là sựphát triển của các hệthống tóm tắt văn bản như: MEAD, LexRank, Microsoft Word (Chức năng AutoSummarize) Một trong những vấn đềthách thức và được sựquan tâm trong những năm gần đây đối với bài toán tóm tắt văn bản tự động đó là đưa ra kết quảtóm tắt cho một tập văn bản liên quan với nhau vềmặt nội dung hay còn gọi là tóm tắt đa văn bản. Bài toán tóm tắt đa văn bản được xác định là một bài toán có độphức tạp cao. Đa sốmọi người nghĩrằng, tóm tắt đa văn bản chỉlà việc áp dụng tóm tắt đơn văn bản cho một văn bản được ghép từcác văn bản trong một tập văn bản cho trước. Tuy nhiên điều đó là hoàn toàn không chính xác, thách thức lớn nhất của vấn đềtóm tắt đa văn là do dữliệu đầu vào có thểcó sựnhập nhằng ngữnghĩa giữa nội dung của văn bản này với văn bản khác trong cùng tập văn bản hay trình tựthời gian được trình bày trong mỗi một văn bản là khác nhau, vì vậy để đưa ra một kết quảtóm tắt tốt sẽvô cùng khó khăn [EWK]. Rất nhiều ứng dụng cần đến quá trình tóm tắt đa văn bản như: hệthống hỏi đáp tự động (Q&A System), tóm tắt các báo cáo liên quan đến một sựkiện, tóm tắt các cụm dữliệu được trảvềtừquá trình phân cụm trên máy tìm kiếm Hướng nghiên cứu ứng dụng bài toán tóm tắt đa văn bản vào việc xây dựng hệthống hỏi đáp tự động đang là hướng nghiên cứu chính của cộng đồng nghiên cứu tóm tắt văn bản nhưng năm gần đây. Rất nhiều nghiên cứu cho thấy rằng, việc sửdụng phương pháp tóm tắt đa văn bản dựa vào câu truy vấn (Query-based multi-document summarization) đối với kho dữliệu tri thức để đưa ra một văn bản tóm tắt trảlời cho câu hỏi của người sử dụng đạt được nhiều kết quảkhảquan cũng nhưthểhiện đây là một hướng tiếp cận đúng đắn trong việc xây dựng các mô hình hỏi đáp tự động [Ba07,YYL07]. Với việc lựa chọn đềtài “Tóm tắt đa văn bản dựa vào trích xuất câu”, chúng tôi tập trung vào việc nghiên cứu, khảo sát, đánh giá và đềxuất ra một phương pháp tóm tắt đa văn bản phù hợp với ngôn ngữtiếng Việt, bên cạnh đó áp dụng phương pháp này vào việc xây dựng một mô hình hệthống hỏi đáp tiếng Việt. Ngoài phần mở đầu và kết luận, luận văn được tổchức thành 5 chương như sau: • Chương 1: Khái quát bài toán tóm tắtgiới thiệu khái quát bài toán tóm tắt văn bản tự động nói chung và bài toán tóm tắt đa văn bản nói riêng, trình bày một sốkhái niệm và cách phân loại đối với bài toán tóm tắt. • Chương 2: Tóm tắt đa văn bản dựa vào trích xuất câu giới thiệu chi tiết về hướng tiếp cận, thách thức và các vấn đềtrong giải quyết bài toán tóm tắt đa văn bản dựa vào trích xuất câu. • Chương 3: Độtương đồng câu và các phương pháp tăng cường tính ngữ nghĩa cho độtương đồng câutrình bày các nghiên cứu vềcác phương pháp tính độtương đồng ngữnghĩa câu tiêu biểu áp dụng vào quá trình trích xuất câu quan trọng của văn bản. 3 • Chương 4: Một số đềxuất tăng cường tính ngữnghĩa cho độtương đồng câu và áp dụng vào mô hình tóm tắt đa văn tiếng Việt phân tích, đềxuất một phương pháp tích hợp các thuật toán đểgiải quyết bài toán tóm tắt đa văn bản tiếng Việt và trình bày việc áp dụng phương pháp được đềxuất đểxây dựng mô hình hệthống hỏi đáp tiếng Việt đơn giản. • Chương 5: Thực nghiệm và đánh giátrình bày quá trình thửnghiệm của luận văn và đưa ra một số đánh giá, nhận xét các kết quả đạt được
