Đề tài Trích chọn quan hệ thực thể trên wikipedia tiếng việt dựa vào cây phân tích cú pháp

  • Người chia sẻ :
  • Số trang : 68 trang
  • Lượt xem : 9
  • Lượt tải : 500
  • Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Đề tài Trích chọn quan hệ thực thể trên wikipedia tiếng việt dựa vào cây phân tích cú pháp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Trích chọn quan hệ ngữ nghĩa (hay quan hệ) được xem là bài toán cơ bản của xử lý ngôn ngữ tự nhiên, thực hiện nhiệm vụ trích chọn quan hệ giữa các khái niệm về mặt ngữ nghĩa hoặc dựa vào quan hệ xác định trước nhằm tìm kiếm những thông tin phục vụ cho quá trình xử lý khác. Trích chọn quan hệ được ứng dụng nhiều cho các bài toán như: xây dựng Ontology[15, 16, 19, 22], hệ thống hỏi đáp [22,29], phát hiện ảnh qua đoạn văn bản [11], tìm mối liên hệ giữa bệnh-genes [27], Vì thế, trích chọn quan hệ không những nhận được sự quan tâm rất lớn từ các nhà nghiên cứu, các hội nghị lớn trên thế giới trong nh ững năm gần đây như: Coling/ACL, Senseval, mà còn là một phần trong các dự án quan trọng mang tầm cỡ quốc tế trong lĩnh vực khai phá dữ liệu như: ACE (Automatic Content Extraction), DARPA EELD (Evidence Extraction and Link Discovery), ARDA-AQUAINT (Question Answering for Intelligence), ARDA NIMD (Novel Intelligence from Massive Data). Tại Việt Nam, bài toán này vẫn đặt ra rất nhiều thách thức do tính phức tạp của ngôn ngữ tiếng Việt và sự không đầy đủ của các tài nguyên ngôn ngữ học. Trên cơ sở phân tích các phương pháp trích chọn quan hệ, khóa luận đã đưa ra mô hình học có giám sát trích chọn quan hệ thực thể dựa vào cây phân tích cú pháp trên miền dữ liệu Wikipedia tiếng Việt. Kết quả thực nghiệm bước đầu cho thấy mô hình là kh ả quan và có khả năng ứng dụng tốt. Nội dung của khóa luận được bố cục gồm có 4 chương: Chương 1: Giới thiệu khái quát về bài toán trích chọn quan hệ ngữ nghĩa cũng như các khái niệm liên quan. Chương 2: Giới thiệu các phương pháp tiếp cận giải quyết bài toán trích chọn quan hệ. Với mỗi phương pháp học máy: có giám sát, không giám sát và bán giám sát, khóa lu ận giới thiệu một số mô hình tiêu biểu. Đây là cơ sơ phương pháp lu ận quan trọng để khóa luận đưa ra mô hình áp dụng đối với bài toán trích chọn quan hệ trên miền dữ liệu Wikipedia tiếng Việt. Chương 3: Trên cơ sở phân tích ưu và nhược điểm của các phương pháp được trình bày ở chương 2, khóa luận đã lựa chọn phương pháp trích chọn quan hệ dựa trên đặc trưng theo tiếp cận học có giám sát để giải quyết bài toán này. Các đặc trưng của quan hệ được trích chọn dựa trên cây phân tích cú pháp tiếng Việt, sau đó được đưa vào bộ phân lớp sử dụng thuật toán SVM, tìm được loại quan hệ tương 2 ứng, từ đó trích chọn được các thể hiện của quan hệ. Hơn nữa, để giảm công sức cho giai đoạn xây dựng tập dữ liệu học, các đặc trưng biểu diễn dữ liệu giàu cấu trúc trên Wikipedia tiếng Việt đã được sử dụng. Nội dung chính của chương này trình bày các đặc trưng của Wikipedia, cây phân tích cú pháp tiếng Việt và đề xuất một mô hình trích chọn quan hệ dựa trên cây phân tích cú pháp. Chương 4: Thực nghiệm, kết quả và đánh giá. Tiến hành thực nghiệm việc xây dựng tập dữ liệu học, thực nghiệm trích chọn quan hệ sử dụng bộ phân lớp SVM. Phần kết luận và định hướng phát triển khoá luận: Tóm lược những nội dung chính đạt được của khóa luận đồng thời cũng chỉ ra những điểm cần khắc phục và đưa ra những định hướng nghiên cứu trong thời gian sắp tới.