Khóa luận Tìm hiểu mô hình CRF và ứng dụng trong trích chọn thông tin trong tiếng Việt

  • Người chia sẻ :
  • Số trang : 56 trang
  • Lượt xem : 10
  • Lượt tải : 500
  • Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Khóa luận Tìm hiểu mô hình CRF và ứng dụng trong trích chọn thông tin trong tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Trong thời đại bùng nổ công nghệ thông tin như hiện nay thì việc ứng dụng công nghệ thông tin trong các lĩnh vực của đời sống ngày càng đa dạng và phong phú. Toàn bộ các ứng dụng đều thực hiện trên các thông tin đầu vào từ dạng đơn giản đến phức tạp. Từ dạng văn bản dạng ký tự thông thường cho đến những thông tin đầu vào phức tạp như hình ảnh, âm thanh. Việc ứng dụng công nghệ xử lý ngôn ngữ cũng hết sức phong phú. Có thể kể tới trong những năm gần đây có một số công nghệ rất nổi tiếng như [1]: Hãng SAMSUNG đưa ra thị trường điện thoại di động P207 có thể nhận biết được các câu nói đơn giản ví dụ “tôi sẽ gọi lại” rồi chuyển chúng về dạng tin nhắn. Bên cạnh đó có rất nhiều những công nghệ dịch tự động trên web như Language Tool dịch nhiều thứ tiếng trong google. Có thể phân loại các bài toán như xử lý tiếng nói hay xử lý hình ảnh (speech and image processing), xử lý văn bản (text processing), khai phá văn bản hoặc web (text and web mining). Tất cả các bài toán đều được thực hiện bằng máy, tuy nhiên vấn đề đặt ra là làm thế là để máy có thể xử lý một cách tự động lại là một bài toán khó. Cái khó ở chỗ làm sao cho máy hiểu được ngôn ngữ đa dạng của con người. Đối với tiếng Việt đã có một số các sản phẩm liên quan đến tiếng Việt như: Bộ gõ chữ tiếng Việt, chương trình nhận dạng chữ tiếng Việt như VnDOCR của viện Công Nghệ Thông Tin, các phần mềm như EVTRAN, gần đây tiêu biểu là kết quả của việc Việt hóa Windows và Office. Là người đi sau trong lĩnh vực xử lí ngôn ngữ tự nhiên, việc hiểu các công nghệ ngôn ngữ là rất cần thiết. Trong luận văn này đề cập tới ứng dụng của CNTT trong việc trích chọn thông tin trong tiếng Việt. Có rất nhiều phương pháp, trong luận văn này giới thiệu mô hình Conditional Random Field là cơ sở lý thuyết để thực hiện công việc và công cụ CRF++ để thực hành trích chọn thông tin trong tiếng Việt và cụ thể là bài toán trích chọn thông tin nhà đất. Trong khuôn khổ của khóa luận tốt nghiệp với đề tài “Tìm hiểu mô hình CRF và ứng dụng trong trích chọn thông tin trong tiếng Việt” em xin trình bày một công nghệ ứng dụng trong việc xử lý ngôn ngữ tiếng Việt. Nội dung khóa luận gồm 4 chương:  Chương 1: Tổng quan: Giới thiệu tổng quan về trích chọn thông tin, và các cách tiếp cận để xây dựng hệ thống trích chọn thông tin những ứng dụng của trích chọn thông tin, và ứng dụng trong xử lý tiếng Việt, đồng thời cũng mô hình hóa và nêu được ý nghĩa của bài toán trích chọn thông tin nhà đất.  Chương 2: Conditional Random Fields: Chương này giới thiệu một số mô hình học máy như HMM, MEMM và tập trung vào mô hình Conditional Random Field – CRF. Đưa ra được khái niệm trường ngẫu nhiên, trường ngẫu nhiên có điều kiện. Đồng thời cũng chỉ ra được rằng mô hình CRF hiệu quả hơn so với các mô hình học máy khác.  Chương 3: Thuật toán gán nhãn và ước lượng tham số cho mô hình CRF và công cụ CRF++: Chương này đưa ra hai vấn đề cơ bản của mô hình CRF và hướng giải quyết hiệu quả nhất. Ở đây thuật toán gán nhãn sử dụng thuật toán Viterbi một thuật toán trong quy hoạch động. Và hai thuật toán T và thuật toán S giải quyết vấn đề ước lượng tham số cho mô hình CRF. Đồng thời cũng giới thiệu được công cụ CRF++ toolkit, một công cụ cài đặt mô hình CRF được sử dụng trong bài toán trích chọn thông tin nhà đất.  Chương 4: Ứng dụng CRF vào bài toán trích chọn thông tin nhà đất: Chương này nói về việc ứng dụng của mô hình CRF đã nói ở các chương trước vào bài toán trích chọn thông tin nhà đất. Một hướng đi mới trong bài toán xử lý ngôn ngữ tự nhiên.