Đề tài Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp

Người chia sẻ :
Số trang : 41 trang
Lượt xem : 24
Lượt tải : 500

Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Đề tài Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Như chúng ta đã biết, hầu hết các thông tin được trao đổi hiện nay nằm dưới dạng tài liệu văn bản. Các thông tin đó có thể là các bài báo, các tài liệu kinh doanh, các thông tin kinh tế, các bài nghiên cứu khoa học. Dù áp dụng Cơ sở dữ liệu vào trong hoạt động của tổ chức là rất phổ biến và đem lại nhiều lợi ích khi lưu trữ và xử lý, nhưng ta không thể quên được rằng còn rất nhiều dạng thông tin khác được lưu trữ dưới dạng văn bản. Thậm chí ngay cả trong các thông tin được lưu trong các cơ sở dữ liệu thì phần lớn trong số chúng cũng được tổ chức dưới dạng văn bản. Hiện nay, các tổ chức đã áp dụng công nghệ thông tin vào quản lý hệ thống công văn giấy tờ, ví dụ các hệ thống sử dụng Lotus Node. Tuy nhiên đó chỉ thực sự là cách quản lý luồng dữ liệu văn bản, cung cấp các công cụ kho chứa, còn dữ liệu vẫn thực sự nằm dưới dạng văn bản. Chúng ta chưa có các giải thuật phân loại, tìm kiếm tài liệu, các công cụ trích lọc thông tin nhằm mục đích thống kê, phát hiện tri thức, ra quyết định trực tiếp trên các nguồn dữ liệu kiểu này. Với thực tế đó, vấn đề đặt ra là làm thế nào chúng ta có thể khai thác được những thông tin hữu ích từ các nguồn tài liệu văn bản nói chung. Các nguồn dữ liệu này phải được xử lý như thế nào để người dùng có thể có những công cụ tự động hoá trợ giúp trong việc phát hiện tri thức và khai thác thông tin. Rõ ràng, chúng ta phải hiểu rõ bản chất của dữ liệu văn bản, hiểu rõ các đặc trưng của các dữ liệu loại này để có thể có được những phương pháp luận cần thiết. Việc khai thác thông tin từ các nguồn dữ liệu văn bản trong các tổ chức Việt Nam chắc chắn phải dựa vào những kết quả nghiên cứu về văn bản nói chung, về dữ liệu văn bản và các kỹ thuật xử lý đã được phát triển trên thế giới. Tuy nhiên, những văn bản tiếng Việt lại có những đặc trưng riêng của nó. Ta có thể nhận thấy được ngay sự khác biệt về mặt kí pháp, cú pháp và ngữ pháp tiếng Việt trong các văn bản so với các ngôn ngữ phổ biến trên thế giới như tiếng Anh, tiếng Pháp. Vậy thì những đặc trưng này ảnh hưởng thế nào đến các kỹ thuật khai phá dữ liệu văn bản, ta cần phải có những ký thuật mới nào để có thể tận dụng được những ưu thế của tiếng Việt cũng như giải quyết được những phức tạp trong tiếng Việt. Để trả lời được những câu hỏi này, đồ án sẽ đi từ những bước nghiên cứu về Khai phá dữ liệu văn bản, tìm hiểu những đặc trưng của tiếng Việt, từ đó đề ra phương hướng giúp giải quyết bài toán phân loại văn bản tiếng Việt phức tạp ở các nghiên cứu cao hơn. Các kết quả của nghiên cứu trong đề tài thực tập này sẽ là nhưng bước tiến đầu tiên cho luận văn tốt nghiệp của em với đề tài “Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp.”

NHỮNG LUẬN VĂN LIÊN QUAN

Kinh Tế

Tổng quan về công ty cổ phần đầu tư xây dựng và phát triển nông thôn 658

Trong xu hướng hội nhập toàn cầu như hiện nay thì các doanh nghiệp nước ngoài nói chung và các doanh nghiệp Việt Nam nói riêng phải cạnh tranh nhau gay gắt để tồn tại và phát triển đặc biệt [...]

Download

Kinh Tế

Chủ thể hợp đồng trong hoạt động kinh doanh, trong quá trình phát triển của pháp luật

Thuế doanh thu được Quốc hội khoá VIII Thông qua ngày 30/6/1990 và đã qua 3 lần sửa đổi bổ sung ,trước những tình trạng bất cập về phương thức tính ,biểu thuế,thuế suất doanh thu.Và trước yêu cầu của [...]

Download

Kinh Tế

Xâm phạm bản quyền qua Internet: Nghiên cứu kinh nghiệm của một số quốc gia Anh, Pháp, Mỹ

Ngày nay ít ai trong chúng ta biết rằng những hoạt động thường nhật được biết đến như chia sẻ dữ liệu, tải nhạc Mp3, sao chép các văn bản dữ liệu trên mạng Internet lại có thể là những [...]

Download

Kinh Tế

Hợp đồng giao nhận thầu mua sắm hàng hóa – Lý luận và thực tiễn áp dụng tại Công ty cổ phần Chế tạo điện cơ Hà Nội

Hợp đồng là một khái niệm xuất hiện từ rất lâu cùng với sự phát triển của nền kinh tế. Lịch sử hợp đồng mang lại cho nó nhiều cái tên hơn bất kỳ một khái niệm phổ biến nào [...]

Download