Khóa luận Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử

  • Người chia sẻ :
  • Số trang : 44 trang
  • Lượt xem : 12
  • Lượt tải : 500
  • Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Khóa luận Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Trong những năm gần đây, sựphát triển vượt bậc của công nghệthông tin đã làm tăng sốlượng giao dịch thông tin trên mạng Internet một cách đáng kể đặc biệt là thưviện điện tử, tin tức điện tử. Do đó mà sốlượng văn bản xuất hiện trên mạng Internet cũng tăng theo với một tốc độchóng mặt. Theo sốlượng thống kê từ Broder et al (2003), lượng thông tin đó lại tăng gấp đôi sau từ9 đến 12 tháng, và tốc độthay đổi thông tin là cực kỳnhanh chóng. Với lượng thông tin đồsộnhưvậy, một yêu cầu lớn đặt ra đối với chúng ta là làm sao tổchức và tìm kiếm thông tin có hiệu quảnhất. Phân loại thông tin là một trong những giải pháp hợp lý cho yêu cầu trên. Nhưng một thực tếlà khối lượng thông tin quá lớn, việc phân loại dữliệu thủcông là điều không tưởng. Hướng giải quyết là một chương trình máy tính tự động phân loại các thông tin trên. Chúng em đã tập trung thực hiện đềtài “Tìm hiểu các hướng tiếp cận cho bài toán phân loại văn bản và xây dựng ứng dụng phân loại tin tức báo điện tử” nhằm tìm hiểu và thửnghiệm các phương pháp phân loại văn bản áp dụng trên tiếng Việt. Đểthực hiện việc phân loại, điều bắt buộc đối với tiếng Việt đó là việc tách từ. Trong luận văn này, chúng em cũng tìm hiểu một sốcách tách từtiếng Việt và thử nghiệm một phương pháp tách từmới thích hợp cho việc phân loại mà không dùng bất kỳtừ điển hoặc tập ngữliệu nào. Cuối cùng, chúng em xây dựng phần mềm phân loại văn bản tích hợp vào trang web “Toà soạn báo điện tử” (Luận văn khoá 2000 – Hoàng Minh Ngọc Hải (0012545), Nguyễn Duy Hiệp (0012038)) nhằm phục vụcho việc phân loại tin tức báo điện tử.