Khóa luận Bài toán phân lớp văn bản và áp dụng phân lớp dữ liệu tài chính ngân hàng
- Người chia sẻ :
- Số trang : 54 trang
- Lượt xem : 11
- Lượt tải : 500
- Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
Bạn đang xem trước 20 trang tài liệu Khóa luận Bài toán phân lớp văn bản và áp dụng phân lớp dữ liệu tài chính ngân hàng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên
Hiện nay, sựphát triển mạnh mẽcủa Internet đã dẫn đến sựbùng nổthông tin về nhiều mặt kểcảnội dung lẫn sốlượng. Chỉbằng một thao tác tìm kiếm đơn giản, ta có thểnhận vềmột khối lượng khổng lồcác trang web có chứa thông tin liên quan tới nội dung cần tìm kiếm. Tuy nhiên, chính sựdễdàng này cũng mang đến cho con người rất nhiều khó khăn trong việc chiết lọc ra các thông tin có ích đểthu được các tri thức mới. Phát hiện tri thức và khai phá dữliệu là câu trảlời mới nhất cho vấn đềnày nhằm phát hiện ra các tri thức mới từkhối dữliệu khổng lồmà con người có được. Trong thời gian gần đây, cùng với sựphát triển của nền kinh tế đất nước là sự phát triển vượt bậc của nền công nghệthông tin. Tin học đã được áp dụng trong tất cả các lĩnh vực nhưkinh tế, thương mại, y tế, ngân hàng Hầu hết các lĩnh vực này đề lưu trữmột cơsởdữliệu rất lớn. Các kỹthuật thống kê truyền thống và các công cụ quản lý dữliệu trước đây không đáp ứng được nhu cầu phân tích tập dữliệu lớn này. Từ đòi hỏi đó phải có những phương pháp tiếp cận mới đểkhai phá tri thức trong các cơsởdữliệu. Trong các loại dữliệu thì dữliệu văn bản là phổbiến nhất. Khai phá dữliệu văn bản là sựkhảo sát và phân tích một tập lớn các văn bản không có cấu trúc một cách tự động hoặc bán tự động đểkhám phá ra những tri thức mới. Với lượng thông tin dạng văn bản đồsộcủa Internet, một yêu cầu lớn đặt ra là làm sao tổchức và tìm kiếm thông tin có hiệu quảnhất. Phân lớp thông tin là một trong những giải pháp hợp lý cho vấn đềnêu trên. Bài toán phân lớp văn bản là một trong những bài toán cơbản của khai phá dữliệu văn bản. Cho trước một tập dữliệu văn bản, bài toán thực hiện quá trình gán nhãn (phân lớp) cho từng tài liệu tương ứng với nội dung của nó thông qua bộphân lớp.
