Luận văn Nghiên cứu ứng dụng học bán giám sát
- Người chia sẻ :
- Số trang : 13 trang
- Lượt xem : 7
- Lượt tải : 500
- Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
Bạn đang xem trước 20 trang tài liệu Luận văn Nghiên cứu ứng dụng học bán giám sát, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên
Công nghệ thông tin phát triển mạnh đã đem lại nhiều tiện ích cho cuộc sống, được ứng dụng rộng rãi ởnhiều lĩnh vực, đặc biệt là thưviện điện tử, tin tức điện tử Dođó mà sốlượng văn bản xuất hiện trên mạng Internet cũng tăng với một tốc độchóng mặt, và tốc ñộthayđổi thông tin là cực kỳnhanh chóng. Hầu hết sốlượng thông tin đồsộlà chưa được gán nhãn, một yêu cầu lớnđặt ra là làm sao tổchức và tìm kiếm thông tin, dữliệu có hiệu quảnhất. Đểgiải quyết vấn đềtrên thì bài toán phân lớp là một trong những giải pháp hợp lý. Trong thực tếlà sốlượng thông tin quá lớn, sử dụng phương pháp phân lớp dữ liệu bằng thủ công là điều không thể. Hướng giải quyết là tìm một chương trình máy tính tự ñộng phân lớp các thông tin dữliệu trên. Đểxửlý các bài toán phân lớp tựđộng thì phải xây dựngđược bộphân lớp cóđộtin cậy cao,đòi hỏi phải có một lượng lớn các mẫu dữliệu huấn luyện tức là các văn bản đã được gán nhãn lớp tương ứng. Tuy nhiên giải quyết vấn đềnày thường gặp nhiều khó khăn vì các dữliệu huấn luyện này thường rất hiếm vàđắt vìđòi hỏi phải tốn nhiều thời gian và công sức của con người. Đểkhắc phục những hạn chếtrên cần phải có một phương pháp học không cần nhiều dữliệu gán nhãn và có khảnăng tận dụng được các nguồn dữliệu chưa gán nhãn rất phong phú như hiện nay, phương pháp học đó là học bán giám sát. Học bán giám sát chính là cách học sửdụng thông tin chứa trong cảdữliệu chưa gán nhãn và tập huấn luyện đãđược gán nhãn, 3 phương pháp học này đang được sửdụng rất phổbiến vì khảnăng tiện lợi của nó. Vì vậy, luận văn tập trung vào nghiên cứu bài toán phân lớp sử dụng quá trình học bán giám sát, và việc áp dụng thuật toán bán giám sát máy hỗtrợvector (Support VectorMachine – SVM) vào bài toán phân lớp (loại) văn bản và trang Web.
