Khóa luận Thuật toán Self-Training và Co-Training ứng dụng trong phân lớp văn bản

  • Người chia sẻ :
  • Số trang : 54 trang
  • Lượt xem : 7
  • Lượt tải : 500
  • Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Khóa luận Thuật toán Self-Training và Co-Training ứng dụng trong phân lớp văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Hiện nay, tồn tại một sốthuật toán học phân lớp văn bản thực hiện có kết quảrất tốt khi được xây dựng dựa trên một tập ví dụhọc (dữliệu được gán nhãn – labeled data) lớn. Tuy nhiên, trong thực tếthực thi điều kiện có được tập ví dụlớn là hết sức khó khăn vì ví dụhọc thường phải do con người gán nhãn cho nên đòi hỏi rất nhiều thời gian và công sức. Trong khi đó, các dữliệu chưa gán nhãn (unlabeled data) thì lại rất phong phú. Đối với các bài toán học phân lớp dữliệu văn bản, đặc biệt là phâp lớp trang Web, vấn đềnói trên trởnên phổbiến hơn. Do vậy, việc xem xét các thuật toán học không cần nhiều dữliệu gán nhãn, có khảnăng tận dụng được nguồn rất phong phú các dữliệu chưa gán nhãn nhận được sựquan tâm của nhiều nhà khoa học trên thế giới. Việc học này được đềcập tới là việc học bán giám sát. Vào tháng 1-2006, Xiaojin Zhu đã cho một cái nhìn tổng quan vềcác thuật toán nói trên [23]. Học bán giám sát (semi-supervised learning) là việc học trên cảdữliệu gán nhãn và dữliệu chưa gán nhãn. Phương pháp sửdụng một sốlượng lớn các dữliệu chưa gán nhãn, và một luợng nhỏdữliệu được gán nhãn ban đầu (thường được gọi là seed set) đểxây dựng một bộphân lớp. Vì thông tin được bổsung từdữliệu chưa gán nhãn, tiềm năng sẽthu được một bộphân lớp mới tốt hơn bộphân lớp chỉxây dựng trên dữ liệu gán nhãn. Có nhiều thuật toán học bán giám sát, điển hình nhưcác thuật toán EM [20], TSVM (transductive support vectormachine) [13], SGT (spectral graph transductive) [12]. Trong phạm vi khóa luận này, chúng tôi tập trung vào hai thuật toán thông dụng nhất là thuật toán self-training và co-training. Mục tiêu đặt ra cho khóa luận là khảo sát, phân tích kỹlưỡng hai thuật toán này nhằm đềxuất một sốkỹ thuật làm trơn chúng và ứng dụng chúng trong bài toán phân lớp trang Web. Khóa luận được tổchức thành bốn chương chính với nội dung cơbản nhưsau: • Chương 1 trình bày tổng quan vềphân lớp văn bản và học bán giám sát. Trước khi giới thiệu vềphân lớp văn bản bán giám sát, khóa luận trình bày những nét cơ bản nhất vềphân lớp văn bản có giám sát với thuật toán phân lớp điển hình là Naïve Bayes. Sau đó khóa luận giới thiệu vềthuật toán học bán giám sát và đối sánh với thuật toán học giám sát. • Chương 2trình bày hai thuật toán self-training và co-training. Phần đầu chương giới thiệu hai thuật toán học bán giám sát Self-training, Co-training và đánh giá chúng. Thông qua đó, khóa luận đềxuất một sốkỹthuật làm trơn và mô hình thi hành thuật toán self-training và co-training trên cơsởthuật toán Naïve Bayes. • Thực nghiệm phân lớp trang web được trình bày trong Chương 3. Nội dung thực nghiệm các phương pháp Naïve Bayes được mô tảchi tiết cùng với một sốnhận xét đánh vềgiá kết quảthực nghiệm. • Phần Kết luậntổng hợp các kết quả đạt được của khóa luận và nêu một số phương hướng nghiên cứu tiếp theo.