Luận án Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản
- Người chia sẻ : vtlong
- Số trang : 158 trang
- Lượt xem : 10
- Lượt tải : 500
Các file đính kèm theo tài liệu này
luan_an_nghien_cuu_cac_phuong_phap_hoc_may_cho_trich_xuat_th.pdf
- Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
Bạn đang xem trước 20 trang tài liệu Luận án Nghiên cứu các phương pháp học máy cho trích xuất thông tin tự động từ văn bản, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên
Ngày nay, dữ liệu được coi là một nguồn tài nguyên vô cùng quan trọng với
sự gia tăng nhanh chóng theo thời gian. Một phần rất lớn dữ liệu thường được trình
bày dưới các dạng văn bản, tài liệu không có cấu trúc hoặc bán cấu trúc và hoàn toàn
miễn phí. Tuy nhiên, việc tìm kiếm và trích chọn ra được các thông tin người dùng
cần từ những nguồn dữ liệu này là điều không dễ dàng. Việc này đã thúc đẩy những
nghiên cứu về các phương pháp, kỹ thuật nhằm phân tích dữ liệu và trích xuất thông
tin từ văn bản một cách hiệu quả.
Trích xuất thông tin (Information Extraction) thực hiện trích xuất tự động
những thông tin có cấu trúc như các thực thể, các ý kiến/quan điểm mô tả thực thể,
mối quan hệ giữa các thực thể, hay các sự kiện từ các nguồn dữ liệu không có cấu
trúc hoặc bán cấu trúc. Mục tiêu cuối cùng là chuyển thông tin trong văn bản sang
một hình thức dễ tiếp cận (/truy xuất) hơn để có thể tiếp tục xử lý, nhằm hỗ trợ tốt
hơn cho người dùng.
Hiện tại trên thực tế có khá nhiều ứng dụng của trích xuất thông tin, từ các ứng
dụng quản lý thông tin cá nhân, tới các ứng dụng trong doanh nghiệp (như theo dõi
tin tức, chăm sóc khách hàng, làm sạch dữ liệu), đến các ứng dụng trong các lĩnh vực
khoa học (ví dụ, tin sinh học), và đặc biệt là sự phát triển mạnh mẽ của các ứng dụng
hướng web (như cơ sở dữ liệu trích dẫn, cơ sở dữ liệu ý kiến/quan điểm, các trang
web cộng đồng, so sánh khi mua sắm) [40,101].