Đề tài Xây dựng và làm giàu dữ liệu chỉ mục với web crawler
- Người chia sẻ :
- Số trang : 89 trang
- Lượt xem : 12
- Lượt tải : 500
- Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
Bạn đang xem trước 20 trang tài liệu Đề tài Xây dựng và làm giàu dữ liệu chỉ mục với web crawler, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên
Cùng với sự phát triển của Internet, số lượng các bài báo khoa học được công bố trên các Web ngày càng tăng, điều này gây ra một s ố khó khăn khi người dùng muốn tìm kiếm các bài báo về vấn đề mà mình nghiên cứu, cũng như gây ra một thách thức lớn đối với các hệ thống đánh dấu, lưu trữ dữ li ệu chỉ mục hỗ trợ tìm kiếm trong việc đảm bảo thông tin các bài báo được cập nhật đẩy đủ, nhanh chóng và chính xác. Hiện nay khi người nghiên cứu cần tìm kiếm một bài báo khoa học, thì họ có th ể tìm kiếm trên các Search Engine như Google Scholar 1 , và một số thư viện số phổ biến như: ACM 2 (thư viện số của tổ chức “Association for Computing Machinery”), IEEEXplore 3 (thư viện số của tổ chức “Institute of Electrical and Electronics Engineers”), thư viện mở CiteSeer 4 hoặc từ cơ sở dữ li ệu chỉ mục có sẵn như DBLP 5 . Vấn đề đặt ra ở đây là: đối với mỗi thư viện số thì vi ệc cập nhật bài báo mới được thực hiện ngay khi có các cuộc hội thảo hay tạp chí mà tổ chức xuất bản, nhưng thư viện số không cập nhật ngay được những bài báo mới từ tổ chức khác – hay việc trao đổi dữ li ệu giữa các thư viện số của các tổ chức khác nhau hiện nay còn rất hạn chế. Bên cạnh đó, những hệ thống đi đánh dấu, lưu trữ dữ li ệu chỉ mục hiện nay như DBLP, hay hệ thố ng đi thu thập dữ liệu chỉ mục như ACI [3] của thư viện số CiteSeer chưa đảm bảo được tính cập nhật các bài báo mới , vì các nguồn lấy dữ li ệu của các hệ thống phụ thuộc vào các thư viện số.
