Đề tài Xây dựng và làm giàu dữ liệu chỉ mục với web crawler

Người chia sẻ :
Số trang : 89 trang
Lượt xem : 24
Lượt tải : 500

Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại

NHẬP MÃ XÁC NHẬN ĐỂ TẢI LUẬN VĂN NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Bạn đang xem trước 20 trang tài liệu Đề tài Xây dựng và làm giàu dữ liệu chỉ mục với web crawler, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên

Cùng với sự phát triển của Internet, số lượng các bài báo khoa học được công bố trên các Web ngày càng tăng, điều này gây ra một s ố khó khăn khi người dùng muốn tìm kiếm các bài báo về vấn đề mà mình nghiên cứu, cũng như gây ra một thách thức lớn đối với các hệ thống đánh dấu, lưu trữ dữ li ệu chỉ mục hỗ trợ tìm kiếm trong việc đảm bảo thông tin các bài báo được cập nhật đẩy đủ, nhanh chóng và chính xác. Hiện nay khi người nghiên cứu cần tìm kiếm một bài báo khoa học, thì họ có th ể tìm kiếm trên các Search Engine như Google Scholar 1 , và một số thư viện số phổ biến như: ACM 2 (thư viện số của tổ chức “Association for Computing Machinery”), IEEEXplore 3 (thư viện số của tổ chức “Institute of Electrical and Electronics Engineers”), thư viện mở CiteSeer 4 hoặc từ cơ sở dữ li ệu chỉ mục có sẵn như DBLP 5 . Vấn đề đặt ra ở đây là: đối với mỗi thư viện số thì vi ệc cập nhật bài báo mới được thực hiện ngay khi có các cuộc hội thảo hay tạp chí mà tổ chức xuất bản, nhưng thư viện số không cập nhật ngay được những bài báo mới từ tổ chức khác – hay việc trao đổi dữ li ệu giữa các thư viện số của các tổ chức khác nhau hiện nay còn rất hạn chế. Bên cạnh đó, những hệ thống đi đánh dấu, lưu trữ dữ li ệu chỉ mục hiện nay như DBLP, hay hệ thố ng đi thu thập dữ liệu chỉ mục như ACI [3] của thư viện số CiteSeer chưa đảm bảo được tính cập nhật các bài báo mới , vì các nguồn lấy dữ li ệu của các hệ thống phụ thuộc vào các thư viện số.

NHỮNG LUẬN VĂN LIÊN QUAN

Công Nghệ Thông Tin

Thuật toán tô màu đồ thị và ứng dụng xếp lịch thi

Với hình thức học chế tín chỉ, sinh viên có thể chủ động chọn đăng kí môn học theo kế hoạch học tập của mình. Điều này làm cho việc xếp lịch thi trở nên khó khăn hơn. Phòng đào [...]

Download

Công Nghệ Thông Tin

Nghiên cứu xây dựng Website bằng Flash và WebService

Đề tài này trình bày phương pháp lập trình để xây dựng hệ thống website bằng flash và webservice. Với phương pháp này, chúng ta có thể dễ dàng xây dựng được những web site có giao diện đẹp với [...]

Download

Công Nghệ Thông Tin

Thời gian Logic Vector và vấn đề đồng bộ hóa các tiến trình trong bài toán bãi đỗ xe nhiều cổng

Ngày nay, một trong những hướng nghiên cứu quan trọng trong hệ thống phân tán đó là vấn đề đồng bộ hóa các tiến trình sử dụng tài nguyên dùng chung. Để đạt được điều đó thì chúng ta phải [...]

Download

Công Nghệ Thông Tin

Thư viện học liệu trực tuyến

Trong quá trình học tập, việc tìm kiếm tài liệu, trao đổi kiến thức và áp dụng các kiến thức đã học được là một điều rất quan trọng. Tuy nhiên, không phải sinh viên nào cũng có điều kiện [...]

Download