Khóa luận Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin
- Người chia sẻ :
- Số trang : 61 trang
- Lượt xem : 12
- Lượt tải : 500
- Tất cả luận văn được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
Bạn đang xem trước 20 trang tài liệu Khóa luận Tìm hiểu về web crawler và xây dựng website tổng hợp thông tin, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD LUẬN VĂN ở trên
Ngày nay nhờ sự bùng nổ của công nghệ thông tin, lịch sử nhân loại đã bước sang một trang mới. Những thành tựu của ngành công nghệ thông tin là vô cùng to lớn, nó đã chi phối và làm thay đổi mọi mặt của đời sống xã hội, làm cho cuộc sống của con người văn minh, hiện đại hơn. Sự ra đời của internet chính là bước tiến vĩ đại của nhân loại, là yếu tố quan trọng bậc nhất chi phối cuộc sống của chúng ta ngày nay. Nhờ có internet thế giới trở nên ‘phẳng’ hơn, ở mọi nơi trên trái đất chúng ta đều có thể học tập và tìm kiếm thông tin. Theo guồng quay của cuộc sống, thế giới internet ngày càng rộng lớn và phong phú hơn. Cứ mỗi phút trôi qua có thêm hàng triệu trang web được sinh ra đểlàm giàu cho vốn tài nguyên tri thức của nhân loại. Nhưng cũng chính vì thế mà việc chọn lọc, tìm kiếm thông tin lại trở nên khó khăn hơn. Với kho dữ liệu đồ sộ như internet, vấn đề trích xuất và tổng hợp thông tin đã trở thành vấn đề thực sự cấp thiết hiện nay. Nếu giải quyết được vấn đề này chúng ta sẽ loại bỏ được một chướng ngại lớn trên con đường tổng hợp thông tin của nhân loại. Đề tài khóa luậnđặt ra vấn đề tìm hiểu về trìnhthu thập thông tin trên web và bước đầu sẽ xây dựng một ứng dụng có khả năng tổng hợp thông tin tự động từ các trang báo điện tử lớn. Đề tài nếu thành công sẽ là bước đi không nhỏ giúp cho việc tổng hợp thông tin trở nên đơn giản hơn, giảm được nhiều chi phí công sức so với việc tổng hợp thủ công, và là tiền đề để xây dựng nên một hệ thống máy tìm kiếm, giống như google, cho người Việt Nam. Nội dung của khóa luận sẽ tập trung vào các mục tiêu chính sau: – Đưa ra được một cái nhìn tổng quát về trình thu thập web (web crawler) -Xây dựng một ứng dụng website tổng hợp thông tin cókhả năng thu thập các bản tin từ các trang báo lớn như Dân trí. Để giải quyết được các mục tiêu này, khóa luận được chia thành ba chương lớn: Chương 1: Tìm hiểu về trình thu thập web Trong chương này, chúng ta sẽ lần lượt tìm hiểu các khái niệm cơ bản trong trình thu thập web. Phần lớn nội dung trong chương này sẽ đi sâu vào việc tìm hiểu các thành phần cấu thành nên một trìnhthu thập, các chiến lược thu thập dữ liệu, việc đánh giá của trình thu thập đối với trang web. Qua đó chúng ta sẽ có một bức tranh chung Tìm hiểu về web crawlervà xây dựng websitetổng hợp thông tin 2010 2 về trình thu thập web, và có thể hiểu hơn về các giá trị thực tiễn mà nó mang lại trong đời sống của con người. Chương 2: Xây dựng ứng dụng website tổng hợp thông tin Phần đầu chương sẽ trình bày về các kiến thức nền tảng và các công nghệ liên quan, ở phần tiếp theo là các đánh giá phân tích và các giải pháp nhằm nâng cao hiệu suất của trình thu thập, phần cuối chương là việc hiện thực hóa ứng dụng thông qua việc xây dựng hệ thống cơ sở dữ liệu và thiết kế giao diện website.Cũng trong phần này tôi sẽnêu ra hai cách thu thập thông tin. Một là cách làm phổ biến hiện nay tôi gọi là cách làm truyền thống, một là cách làm mới tôi tìm ra. Cách làm mới này tối ưu hơn và có thể giải quyết được các hạn chế trongcách làm truyền thống. Chương 3: Kết luận Phần k ết luận cũng là phần cuối của khóa luận sẽ nhìn lại những điều đã làm được trong khóa luận này, nêu lên những vấn đề còn vướng mắc, từ đó đề ra hướng phát triển tiếp theo cho đề tài.
